集成聚类回顾
目录
一、介绍
二、集成聚类的问题
- 数据聚类和传统的方法
- 集成聚类的基础
1)问题的公式
2)集成生成策略
3)集成的聚类的功能
三、集成聚类方法
- 直接方法
- 基于特征的方法
- 基于成对相似性的方法
- 基于图的方法
四、最近的扩展和应用
- 理论的提升和扩展
1)集成生成
2)多重聚类的表示与总结
3)共识聚类 - 集成聚类的应用
1)特异性的问题域
2)其他数据最小化任务的应用
五、挑战与总结
一、介绍
在理解原始数据的初始阶段经常使用聚类分析,尤其对于先验知识很少的这种新问题。此外,在监督学习的预处理阶段,它被用来识别离群值和可能的对象类,用于以下的专家指导的标记过程。当现代信息的复杂性对于人类的调查具有很强的影响时,这一点至关重要。因此,获取知识或从过量的数据中学习的需求是让聚类成为高度活跃的研究主题的一个主要驱动力。数据聚类应用于各种问题领域,如生物学,消费者关系管理,信息检索,图像处理,市场,心理学和推荐系统等。除此以外,最近的癌症基因表达聚类技术的发展吸引了在计算机科学家,生物学和临床研究人员的极大的兴趣。
聚类分析的核心是将数据分成多组或多类别的聚类过程,比如在相同类别的样本彼此之间会比在不同类别间的样本更具有相似性。被检查的对象通常用特定对象(例如属性值)或相对测量(例如成对的不同性)来描述。不同于被分类的监督学习,聚类是无监督的,不需要类信息的,这些类信息通常是该领域内的专家通过在数据对象上通过手工标记类别来实现的。基于其潜力,大量的研究集中在聚类分析的几个方面:如对特定数据类型的聚类算法和扩展,不同的度量,最优化的聚类数量,每个类别或子空间聚类的数据相关性,集成聚类等。
集成聚类的实践是由大多数聚类技术的性能高度依赖数据的事实所驱动的,一个特定的聚类模型可以给一个数据集生成可接受的结果,但可能对其他的数据集无效。一般来说,聚类算法有两个固有的主要挑战:
第1, 不同的技术从同一个数据集中发现不同的结构(比如类别尺寸和形状)。比如,最众所周知的k-means聚类算法适用于球形的数据,而单链接层次聚类能有效地检测连接模式,这是因为每个不同的算法是用来优化一个特定标准。
第2, 第二,一个不同参数设定的单一聚类算法也可以揭示同一数据集上的各种结构,一个特定的设置可能适合一些数据集,但不是所有的数据集。因此,用户提出的这些挑战,最终使适当的聚类技术的选择变得更困难。
解决这一困境仍然是最终目标,为了解决这个困境,研究者发明了将不同的聚类组合成一个统一的聚类的方法。这个被称为聚类继承的过程能够在不同的领域和数据集提供更强的鲁棒性和稳定性的解决方法。对于在没有先验知识的情况下组合数据分区和产生一个更好的聚类结果的需求上升,使得研究人员对进一步的挑战非常感兴趣。
这篇survey的余下部分由这些组织,为本文提出的概念和讨论提供场景,第二节介绍继承聚类的基础,包括形式的定义,框架和不同的集成生成策略。接着,四个主要的发现一个集成的聚类的方法在第三部分展开来说。另外,第四部分提供这些聚类集成技术的应用和最近的理论拓展,尤其是将集成信息作为分类任务的数据转换使用方法。在第五部分总结未来的研究方向。