论文阅读“Incomplete multi-view clust

2022-08-05  本文已影响0人  掉了西红柿皮_Kee

Chao G, Wang S, Yang S, et al. Incomplete multi-view clustering with multiple imputation and ensemble clustering[J]. Applied Intelligence, 2022: 1-11.

摘要导读

多视图聚类是机器学习和数据挖掘中的一项重要而具有挑战性的任务。在过去的十年中,这一课题引起了广泛的关注,并取得了许多进展。然而,在现实中,由于机器错误、传感器故障等不同的因素,多视图数据大多不完整,因此如何处理这一问题成为一个挑战。(首先提出不完整聚类任务)现有的一些工作主要是处理视图缺失的情况,这意味着在数据集的某些视图中,某些样本的整体特征会丢失。(整体视图的缺失)实际上,缺失值可以发生在任何位置,即在任何视图中都会遗漏一些值。(视图中任意值的缺失)针对较为平凡的任意值缺失问题,本文提出了一种包含多重推断和集成聚类的两阶段算法来处理任意值缺失情况下的多视图聚类。采用多重推断法处理缺失值问题,采用加权集成聚类法实现多视图聚类。

Intro

以多视图数据中的某个视图为例,说明view missing case 和 any value missing case二者之间的不同,

其中O_n表示第n个样本,F_m表示第m维特征。很明显,所谓视图缺失是指由于外部原因导致的整个视图特征未被采集到,而任意值缺失则是更加普遍的一种现象且更难处理。

当前处理多视图中缺失值的技术主要分为:删除有缺失值的样本(当缺失值较多时,可能会丢失较多的有效信息),对缺失值进行计算补齐imputation(这里分为single imputation 和 multiple imputation,其中单一推断法方法包括平均推断法、随机推断法、回归推断法、EM(期望最大)推断法等;多重推断(MI)多次计算缺失值,以考虑到缺失值的不确定性,在大多数情况下表现更好),不做任何处理(用矩阵来指示视图缺失或者值缺失,这些缺失的值不参与运算)。
现有方法:(1)借助指示矩阵,缺失样本或视图不参与运算;(2)首先推断缺失值,然后使用多视图算法对其进行聚类。二者的区别在于前者更适合处理缺失视图的情况,而后者则可以处理任何缺失值的情况。

method

为了解决视图缺失和多视图聚类问题,本文(1)采用当前较为流行的MI方法来处理缺失值,并探索了不同的MI方法来选择最佳和最稳定的方法,以达到一组完整的数据集,然后(2)考虑不同视图的贡献,采用了视图加权策略进行集成聚类。

One of the most significant advantage of multiple imputation is that it can recover the incomplete datasets without caring about the form of incompleteness. Given that most of existing multi-view clustering algorithms are confined to deal with view missing datasets, the introduction of multiple imputation to clustering could bring about a great improvement of the performance of algorithms. Further more, multiple imputation yields multitude of datasets and ensemble clustering is exactly good at processing large scale datasets simultaneously.
因此,多重推断不仅可以满足对缺失值的补全,甚至可以达到和生成模型一样的效果,产生更多新的样本。


该论文中对多视图数据的定义和MI涉及到的m个数据切片很模糊,在算法部分的描述视图v和切片m的转换好像也没交代清楚,也可能是我自己太菜了没捋清楚。为了不误导大家,这里放一个论文中的算法流程供大家理解。

我理解的应该是每个视图都被转换为m个对应的切片,然后把m-th对应的视图组合在一起,形成m个完整的多视图子数据集,类似于bagging的思路。然后用于后续的集成。
上一篇下一篇

猜你喜欢

热点阅读