论文阅读“Adversarial Incomplete Mult

2022-08-06  本文已影响0人  掉了西红柿皮_Kee

Xu C, Guan Z, Zhao W, et al. Adversarial Incomplete Multi-view Clustering[C] //IJCAI. 2019: 3933-3939.

摘要导读

多视图聚类的目的是利用来自多个视图的信息来提升聚类效果。以前的大多数研究都假设每个视图都有完整的数据。然而,在真实数据集中,视图可能包含一些缺失的数据,导致不完整的多视图聚类问题。以往解决这一问题的方法至少有以下缺点之一:(1)采用浅层模型,不能很好地处理不同视图之间的依赖性和差异;(2)忽略了缺失数据所包含的隐藏信息;(3)专门用于双视图的情况。为了消除所有这些缺点,本文提出了一种对抗的不完全多视图聚类(AIMC)方法。与大多数现有的方法只使用现有的视图学习新的表示方式不同,AIMC寻求多视图数据的公共潜在空间,并同时执行缺失的数据推断。具体来说,提出的模型集成了元素重构和生成对抗网络(GAN)来推断缺失的数据。它们的目标是分别捕获数据的整体结构和获得更深层次的语义理解。此外,还设计了一个对齐的聚类损失,以获得更好的聚类结构。

符号和问题描述

在不完整的多视图聚类的设置中,样本具有多个视图,这些视图可能是完整的也可能是部分完整的。给定一个具有H个视图、N个完整样本和\tilde{N}个不完整样本的数据集,如下图展示:

使用x^{(v)}_n /\tilde{x}^{(v)}_{\tilde{n}} \in R^{d_v} (v = 1, . . . , H)来分别表示视图v的第n/\tilde{n}个完整或不完整样本,其中d_v是第v个视图的数据维度。构建指示矩阵M \in R^{M \times \tilde{N}}来记录视图的不完整性,该矩阵只针对视图表示不完整的样本。每个元素值由如下确定:

M中每个列向量中的0代表着指定样本哪些视图是缺失的。对于\tilde{n}样本而言满足 不完整聚类任务的目的是将数据集中N+\tilde{N}个样本聚类到K个类簇中。
模型浅析

由模型图可以看出,整个架构是一个编码器-解码器流水线,分别包括了H个编码器\{f_v\}_{v=1}^HH个解码器\{g_v\}_{v=1}^HH个判别器\{D_v\}_{v=1}^H。编码器的目的是获得高级潜在表示\{z^{(v)}\}和公共潜在表示z。解码器利用这些表示来重建原始数据,并生成不完整实例的缺失视图。添加鉴别器是为了帮助训练该模型,以便更好地推断缺失的数据。编码器得到预测的缺失数据后,使用生成的完整数据计算公共表示,可以更好地捕获缺失数据的隐藏信息。
该论文思路非常清晰,充分应用了AE框架的优势结合GAN达到了对缺失视图数据的推断。其实验在三个多视图数据上都取得了很好的效果,

对于Youtube数据集数据量较大,并且模型涉及到了数据的推断生成,这里将基础框架换成VAE模型是不是可以兼顾数据推断和大数据集两个点?

作者的写作风格非常值的借鉴!!
上一篇 下一篇

猜你喜欢

热点阅读