论文阅读“Adversarial Incomplete Mult

2022-08-06 本文已影响0人掉了西红柿皮_Kee

Xu C, Guan Z, Zhao W, et al. Adversarial Incomplete Multi-view Clustering[C] //IJCAI. 2019: 3933-3939.

摘要导读

多视图聚类的目的是利用来自多个视图的信息来提升聚类效果。以前的大多数研究都假设每个视图都有完整的数据。然而，在真实数据集中，视图可能包含一些缺失的数据，导致不完整的多视图聚类问题。以往解决这一问题的方法至少有以下缺点之一：（1）采用浅层模型，不能很好地处理不同视图之间的依赖性和差异；（2）忽略了缺失数据所包含的隐藏信息；（3）专门用于双视图的情况。为了消除所有这些缺点，本文提出了一种对抗的不完全多视图聚类(AIMC)方法。与大多数现有的方法只使用现有的视图学习新的表示方式不同，AIMC寻求多视图数据的公共潜在空间，并同时执行缺失的数据推断。具体来说，提出的模型集成了元素重构和生成对抗网络(GAN)来推断缺失的数据。它们的目标是分别捕获数据的整体结构和获得更深层次的语义理解。此外，还设计了一个对齐的聚类损失，以获得更好的聚类结构。

符号和问题描述

在不完整的多视图聚类的设置中，样本具有多个视图，这些视图可能是完整的也可能是部分完整的。给定一个具有 $H$ 个视图、 $N$ 个完整样本和 $\tilde{N}$ 个不完整样本的数据集，如下图展示：

使用 $x^{(v)}_n /\tilde{x}^{(v)}_{\tilde{n}} \in R^{d_v} (v = 1, . . . , H)$ 来分别表示视图 $v$ 的第 $n$ / $\tilde{n}$ 个完整或不完整样本，其中 $d_v$ 是第 $v$ 个视图的数据维度。构建指示矩阵 $M \in R^{M \times \tilde{N}}$ 来记录视图的不完整性，该矩阵只针对视图表示不完整的样本。每个元素值由如下确定：

M

中每个列向量中的

0

代表着指定样本哪些视图是缺失的。对于

\tilde{n}

样本而言满足

不完整聚类任务的目的是将数据集中

N+\tilde{N}

个样本聚类到

K

个类簇中。

模型浅析

由模型图可以看出，整个架构是一个编码器-解码器流水线，分别包括了

H

个编码器

\{f_v\}_{v=1}^H

，

H

个解码器

\{g_v\}_{v=1}^H

和

H

个判别器

\{D_v\}_{v=1}^H

。编码器的目的是获得高级潜在表示

\{z^{(v)}\}

和公共潜在表示

z

。解码器利用这些表示来重建原始数据，并生成不完整实例的缺失视图。添加鉴别器是为了帮助训练该模型，以便更好地推断缺失的数据。编码器得到预测的缺失数据后，使用生成的完整数据计算公共表示，可以更好地捕获缺失数据的隐藏信息。

Encoder
第 $v$ 个编码器 $f_v$ 专门用于学习第 $v$ 个视图输入到对齐子空间 $z^{(v)} \in R^c$ 的映射。在每个视图中 $c$ 是相等的。这里使用 average pooling来得到每个样本的公共表示 $z$ 。为了实现更好的子空间对齐和对缺失数据的推断，这里将每个 $z^{(v)}$ 和 $z$ 放在相同的角色中（即输入到解码器）来重建相应的 $x^{(v)}$ 。这部分与大多视图的多视图自编码器是一致的。
Decoder
解码器 $\{g_v\}^H_{v=1}$ 用于重建原始数据 $x^{(v)}$ ，并使用公共潜在表示 $z$ 生成不完整实例的缺失视图。其输出 $\hat{x}^{(v)}$ 即是对原始输入 $x^{(v)}$ 的重构，也是对缺失数据的推断。然而，重构损失并不能明确地捕获数据维度之间的相关性，而这种相关性对于描述一个视图的潜在分布来说很重要。继而引入判别器 $\{D_v\}_{v=1}^H$ 来学习数据维度之间的相关性。对于每个视图，使用原始数据 $x^{(v)}$ 和重构数据 $\hat{x}^{(v)}$ 及其标签(分别为True和False)来训练鉴别器 $D_v$ 。每一对 $(g_v, D_v)$ 形成一种对抗关系，可以对数据有更深的语义理解，从而更好地生成缺失数据。
Loss Function
本模型通过原始的完整实例 $\{x^{(v)}_n\}$ 和不完整的实例 $\{\tilde{x}^{(v)}_\tilde{n}\}$ 来进行训练。其目标是学习多视图数据的通用表示，并同时精确地重建原始数据。
（1）Reconstruction Loss
第一部分为在完整样本中，分别使用公共表示 $z_n$ 和各视图表示 $z^{(v)}_n$ 的重构损失，第二部分为在不完整样本中，使用公共表示 $\tilde{z}_{\tilde{n}}$ 和各视图表示 $\tilde{z}_{\tilde{n}}^{(v)}$ 的重构损失。其对应的计算如下：
（2）Adversarial Loss
传统的GAN框架应用于多视图重构，将解码器作为生成器，即在提出的模型中，多视图重建的问题是在对抗性的设置中建模的，以学习条件分布的 $P_{data^{(v)}}(x^{(v)}|*)$ ， $P_{data^{(v)}}(\tilde{x}^{(v)}|*)$ ，其中 $*$ 为公共潜在表示 $z$ 、 $\tilde{z}$ ，或视图特定的潜在表示 $z^{(v)}$ 、 $\tilde{z}^{(v)}$ 。因此，这里的对抗损失可以分为4个部分，以 $z$ 为例的对抗损失表示为：其中红框内的条件可以进行置换。
（3）KL Aligned Clustering Loss
这部分主要是基于完整数据做一个聚类模块的对齐，其思路来自于DEC2016。这里充分利用了 $z$ 和 $z^{(v)}$ 的特征，首先为每个视图都构造了一个特有的 $q$ 分布：同时也使用公共潜在表示 $z_n$ 构造了 $q_{nk}$ ，并构造了所有视图的目标分布 $p_{nk}$ ：并强制拉近每个视图分布和目标分布之间的KL散度：通过优化 $\mathcal{L_D}$ ，可以逐渐缩小不同视图的分布差距，从而增强不同视图之间的公共潜在表示。
（4）Joint Loss