论文阅读“Multi-VAE: Learning Disenta

2022-07-05 本文已影响0人掉了西红柿皮_Kee

Xu J, Ren Y, Tang H, et al. Multi-VAE: Learning disentangled view-common and view-peculiar visual representations for multi-view clustering[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. 2021: 9234-9243.

摘要导读

作者表示当前的多视图聚类任务经常通过融合多个视图表示或在一个共同的特征空间中处理聚类，这可能会导致各种特征纠缠在一起，特别是在视觉表示中。本文提出了一个基于VAE的多视图聚类框架来学习视图表示，总体来说在生成模型中引入了一个视图共有变量和多个视图特有变量。具体来说，视图共有变量先验近似服从离散的Gumbel Softmax分布，用于抽取多个视图中共享的类簇因子。同时，视图特有变量先验服从连续高斯分布，以学习各视图的特定的视觉特征。通过控制互信息来解耦视图共享表示和视图特有表示，这样离散的类簇信息和连续的视图信息将会被很好的挖掘。

模型浅析

问题声明
给定多视图图像数据集 $\{x_i^1,x_i^2, \cdots,x_i^V\}_{i=1}^N$ ，每个样本包含 $V$ 个视图分别包含不同的视觉信息， $N$ 是数据集的大小。多视图聚类的目的是将综合给定的视图特征降样本分配到 $K$ 个类簇中。
网络结构
整体的动机是通过VAE学习解耦的多视图表示，具体做法是引入相互独立的视图共有变量 $c \in \mathbb{R}^K$ 和视图特有变量 $\{z^v \in \mathbb{R}^{Z_v}\}_{v=1}^V$ 来建模多视图数据。也就是说，整个模型需要考虑如下的生成模型（联合概率）： $p(x^v,z^v,c)\\=p(x^v|z^v,c)p(z^v,c)\\=p(x^v|z^v,c)p(z^v)p(c)$ 其中， $c$ 对应数据的类簇信息，由所有视图共享。 $z^v$ 则是每个视图对应的不同的特征。由此，可以得出， $c$ 和 $z^v$ 的后验分别可以写成 $p(c|\{x^v\})$ 和 $p(c|x^v)$ ，考虑到在VAE中难以计算后验的积分。在模型中使用 $\phi$ 和 $\phi^v$ 参数化 $q_{\phi}(c|\{x^v\})$ 和 $q_{{\phi}^v}(z^v|x^v)$ 来近似真正的后验。

推断过程
在推断过程中，所有视图的嵌入表示被拼接到一起以学习数据的共有信息。随后，通过 $K$ （i.e. $s=\{s_1,s_2, \cdots, s_K\}$ ）个神经元获取视图共有向量 $c$ 。具体地说，为了轻松地表示数据的聚类分配，期望 $c$ 是一个one-hot表示。然而，离散随机变量对于神经网络的参数是不可微的。因此，本文中， $p(c)$ 被表示为相互独立均匀的Gumbel Softmax分布的乘积 $p(c)=p(c_1)p(c_2)\cdots p(c_K)$ ，其中 $p(c_k) \sim Gumbel(0,1 )$ 。因此，近似后验 $q_{\phi}(c|\{x^v\})$ 表示为如下： $q_{\phi}(c|\{x^v\}) = \prod_{k=1}^{K}q_{\phi}(c_k|\{x^v\}$ 。为了让整个过程变得可微，本文引入了Gumbel-Max重参数技巧：
其中， $g_k∼Gumbel(0,1)$ 和 $\tau$ 是温度参数。
不同于类簇信息，模型假设其他的视图特有信息是连续的，每个变量的先验是标准正太分布， $p(z^v)=\mathcal{N}(0,I)$ 。 $q_{\phi^v}(z^v|x^v)$ 被参数化为高斯因子乘积：同理，根据重参数技巧，有如下的等价表示：
生成过程
在生成的过程中，视图共有特征 $c$ 和视图特有特征 $z^v$ 拼接在一起生成对应的样本 $\hat{x}^v$ 。即，给定视图 $v$ 的生成如下：
在整个结构中，参数 $\phi, \{\phi^v\}, \{\theta^v\}$ 是部分共享的。
Multi-VAE-C：
由于 $c$ 是one-hot表示的近似值，因此第 $i$ 个样本的类簇预测可以通过：
Multi-VAE-CZ：
鉴于多个视图的视觉信息可能是类簇信息的补充，分离出的视图表示被缩放到[0,1]，并将它们拼接起来形成一个全局潜在表示 $[c; {z^v}]$ , 然后将其喂入 $K$ -means得到聚类分配。