论文阅读“Multi-VAE: Learning Disenta

2022-07-05  本文已影响0人  掉了西红柿皮_Kee

Xu J, Ren Y, Tang H, et al. Multi-VAE: Learning disentangled view-common and view-peculiar visual representations for multi-view clustering[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. 2021: 9234-9243.

摘要导读

作者表示当前的多视图聚类任务经常通过融合多个视图表示或在一个共同的特征空间中处理聚类,这可能会导致各种特征纠缠在一起,特别是在视觉表示中。本文提出了一个基于VAE的多视图聚类框架来学习视图表示,总体来说在生成模型中引入了一个视图共有变量和多个视图特有变量。具体来说,视图共有变量先验近似服从离散的Gumbel Softmax分布,用于抽取多个视图中共享的类簇因子。同时,视图特有变量先验服从连续高斯分布,以学习各视图的特定的视觉特征。通过控制互信息来解耦视图共享表示和视图特有表示,这样离散的类簇信息和连续的视图信息将会被很好的挖掘。

模型浅析
  1. 推断过程
    在推断过程中,所有视图的嵌入表示被拼接到一起以学习数据的共有信息。随后,通过K(i.e. s=\{s_1,s_2, \cdots, s_K\})个神经元获取视图共有向量c。具体地说,为了轻松地表示数据的聚类分配,期望c是一个one-hot表示。然而,离散随机变量对于神经网络的参数是不可微的。因此,本文中,p(c)被表示为相互独立均匀的Gumbel Softmax分布的乘积p(c)=p(c_1)p(c_2)\cdots p(c_K),其中p(c_k) \sim Gumbel(0,1 )。因此,近似后验q_{\phi}(c|\{x^v\})表示为如下:q_{\phi}(c|\{x^v\}) = \prod_{k=1}^{K}q_{\phi}(c_k|\{x^v\}。为了让整个过程变得可微,本文引入了Gumbel-Max重参数技巧:

    其中,g_k∼Gumbel(0,1)\tau是温度参数。
    不同于类簇信息,模型假设其他的视图特有信息是连续的,每个变量的先验是标准正太分布,p(z^v)=\mathcal{N}(0,I)q_{\phi^v}(z^v|x^v)被参数化为高斯因子乘积: 同理,根据重参数技巧,有如下的等价表示:
  2. 生成过程
    在生成的过程中,视图共有特征c和视图特有特征z^v拼接在一起生成对应的样本\hat{x}^v。即,给定视图v的生成如下:

    在整个结构中,参数\phi, \{\phi^v\}, \{\theta^v\}是部分共享的。
  3. Multi-VAE-C:
    由于c是one-hot表示的近似值,因此第i个样本的类簇预测可以通过:

  4. Multi-VAE-CZ:
    鉴于多个视图的视觉信息可能是类簇信息的补充,分离出的视图表示被缩放到[0,1],并将它们拼接起来形成一个全局潜在表示[c; {z^v}], 然后将其喂入K-means得到聚类分配。

上一篇 下一篇

猜你喜欢

热点阅读