论文阅读“A Clustering-guided Contras

2023-03-04  本文已影响0人  掉了西红柿皮_Kee

Ke G, Chao G, Wang X, et al. A Clustering-guided Contrastive Fusion for Multi-view Representation Learning[J]. arXiv preprint arXiv:2212.13726, 2022.

摘要导读

在过去的二十年里,多视图表示学习领域取得了越来越快的进展,多视图方法可以从不同的领域提取有用的信息,促进了其应用程序的发展。然而,该社区面临着两个挑战: i)如何从大量的未标记的数据中学习鲁棒的表示,以对抗噪声或不完整视图的情况;ii)在各种下游任务中,如何平衡视图的一致性和互补性。为此,本文利用深度融合网络,将各视图特定的表示融合到视图公共表示中,提取高级语义来获得鲁棒表示。此外,采用了一个聚类任务来指导融合网络,以防止得出平凡的解决方案。为了平衡一致性和互补性,提出的模型中设计了一个非对称的对比策略,来对齐视图公共表示和每个视图的特定表示。以上这些模块被纳入到一个统一的框架中,称为 Clustering-guided Contrastive Fusion(CLOVEN)。在不完全视图数据的情况下,提出的方法可以更好地抵抗噪声干扰。可视化分析表明,CLOVEN可以保留视图特定表示的内在结构,同时提高了视图表示的紧凑性。

模型浅析

从模型图的设计可以看出,该模型将多视图融合的过程也做成了深度融合的形式。简单来说,设计了一个相对复杂的融合模块,而在融合模块之后也是一个常规的聚类驱动的反调。因为前序的View-specific Encoders都是常规操作,这里对其所用的结构不进行赘述,各位可移步到实现细节的部分看各个视图编码器的结构。这里主要对融合模块,以及所采用的非对称对比策略进行分析。

  1. 最简单的方式是使用堆叠的全连接层(vanilla MLP),将视图特定的表示映射到低维的语义表示空间中: 然而,先前的工作表明,当网络变得更深(即层数增加)时,该网络可能会学习到这个无价值的解决方案。因此,这里引入了如下的残差块(residual block): 其中norm(\cdot)表示batch normalization。
  2. 为提高Z的表示能力,作者设计了两个子模块ScaleBlock和LatentBlock分别用于将中间层升维为输入的2倍然后再映射到输入维度以及将输入降维到一半再映射到输入维度。升维的过程可以看成是稀疏编码的过程,将会增加嵌入表示的多样性,而降维表示等价于information bottleneck,会增强中间层的表示能力。两个模块所对应的操作分别可以形式化为如下: 因此,文中的残差块可以表示为: 该模块使融合网络更加深入,同时减轻了深层网络的负面影响。

整个模型中较为出彩的模块就是融合模块的设计,即保留了各视图之间的表示,也学习了视图共用表示。改观了笔者对融合模块的映像。后续可以添加将其作为一个额外的映射空间做对齐融合。

上一篇 下一篇

猜你喜欢

热点阅读