论文阅读“Deep Cross-Modal Subspace C

2023-12-15 本文已影响0人掉了西红柿皮_Kee

Deep Cross-Modal Subspace Clustering with Contrastive Neighbour Embedding

摘要导读

深度跨模态聚类近年来发展迅速，引起了广泛关注。它的目的是从不同模态的深度神经网络中学习一个一致的子空间以此来提升聚类性能。然而，大多数现有的方法在重构跨模态数据时，并不同时考虑每个模态的内在信息和邻居几何结构，不可避免地降低了公共子空间所揭示的簇结构的准确性。
本文提出了一种基于一致近邻嵌入表示的深度跨模态子空间聚类方法（DCSC-CNE）来解决上述问题。该方法可以保持各模态的固有独立性，同时探索不同模态之间的一致信息。此外，我们在提出的深度跨模态子空间聚类框架中引入了对比学习，以突出原始数据的潜在邻居几何和学习有区别的潜在（子空间）表示。通过这种方式，DCSC-CNE集成了一致的内在学习和对比邻域嵌入到一个统一的深度学习框架中。在四个实验数据集上的实验证明了所提方法的有效性。

模型记录

提出的模型框架主要分为三个部分，分别对应三项损失：

Consistent-Inherent Learning
传统的一致性学习的目标是学习一个共享的自表示系数（一致性表示）矩阵 $\text{S} \in \mathbb{R}^{n \times n}$ ，来重构各视图。该操作又叫视图自表示学习，一般形式化为如下：
显然，该目标只关注了多个视图之间的一致性表示，忽略了各视图的内在表示信息。为重视各视图之间的差异性，该论文引入了视图的内在表示矩阵 $D^v \in \mathbb{R}^{n\times n}$ 。由此，将视图间一致性表示和各视图的内在表示结合起来 $H(D^v+S)$ 用于视图的重构：从上式可以看出，其约束条件由 $diag(S+D^v)=0$ 放宽为二者各为 $0$ 。通过上式的一致性-内在学习，可以在获取一致性信息的基础上更大程度的保留了各视图的特性。可以看做是一种巧妙的视图解耦的方式，但不同点在于， $S$ 和 $D^v$ 并没有强制正交或互信息最小化。
综合考虑融合的公平性和泛化性，最后用于谱聚类的亲和矩阵 $C$ 如下：
Within-view Reconstruction
不同于传统的通过编码器 $\theta_{e^v}$ 得到中间表示 $H^v$ ，在解码的部分，将一致性矩阵 $S$ 和视图内在矩阵 $D^v$ 都融入在了解码的过程中，即解码器 $\theta_{d^v}$ 的输入是 $H^v(S+D^v)$ 。重构损失则用于学习这编码和解码的参数：需要注意的是，视图内的重建损失只能保证特征空间中的全局基本数据结构，并可能难以保留数据的局部结构。
Contrastive Neighbour Embedding
拉普拉斯特征映射（LE）的本质是指在高维空间中彼此接近的点，应在投影到低维空间的同时保持它们的接近性。这有助于保持数据的局部结构，其相应的损失约束为：我们平时使用的是上式中的第一个表达， $h_p^v$ 和 $h_q^v$ 分为代表视图 $v$ 中的 $p$ -th和 $q$ -th的两个样本点。 $A_{p,q}$ 是矩阵中的第 $(p,q)$ 个元素。L是拉普拉斯矩阵，即L=B-A，其中A是邻接矩阵： B表示对角矩阵（度矩阵），其对角元素为A矩阵的行或列的和，I为单位矩阵。
构造邻接图A和进行图嵌入被证明是有益于表示学习的。然而，由于缺乏有监督的标签信息，探索如何使构建的邻接图具有判别性和鲁棒性仍然是一个挑战。
为了学习具有判别性的表示，受【对比拉普拉斯特征映射】的启发，本文提出构造一个邻接矩阵图，并利用基于图的正负样本进行判别结构的学习。具体来说，使用自表示系数矩阵来构造正例图以保持一致性；选择一个随机生成的度归一化拉普拉斯矩阵来作为负例图。

正例：由上述操作进行对称正则化，将拉普拉斯映射损失表示为:
负例：这里文章中只是说随机产生度归一化的拉普拉斯矩阵，也没交代 $\hat{A}$ 具体是怎么构造的。笔者这里的理解是随机生成对应的一个临接矩阵 $\hat{A}$ ，然后计算 $\hat{B}$ 之类的？（如果不对请指正）。通过随机生成损失函数k次并对其值进行平均，得到的关于负例的损失函数：
总体
其中 $\xi$ 是视图的平衡因子， $\Delta$ A为如下的形式：其中, $\eta$ 用于平衡负例A $^-$ 。（由此，必须要构造 $\hat{A}$ ）

# 算法流程
输入：X_1, X_2, 类簇个数f, 训练次数E
输出：网络参数theta, 亲和矩阵C, 聚类结果
1. 初始化总体损失函数中的lamda_1,lambda_2, 以及学习率
2. 通过重构损失预训练各视图的编码器
3. 通过总体损失L训练编码器参数
4. 设置平衡因子和学习率重复执行2-3
5. 得到一致性表示矩阵S和各视图内在表示矩阵D^v
6. 计算得到C并基于C执行谱聚类
7. 给出聚类结果

文中并没交代S和D^v的初始化，应该是随机初始化，然后再进行参数学习的吧。。

比较喜欢第一部分中基于自表示的解耦学习，直接统一了一致性信息和视图特有信息。感觉在实操上可以直接初始化为两个不带偏置的线性层。另外就是对比的近邻嵌入，在组里的一些操作中，我们也做过近邻嵌入的约束，验证了其可行性。这种基于对比的近邻嵌入看上会对学习具有判别性的表示更加友好。

论文阅读“Deep Cross-Modal Subspace C

摘要导读

模型记录

猜你喜欢

热点阅读