论文阅读“Multi-view graph embedding
Xia W, Wang S, Yang M, et al. Multi-view graph embedding clustering network: Joint self-supervision and block diagonal representation[J]. Neural Networks, 2022, 145: 1-9.
摘要概述
本文提出了一种多视图图嵌入聚类网络(MVGC)以弥补多视图聚类和图聚类之间的Gap。具体来说,与传统的多视图构造方法只适用于描述欧几里得结构数据不同,本文利用欧拉变换来增强节点属性,作为一个新的视图描述,用于非欧几里得结构数据(即构建图数据)。同时,使用ℓ1,2-范数施加块对角线对自表示稀疏矩阵进行约束,以很好地探索聚类结构。此外,利用学习到的聚类标签来指导节点表示和系数矩阵的学习,然后用系数矩阵进行后续的聚类。提出的方法实现了表示学习和聚类的连接优化,避免了次优解的出现。
In this way, clustering and representation learning are seamlessly connected, with the aim to achieve better clustering performance.
- 考虑块对角线表示对于聚类的学习
-
使用聚类标签指导表示学习
符号定义
这里主要是关于几个正则项的定义,如和等。模型浅析
结合图中给出的5个部分的loss来进行对模型的描述。
-
Attribute augmentation
其中,是一个参数,它被调整以抑制由异常值引起的值。
根据多视图数据的特点,本文认为现有的特征提取方法直接构建多个属性是一种简单而有效的方法。作者受核技巧可以捕获非线性特征的特点启发,提出使用欧拉变换来构建图结构数据。给定视图的样本,为该视图的数据维度。其变换公式如下,
通过以上操作,可以得到一个新的节点属性矩阵,原始节点属性为。由此,单视图的图结构数据被拓展为多视图数据。 -
Multi-view node subspace clustering module
(1)自表示学习模块
该模块的目的是学习一个由多个视图共享的系数表示,然后将节点分配到这个新子空间中的K个簇中的一个。通过将每个视图的节点表示和图结构传入一个两层的图卷积编码器,得到:
为了使该模块对下游的聚类更加友好,在此使用自表示学习模块来学习一个共享的自表示系数表示。
为了确保学习到的节点表示保留了足够的图结构信息,将第个视图的新表示随后输入内积解码器用于预测两个节点之间是否存在链接。 (2)一致性表示约束
为了确保模型能够在不同的视图之间学习到一个一致的子空间,本文使用了一个一致的表示约束来捕获来自不同视图的嵌入几何关系相似度。
经过上述步骤,可以学习到一个较为满意的自表示系数矩阵,由此可以构造Affinity矩阵 然后用于normalized cut谱聚类。 -
Block diagonal representation constraint
通过最小化上式,第行的平方ℓ1范数中的不同元素相互竞争,使得(第个样本表示)中至少有一个元素保留下来(保持非零)。通过这样做,每个类簇都保留了一些鉴别特征,为学习到的系数表示提供了一定的灵活性。使能够很好地保留块的对角线属性。
同时作者希望学习到的系数矩阵符合块对角线性质(BDP, block-diagonal property),以捕获正确的聚类分配。即,是一个K块对角,其中对应于属于j-th类簇的样本表示。因此,引入ℓ1,2范数来约束 -
Dual self-supervised mechanism
在该模块中,本文使用聚类标签分别对自表示和隐变量表示进行了反调约束。
(1)对隐含表示的自监督
这部分主要通过构造一个自分类模型将映射到类别空间来实现对的利用。主要包含两种分类的交叉熵损失,和类簇中心到分类表示(软分配)之间的距离(有助于压缩簇内变化)
(2)对自表示进行自监督
该部分利用最后一次迭代产生的聚类标签来监督自表示系数矩阵。具体来说,对于,只有当第个和第个节点具有相同的簇标签时,才非零。最后一次迭代得到的聚类结果可以为系数矩阵的微调提供丰富的信息,这对节点子空间的聚类具有重要意义。因此,最小化和伪标签矩阵之间的差异: 其中表示伪标签对应的向量表示。 -
总体损失和细节
根据前序模块的设定,模型的总体损失如下: 关于聚类标签的对齐,这里也是采用了匈牙利算法进行了最优的对齐。并且,类簇标签的调节是每5个epoch进行更新,以保证模型的稳定性。
另外,关于自表示模块的对角线为0的约束,也采用小trick来简化:(以tf1.x代码展示) 约束trick 总体的算法流程如下:
感觉在表示学习这一块,由于多视图的良好特性,很多工作都通过数据增强等模式对原有的单视图数据进行增强以扩展到多视图进行训练。本文的最大启发在于对角块约束的引入和对伪标签的利用。该思路既可以用于在行列学习之间建立关联关系,也使得聚类可以对学习进行反调,是对DEC聚类层及其变体(如)的一种简化。