论文粗读“Dual Mutual Information Con

2023-10-27  本文已影响0人  掉了西红柿皮_Kee

Li, Hongyu et al. “Dual Mutual Information Constraints for Discriminative Clustering.” AAAI Conference on Artificial Intelligence (2023).

摘要导读

深度聚类是机器学习和数据挖掘中的一项基本任务,旨在学习面向聚类的特征表示。在以往的研究中,大多数的深度聚类方法都遵循自监督表示学习的思想通过最大化相似实例对的一致性,而忽略特征冗余对聚类性能的影响。因此,作者设计了一种基于深度对比聚类结构的双互信息约束聚类方法DMICC,其中双互信息约束给出了坚实的理论保证和实验验证。具体来说,在特征层面上,通过最小化所有维度上的互信息来减少特征之间的冗余,以鼓励神经网络提取更多可辨别的特征。在样本层面,最大化相似实例对的互信息,以获得更无偏和鲁棒的表示。双互信息约束同时作用,相互补充,共同优化适合聚类任务的更好的特征。

具体的概念图如下所示: 粗浅一点解释的话,就是将特征选择和表示学习利用互信息做成了相互促进补充的关系,从而学习适合下游任务的特征表示。
方法浅析

首先通过两个数据增强来构造数据对。然后,使用参数共享网络从不同的数据扩充中提取特征。并且对从两个分支中提取的特征进行IMI约束,然后采用非参数SoftMax,对每个分支进行FMI约束,用于学习可辨别的样本特征。

--
IMI Constraint 作者试图引入对比学习来最大限度地提高对由同一组图像生成的增强实例对的MI约束,从而产生更无偏和鲁棒的特征。
假设原始的图像输入为X,经过数据增强得到的图像分别为X^1X^2,其对应的矩阵为F^1=[v^1_1;\cdots;v^1_b]F^2=[v^2_1;\cdots;v^2_b]。其中v_i^1=f_{\theta}(x_i^1),v_i^2=f_{\theta}(x_i^2)。目标是最大化相应表示的MI:

假设在基于参数共享模型的两个分支上的特征表示的大小都是[b, d]
其联合分布可以表示为:P=\frac{1}{b}\sum_{i=1}^bF^1(F^2)^T
边缘分布P(v_i^1)=\sum_{j=1}^dP(v^1_i, v^2_j), P(v_j^2)=\sum_{i=1}^dP(v^1_i, v^2_j)
(这里可以想成是i来自第一个b,而j是第二个b的索引)。
考虑到矩阵的对称性,P(P+P^T)/2进行对称化。所以有如下的IMI形式:I(F^1, F^2)=\sum_{i=1}^d\sum_{j=1}^dP(v_i^1, v_j^2)\log\frac{P(v_i^1, v_j^2)}{P(v_i^1)P( v_j^2)}
其对应的损失函数形式为:\mathcal{L}_{IMI}=-\sum_{i=1}^d\sum_{j=1}^dP(v_i^1, v_j^2)\log\frac{P(v_i^1, v_j^2)}{\gamma^2 P(v_i^1)P( v_j^2)}
其中\gamma是一个非零常数。在实验中,原始的MI解可能会得到平凡的解。因此,考虑通过放宽边缘分布来进一步增加熵的共享性来避免平凡解。
从论文的整体来看,主要是将特征选择和表示学习利用互信息结合在一起。在笔者看来,无论是否引入实例识别部分(Instance discrimination Backbone )好像对两种互信息的约束都没有影响,因此,对于模型中为什么一定要存在这一部分交代的不是很明白。可能需要去再阅读下作者引用的idea的原文。。
上一篇 下一篇

猜你喜欢

热点阅读