论文阅读“ Improving unsupervised ima

2023-01-04 本文已影响0人掉了西红柿皮_Kee

Park S, Han S, Kim S, et al. Improving unsupervised image clustering with robust learning[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021: 12278-12287.

摘要导读

无监督图像聚类方法经常引入替代目标来间接训练模型，受到了faulty predictions and overconfident results的影响。为了克服这些挑战，目前的研究提出了一种灵感来自于鲁棒学习的创新模型RUC。提出的RUC模型的新颖之处在于利用现有图像聚类模型输出的伪标签作为一个可能包含错误分类样本的噪声数据集。其再训练过程可以修正错位的知识，缓解预测中的overconfident问题。该模型的灵活结构使其可以作为其他聚类方法的附加模块使用，并帮助它们在多个数据集上获得性能的提升。大量实验表明，该模型可以通过更好的校准来调整模型的置信度，并使得模型有对抗性噪声的鲁棒性。

整个过程可以概括为：使用现有无监督聚类方法对无标签数据进行聚类标签的预测，利用一定的采样策略（类似于主动学习中对样本的选择策略），构建clean data（有标签数据）及unclean data（无标签数据），然后利用半监督方法对样本重新进行标签的预测更新，进入下一轮迭代中...

MixMatch储备知识

MixMatch损失半监督领域毕竟经典且权威的算法，已经有大佬对其算法进行了阐述，这里给出链接。MixMatch

模型浅析

RUC是一种附加方法，可以与现有的无监督聚类方法结合使用，以实现对错误的预测进行改进。其关键思想是利用初始聚类结果作为噪声伪标签，然后通过一系列聚类假设和鲁棒学习技术来对这些预测标签进行修正。

划分clean data和unclean data

给定数据集 $\mathcal{D}=\{(x_i, y_i)\}_{i=1}^N$ , $x_i$ 为图像样本， $y_i=g_\phi(x_i)$ 是其对应的伪标签。首先需要使用模型将数据集划分为两个完全不相交的子集 $\mathcal{D}=\mathcal{X}\cup\mathcal{U}$ 。这里认为 $\mathcal{X}$ 是clean的，其伪标签是中等可信的，因此可以用作一个标记的数据集 $(x,y )\in \mathcal{X}$ 进行训练。而那些unclean的样本因为对应的标签的置信度较低被丢弃，这些样本形成的集合为 $\mathcal{U}$ 。作者这里使用了三种采样的方式：
（1）Confidence-based strategy
该方法基于无监督分类器的置信度得分来选择clean样本。给定任意 $(x, y) \in \mathcal{D}$ ，若其软分配 $y$ 满足 $max(y) > \tau_1$ ，那么将其划分到clean样本集合 $\mathcal{X}$ 中。
（2）Metric-based strategy
基于度量的方法利用了在无监督方式学习的额外嵌入网络 $h_\psi$ 。给定任意 $(x, y) \in \mathcal{D}$ ，首先计算其嵌入表示 $h_\psi(x)$ ，然后利用非参模型k-NN来得出 $y'=k-NN(h_\psi(x))$ 。如果其原始的软分配表示 $y$ 满足 $argmax(y')=argmax(y)$ ，那么 $(x,y)$ 被纳入 $\mathcal{X}$ 集合。
（3）Hybrid strategy
综合以上两种采样方式，若其对应的条件同时满足，则纳入clean data，否则纳入unclean data。

Retraining via Robust Learning

给定 $\mathcal{X}$ 和 $\mathcal{U}$ ，下一步的目标是训练改进的分类器 $f_{\theta}$ ，以修正初始无监督分类器的错误预测。
将 $\mathcal{X}$ 和 $\mathcal{U}$ 分别看做标记数据和无标记数据，做半监督聚类。在本文中使用的是经典半监督算法MixMatch，其过程可简化表示为：

其中

H(p,q)

表示交叉熵损失。
除此之外，本文还引入了label smooting。标签平滑通过添加均匀噪声来定义软标签，提高了预测中的校准。给定一个带有相应标签

(x,y )\in \mathcal{X}

的标记样本，将所有标签注入均匀噪声，如下所示：

C

是类别个数，

\epsilon \sim Uniform(0,1)

是噪声。这里使用软标记

\tilde{y}

和强增强样本

\phi_A(x)

的预测标记来计算交叉熵:

综合半监督的损失函数，最终其优化的目标可以表示为：

\lambda_{\mathcal{U}}

是其中的平衡因子。

为了避免overfitting带来的错误，在模型的设计中另外引入了一个共同训练模块，其中两个网络 $f_\theta(1)$ ， $f_\theta(2)$ 并行训练，通过增加一个co-refinement步骤来交换彼此的预测结果。co-refinement是一种标签修正的过程，旨在通过合并两个网络的预测来产生可靠的标签。
本文对每个网络 $\mathcal{X}$ 和 $\mathcal{U}$ 都应用了co-refinement。
这里作者从 $f_\theta(1)$ 的角度出发，进行了介绍。
（1）对于给定的标记的数据 $x$ ，首先计算 $\mathcal{X}$ 中原始标记 $y$ 和对应网络 $f_\theta(2)$ 的预测之间的线性和，并使用sharpen来得出对应修正之后的 $\overline{y}$ ： $w^{(2)}$ 是 $f_\theta(2)$ 对应的置信值。
（2）对于未标记集 $\mathcal{U}$ ，应用两个网络的预测集合来猜测数据样本 $u$ 的伪标记 $\overline{q}$ 如下: $u_m$ 是基于 $u$ 的第 $m$ -th个弱数据增强（和原始样本较为类似）。
通过co-refinement，可以得到原始MixMatch的代替数据，得到修正的 $(x, \overline{y}) \in \mathcal{X}^{(1)}$ 和 $(u, \overline{q}) \in \mathcal{U}^{(1)}$ 。使用这些数据作为MixMatch的输入可以看出，这是从 $f_\theta(1)$ 的角度出发，得到的损失函数。同理，可以得到关于 $f_\theta(2)$ 的损失函数。
Co-refurbishing
最后，我们在每个epoch结束时刷新噪声样本，以在整个训练过程中提供额外的clean样本。如果至少有一个网络对给定unclean样本 $u \in \mathcal{U}$ 的置信度超过阈值 $\tau_2$ ，则相应样本的标签用网络的预测 $p$ 更新。更新标签之后的样本随后被加入到clean data集合 $\mathcal{X}$ 中。
整体算法如下所示：