论文阅读"PiCO: contrastive label dis

2022-03-30 本文已影响0人掉了西红柿皮_Kee

Wang H, Xiao R, Li Y, et al. PiCO: Contrastive Label Disambiguation for Partial Label Learning[J]. arXiv preprint arXiv:2201.08984, 2022.

摘要翻译

在这项工作中，作者通过在一个连贯的框架中解决PLL中的两个关键研究挑战——表示学习和标签消歧——来弥补这一差距。具体来说，所提出的框架PiCO由一个对比学习模块和一个新的基于类簇原型的标签消歧算法组成。PiCO为来自相同类簇的样本示例生成紧密对齐的表示，并便于标签消除歧义。

任务背景介绍

任务数据说明

该论文主要研究的是partial label learning(PLL)问题。该问题可以定义为如下：首先给定 $\mathscr{X}$ 为输入空间， $\mathscr{Y}$ 为输出标签空间。考虑如下的训练数据集 $\mathscr{D}=\{(x_i,Y_i)\}_{i=1}^n$ ，每一个元组由一张图片 $x_i \in \mathscr{X}$ 和一个候选的标签集合 $Y_i \in \mathscr{Y}$ 组成。依照监督学习任务的设定来讲，PLL的目标是通过关联样本来学习一个可以预测正确标签的映射函数。二者之间的不同点是，PLL的建立可以容忍标签空间的不确定性。PLL任务的基础假设是输入样本 $x_i$ 所对应的真实标签 $y_i$ 是隐藏在其候选标签集合 $Y_i$ 中的，但在学习过程中该标签不可见。正是因为这个原因，相较于监督学习任务中给定正确标签而言，PLL在学习中容易受到固有歧义的影响。

可以看出，PLL任务中最关键的问题在于如何从给定的候选标签集合中识别出真实标签。在训练中，为每个输入图片 $x_i$ 分配一个标准化向量 $s_i \in [0,1]^C$ 作为伪目标，向量中的每个元素表示每个标签可能是真实标签的概率。为 $Y_i$ 中每个标签分配的概率之和为1。该 $s_i$ 将会在训练的过程中进行更新。理想情况下， $s_i$ 应该在训练过程中将更大的概率放在（未知的）真实标签 $y_i$ 上。在训练中，以 $s_i$ 为目标，用交叉熵损失来训练分类器 $f$ ：

由此，每个样本的损失由以下形式给出：

其中，

j

代表着标签的下标。

s_{i,j}

为输入

x_i

的第

j

个标签。这里的映射学习

f

是网络经由softmax的输出，并将

f^j

作为它的第

j

个entry。

模型浅析

对于PLL任务，主要包含表示和标签学习两个关键问题，当然这两个问题是可以进行同时优化的。

表示学习
标签空间中的不确定性使得学习有效表示遇到了障碍。在PiCO模型中，作者在等式中的分类损失（1）中结合了一个对比学习的损失项，促进了在嵌入空间中的聚类效果。作者指出，将对比学习运用到PLL中，最大的挑战在于正例样本集合的构建。
（1）训练目标。关于对比损失项，作者采用的是MoCo和SupCon中标准的对比损失。对于给定的样本 $(x,Y)$ ，首先通过随机的数据增强函数 $Aug(x)$ 产生了两个视图--query视图和key视图。然后两张图片分别被喂入query网络 $g(\cdot)$ 和key网络 $g'(\cdot)$ ，返回一对由 $L_2$ 标准化的嵌入表示 $q=g(Aug_q(x))$ 和 $k=g'(Aug_k(x))$ 。与Moco中设置一致，key网络由query动量更新。此外，作者还维护了一个存储最新key嵌入 $k$ 的队列，并且按照时间序列更新该队列。至此，作者给出了可以用于对比学习的embedding池：
因此，给定一个样本 $x$ ，该样本的对比损失可以由其query嵌入和对比嵌入池中的其他部分定义：其中， $P(x)$ 为正例集合， $A(x)=A 除去{q}之外的元素形成的集合$ 。
（2）正例集合的选取。作者建议使用分类器的预测标签 $\tilde{y}=argmax_{j \in Y}f^j(Aug_q(x))$ 。并且将预测的标签严格限制在候选标签集合 $Y$ 中。因此正例满足 $\tilde{y}'$ 是训练样本 $k'$ 对应的预测标签。为了提高计算效率，作者还维护了一个标签队列来存储过去的预测值。换句话说，作者将 $x$ 的正例集合定义为那些携带相同的近似标签预测 $\tilde{y}$ 的样本。
至此就可以联合训练分类器和对比学习的网络。总体的损失函数如下：
在这种结构下，模型可以通过CL学习高质量表示的目标依赖于准确的分类器预测的正例集合选择，这使得在存在标签歧义的情况下，问题仍然没有得到解决。
基于原型的标签消歧技术
为了更好的解决样本表示依赖于正例选择的问题，作者以一种协同算法的形式引入了基于原型的标签消歧策略。作者提出了原型嵌入（prototype embedding）向量 $\mu_c$ ，该向量和每个类簇 $c \in \{1,2,3,..,C\}$ 对应。利用聚类的思想，关于伪标签的分配，一个简单的版本是找到当前嵌入向量的最近的原型嵌入。此外，作者还通过使用移动平均样式公式来软化这个硬标签分配版本。在这种前提下，可以直观的假设原型的应用通过对比项在嵌入空间中建立了和聚类之间的关联性。
（1）伪标签的更新。首先作者使用均匀分布初始化伪标签：
之后通过平均移动的机制来对其进行迭代更新其中， $\phi \in (0,1)$ ， $\mu_j$ 是第 $j$ 的类簇对应的原型嵌入。使用移动平均策略，可以平稳地将伪目标更新到正确的目标，同时确保稳定的训练动态。
（2）原型的更新。
更新原型嵌入的最典型的方法是在训练的每次迭代中计算它。然而，这将产生巨大的计算代价，进而导致难以忍受的训练延迟。因此，作者提出同样以移动平均的方式更新class-conditional原型向量：其中，类簇 $c$ 的动量原型嵌入 $\mu_c$ 由预测类簇符合 $c$ 的归一化query嵌入 $q$ 的移动平均值定义。 $\gamma$ 是用于平衡的超参数。
协同解释
首先，由于对比项有利地表现出嵌入空间中的聚类效应，标签消歧模块通过设置更精确的原型进一步利用。其次，一组优化的标签消歧结果可能反过来回报正例集合的构造，这是对比学习阶段的关键部分。

PLL任务感觉让人很容易接受。并且在模型的构造上，虽然没有很明显的使用聚类的方法，但是利用对比学习捕获聚类友好的嵌入空间表示，并且在伪标签的更新中使用了计算当前样本嵌入 $q$ 和类簇原型嵌入表示 $\mu_j$ 之间的相似性来更新伪标签，无疑中也使用了聚类中计算样本表示和类簇中心表示的思想。巧妙的通过这种联系，建立起样本和标签之间的关联性，为PLL任务提供了很好的思路。

论文阅读"PiCO: contrastive label dis

摘要翻译

任务背景介绍

模型浅析

猜你喜欢

热点阅读