Unified Contrastive Learning in

2022-09-12  本文已影响0人  魔法少女玛格姬

论文地址:https://arxiv.org/abs/2204.03610
代码地址:https://github.com/microsoft/UniCL
微软的工作,在图像-文本对比学习的基础上引入了标签信息。

摘要

视觉识别目前使用两种类型的方法:基于图像-标签的监督学习,或基于图像-文本的对比学习。由于数据源和学习目标不同,两种学习各有优势,图像-标签的预训练方式能生成更具有判别力的表征,图像-文本的方式具有零样本识别能力。本文介绍一种图像-文本-标签的新学习范式(UniCL),在零样本、线性分类、微调和迁移学习场景都取得了不错的效果。

介绍

图像-标签的监督学习[10]具有强大的迁移学习能力[14,33],但收集数据和打标签的成本很高。
图像文本的对比学习如CLIP[48]和ALIGN[29]囊括很多语义场景,但抓取的图像文本对存在较多噪声,缺乏迁移学习所需的判别能力。
提出问题:能否用一个模型同时实现判别性表征和广义的语义场景?


图1上:本文定义的图像-文本-标签空间,列出了多个方法如CE、SupCon、CLIP、ALIGN等
图1下:图像-文本-标签样例

图像-标签监督学习[30]将图像映射到离散标签,训练过程中忽略了每个标签相关的文本概念,图像-文本对比学习[48]训练一对图像-文本编码器,则可以隐含假设每个图像-文本对有一个独特的标签。基于这个隐含假设,我们对每个图像-文本对编码唯一标签,如图1下所示。
本文主要贡献:

相关工作

方法

  1. 问题设置:定义数据格式如下。


    图2:数据格式
  2. 统一图像-文本-标签的对比度。
    图3:
    分别对图像和文本抽取特征、归一化得到u_i, v_i,计算内积s_{ij} = u^T_i v_j,分别得到图像-文本的对比损失及文本-图像的对比损失
    min_{\{θ,φ\}} L_{BiC} = L_{i2t} + L_{t2i},

3.3 讨论&性质
图3对比了我们提出的UniCL与CE、SupCon、CLIP几种方法的异同。
3.4 模型训练与优化
Dataloader的定义,图像-文本对的标签暂时全部定义为0,图像-标签对索引为y∈ [1, …, K],之后在函数Target中修改。在训练过程中\tau是一个初始化为1的可学习变量。

Algorithm 1: Training process for UniCL.
# n: batch size; d: projected feature dim
# The main training loop
1 for x, t, y in loader:
2   target = TargetM(y)
    # Image encoding: n×d
3   u = l2 normalize(fθ(x), dim=-1)
    # Text encoding: n×d
4   v = l2 normalize(fφ(t), dim=-1)
    # Cosine similarities: n×n
5   logits = exp(τ) · u * v.T
    # Bidirectional contrastive loss
6   i2t = SoftCE(logits, target)
7   t2i = SoftCE(logits.T, target.T)
8   loss = (i2t + t2i)/2
9   loss.backward()
# The Target Modification function
10 def TargetM(y):
    # Note y = 0 for image-text in loader
11   cap m = (y == 0).sum()
12   cls m = y[y > 0].max()
13   y[y == 0] = arange(0, cap m) + cls m + 1
14   return y.view(-1, 1) == y.view(1, -1)
# The SoftTargetCrossEntropy function
15 def SoftCE(s, t):
16   s = softmax(s, dim=-1)
17   loss = - (t * log(s)).sum(dim=-1)
18   return (loss/t.sum(dim=-1)).mean()

实验

结论

提出了UniCL,一个用于通用多模态表征学习的新的对比性学习范式。它建立在图像-文本-标签空间中,并由我们的统一对比学习方法所支持。这样一个统一的范式促使图像-标签和图像-文本对之间的无缝协同,以进行辨别性和语义丰富的表征学习,这带来了对零点射击、线性探测、微调基准的普遍改进。此外,我们还讨论了它与现有学习方法的联系,并通过经验证明,我们的学习方法在纯图像-标签数据上是一个很好的替代学习者。

上一篇 下一篇

猜你喜欢

热点阅读