Artificial Intelligence机器学习读论文

读论文:CVPR2018 SSAH

2018-05-19  本文已影响22人  梦里茶

转载请注明作者:梦里茶

这是腾讯AI Lab与西电合作的一篇CVPR2018的paper,在多模态检索任务中加入对抗网络组件,为跨模态对象生成更好的语义特征,从而提高了跨模态检索的效果。

问题描述

跨模态检索:

Text2Image Data2Label

如果我们在检索的时候再去做特征提取,检索速度会很慢,因此通常需要预先将特征提取出来,根据相似度建立索引,从而加快检索速度,为了节省存储空间,并加快计算效率,通常会要求特征尽量短,并且是二进制表示,这样的特征我们称为Hash。

常用方法

我们要根据多模态的内容生成一个hash,希望不同模态的同个对象hash尽量相近,不同对象的hash尽量不同。由于跨模态的内容具有语义上的联系,通常的做法是将不同模态的内容映射到公共的语义空间,已经有很多这方面的工作,有监督/无监督的,Shallow的手工特征/Deep特征。得到特征之后,可以用sign操作将连续的feature向量变成离散值,从而得到更轻量的特征。

sign

SSAH

image

这篇论文提出了一个结合对抗学习的深度神经网络:

接下来具体讲其中几个部分:

Self supervised semantic Generation(L->F->L+H->B)

image

训练目标由这个Loss约束完成:

image
首先解释一下符号(以下数学符号用LaTeX格式显示,简书不支持公式编辑,更好的阅读体验请查看cweihang.io),

$$-\sum_{i,j=1}{n}{S_{ij}\Delta_{ij}{l}-log(1+e{\Delta_{ij}l})} $$

$$= -\sum_{i,j=1}{n}{log(\frac{e{S_{ij}\Delta_{ij}{l}}}{1+e{\Delta_{ij}^l}})} $$

$$= -\sum_{i,j=1}{n}{log(\frac{e{\Delta_{ij}{l}}}{1+e{\Delta_{ij}^l}})} if S_{ij}=1$$

$$= -\sum_{i,j=1}{n}{log(\frac{1}{1+e{\Delta_{ij}^l}})} if S_{ij}=0$$

$$= \sum_{i,j=1}{n}-{S_{ij}log(\frac{e{\Delta_{ij}{l}}}{1+e{\Delta_{ij}l}})-(1-S_{ij})log(1-\frac{e{\Delta_{ij}{l}}}{1+e{\Delta_{ij}^l}})} $$

所以,实际上这个loss和交叉熵loss是等效的

即$$S_{ij}=1$$时,

$$min -\sum_{i,j=1}{n}{log(\frac{e{\Delta_{ij}{l}}}{1+e{\Delta_{ij}l}})}=max\sum_{i,j=1}{n}{log(\frac{1}{1+e{-\Delta_{ij}l}})}=max \Delta_{ij}^l $$

最大化两个向量的余弦相似度

$$S_{ij}=0$$ 时,

$$min -\sum_{i,j=1}{n}{log(\frac{1}{1+e{\Delta_{ij}l}})}=max\sum_{i,j=1}{n}{log(\frac{1}{1+e{\Delta_{ij}l}})}=min\Delta_{ij}^l $$

最小化两个向量的余弦相似度

这个部分跟自编码器很像,是自监督的过程,由label生成特征,再由特征还原回label

Feature Learning(I/T->F->L+H->B)

其中,图像的特征提取网络作者试用了CNN-F和VGG16(VGG16更优),文本特征提取则是一个新的多尺度融合模型:

image

训练Loss与前面的Semantic Generation很像

image

但又与之前的模型不同,这里的监督信号有标签和标签生成的特征,而之前的监督信号就是输入本身。

其中

Adversarial learning

image image

即最小化判别器的预测误差

Training

图像特征提取loss+文本特征提取loss+标签生成loss

在最优的判别器参数 $$\hat{\theta}_{adv}$$ 下,最小化特征的生成Loss

以及

$$\theta_{adv}=argmax_{\theta_{adv}} L_{gen}(\hat{B}, \hat{\theta}^{v,t,l})-L_{adv}(\theta_{adv}) $$

在最优生成器参数 $$\hat{B}, \hat{\theta}^{v,t,l} $$下,最小化判别器的识别误差 $$L_{adv} $$

于是SSAH的工作机制就梳理完毕了

方法评估

生成的Hash效果是否足够好,通常由Hamming Ranking和Hash Lookup来评估,在论文中,作者还对模型本身做了Training efficiency,Sensitivity analysis,Ablation study的实验评估。

可以看到使用VGG作为图像基础网络时,SSAH准确率领先其他方法很多。

SSAH的PR曲线基本都是在其他模型的曲线之上

相对于另一种深度学习方法DCMH,SSAH只要比较短的时间就能得到比较好的效果

可以看到,超参数变化时,准确率依然能维持在比较高的水平

其中,
SSAH-1: remove LabNet
SSAH-2: TxtNet改成三层全连接
SSAH-3: 去掉对抗网络
可以看到在I2T任务中,标签生成网络是很重要的,在T2I任务中对抗网络的效果更明显。

Summary

SSAH中最妙的两点是,用Label生成特征和哈希来监督feature learning,加入对抗学习来拉近不同模态特征的相似性,模型的思路足够清晰,容易复现,有很多值得学习的东西。

上一篇 下一篇

猜你喜欢

热点阅读