《Neural Baby Talk》 CVPR2018

2018-04-01  本文已影响0人  longturn
Neural Baby Talk, cvpr2018

与 《Knowing When to Look: Adaptive Attention via A Visual Sentinel for Image Captioning》cvpr2017 是同一个作者,本文也可看做是这个工作的扩展。

Motivation:

Method


损失函数:
分为两部分,如果当前词语的target是textual word,则用前半部分,若是visual word则是后半部分损失函数,要求一是region (或者说visual word)选取正确,二是词语的单复数与细类别形态分类正确。


image.png

相关工作

本文与CVPR2016 paper 《Incorporating Copying Mechanism in Image Captioning
for Learning Novel Objects》特别相似,这个文章目的是处理image caption中的集外词问题,即测试时候图像中的一个物体在数据集的图像与文本中都没有出现过。
cvpr2016这个文章是用多分类方法直接识别出图像中的物体,然后设计了个Copying Mechanism,即决定当前时刻采用LSTM还是识别的词语作为输出。
cvpr2018与cvpr2016比较,分类换成了检测,spatial attention换成了region attention。总体还是非常相似的,但解决的问题不太一样,一个是处理集外词(OOV word),一个是使得用词更加准确具体,与图像关联加深。

Copying Mechanism

总结

总的来看,这个文章有点像是 Copying Mechanism,Bottom-up attention和 Adaptive attention的结合,其用词不同与过去的泛泛而谈的词语,更加准确具体,比如(dog v.s. puppy),实现了其所宣称的与图像内容关联更紧密的目标。

上一篇下一篇

猜你喜欢

热点阅读