论文笔记:Deep Visual-Semantic Alignm

2018-07-20  本文已影响0人  会唱小星星吗

题目:Deep Visual-Semantic Alignments for Generating Image Descriptions

1.解决的问题

2.方法

3.RCNN + BRNN

CNN(I_b)I_b 转变成4096维的向量,\theta_c 大概用6000万个参数,W_m 的维度是 h*4096 (h 在 1000-1600维之间),所以每张图片用20个 h 维的向量描述。

RCNN+BRNN.png

4.图片描述生成(VGGNet + RNN)

5.实验

result1.png result2.png

6.思考

上一篇 下一篇

猜你喜欢

热点阅读