Sequence to Sequence - Video to

2017-11-20 本文已影响0人 BigBig_Fish

论文提出了将sequence to sequence 模型应用到video to text任务上，解决了video to text的变长问题。
之前解决变长问题的方法有1.将视频整体表示 2.缩成关键帧 3.下采样值固定的帧数。

模型结构

第二层输入：
在encoding阶段没有遇到起始符之前，0作为输入，decding阶段前一个时刻的输出作为输入。

LSTM后加softmax输入词

训练与测试：

将LSTM的设为固定的80个timestep（显存不够），10帧中采样1帧，不够长的视频用0补齐。
测试时不限制长度，视频帧逐帧进入模型。
测试结果=视频图像与光流图预测结果的加权。

上一篇下一篇

猜你喜欢

热点阅读