Two-stream Convolution Networks

2018-11-25  本文已影响0人  Loopz
two-stream architecture

1.Spatial stream Convnet:随机采样单帧图片输入,提取静态特征(颜色,形状)

网络结构很常用,类似于图像领域上的应用,可以现在Imagnet预训练,再微调。

2.Temporal stream Convnet:本文的亮点。

与以往将堆叠的视频帧作为输入不同,本文采用堆叠的光流作为网络的输入。将多帧(L帧)光流作为多个输入通道(2L)

以往堆叠的视频帧,将堆叠的视频帧作为输入,未从时序上处理视频帧,只是简单地作为多个输入通道,难以提取时空运动信息。

而将堆叠的光流输入,光流本身已描述了运动的速度和方向,然而存在着计算量大的问题。

3.spatial stream convnet与Temporal stream convnet融合:

简单求平均或者两者用L2范式融合再用SVM分类

summary:

1.光流的多种变体:

a。简单计算选定帧I的前向L帧光流

b。只计算稠密轨迹点上的光流(计算量减小?效果差一些?)

问题Q:实验结果表明该效果比单纯的光流效果差?为什么?

c。计算选定帧I的前L/2帧以及后L/2帧光流

2.相机运动消除

减去平均光流

3.多任务学习

针对数据集小,样本数量少:本文联合UCF101与HMDB51数据集进行训练,用两层softmax分别进行两个数据集的分类

4.训练:

a。每次迭代从视频样本中随机抽取一帧(I)作为空域卷积网络的输入

当迭代次数多时,可以保证随机采样得到的帧均匀分布整个视频样本。

问题Q:迭代的次数能否满足上述要求?每次只学习到一帧?是否存在效率低的问题?

b。计算选定帧I的L帧光流,作为时域卷积网络的输入

问题Q:选定帧I位于视频的开始,结束时,如何计算L帧光流

5.测试

从待测试的视频中均匀抽取固定数量的视频帧作为输入

问题Q:不同长度的视频是否需要不一样的数量

上一篇下一篇

猜你喜欢

热点阅读