菜鸟实习日记~day11(C3D+mxnet编译）

2017-09-15 本文已影响0人飞翔的小瓜瓜

科研：

一、C3D（Learning Spatiotemporal Features with 3D Convolutional Networks)

1.首先介绍一下3D卷积：（与2D卷积对比）

2D不管有多少通道，一个卷积核只能对应输出一张特征图，这样就只存在了空间关系，丧失了时间关系

上面进行卷积操作的时间维度为3（kernel temporal depth)，即对连续的三帧图像进行卷积操作，上面的 3D卷积是通过堆叠多个连续的帧组成一个立方体，然后在立方体中运用3D卷积核。在这个结构中，卷积层中每一个特征map都会与上一层中多个邻近的连续帧相连，因此捕捉运动信息。例如上面左图，一个卷积map的某一位置的值是通过卷积上一层的三个连续的帧的同一个位置的局部感受野得到的。

需要注意的是：3D卷积核只能从cube中提取一种类型的特征，因为在整个cube中卷积核的权值都是一样的，也就是共享权值，都是同一个卷积核（图中同一个颜色的连接线表示相同的权值）。我们可以采用多种卷积核，以提取多种特征。