Spatially Supervised Recurrent C

2018-10-15 本文已影响0人橙子潘潘

2017 IEEE ISCS

摘要

发明一种新方法，将空间监督的递归卷积神经网络（RNN）用于跟踪。
受到边框回归的启发，研究LSTM，建议将卷积网络产生的高级视觉特征与区域信息相结合。目标位置预测使用回归得出。

1、引入

解决问题：目标跟踪中的大多数挑战。
我们发现大多数算法主要关注提高深度特征的鲁棒性和表现，来对抗手工特征。对于目标跟踪如何扩展深度神经网络分析到时空域却没有充分的研究。

我们方法最大的动机是，跟踪失败可以有效地恢复，通过历史视觉语义和跟踪建议。我们的递归神经网络是“双倍深的”，不仅检查位置的历史信息，还检查过去帧的鲁棒性的视觉特征。

别人：有两个方法与本篇很相关。用RNN解决跟踪中相同的问题。但是他们关注人工产生的序列和合成的数据，没有解决现实世界视频中目标跟踪的挑战。他们使用传统的RNN和局部区域的二分类。
我们：直接回归坐标和热图而不是用子区域分类。使用LSTM用单独的一个估计来实现端到端的时空域回归。
我们的跟踪器更准确和鲁棒，而且计算成本低。

主要贡献：

模型化的神经网络，可以用基于梯度的学习方法端到端训练。并给出LSTM的解释和高层视觉特征的回归能力。
对比基于卷积神经网络的trackers，我们的框架扩展到了时空域做跟踪。
网络准确高效且低复杂度。

2、系统综述

图1.png

用YOLO提取特征，和初步的位置判断；在下一阶段，使用LSTM，因为它具有空间深度而且适合序列处理。
网络输入是原生时频帧，输出是在每一帧中目标回归框的坐标。数学上，提出的模型因式将整个跟踪概率分解为：

跟踪概率分解.png

其中 $B_t$ 是时间 $t$ 之前的所有位置的历史记录， $X_t$ 是时间 $t$ 之前的所有输入帧的历史记录。

2.1 Long Short Term Memory(LSTM)

由于反向传播的误差随着时间的推移而膨胀或衰减，传统的RNN无法访问远程上下文，这被称为消失梯度问题。LSTM可以克服这个问题，并能够模拟自学习的上下文信息。LSTM的主要创新是其存储单元 $c_t$ ，它基本上充当状态信息的累加器。通过几个自参数化控制门（self-parameterized controlling gates），这些单元可以读取、写入和清除。每当有新输入时，如果输入门 $i_t$ 被激活，它的信息将被累积到储存单元。我们使用LSTM来作为跟踪模型。LSTM使用记忆细胞来存储和输出信息，能够发现长范围时间信息。 $σ = (1 + e^{-x})^{-1}$ 是非线性回归函数，将实数值压缩到[0,1]， $\phi(x)=\frac{e^x-e{-x}}{e^x+e{-x}}$ ，给定输入 $x_t，h_{t-1}和c_{t-1}$ 的时间戳t的LSTM更新是：

LSTM更新

2.2 使用YOLO进行目标检测

YOLO模型以45 fps实时处理图像。

3、我们提出的系统

受到基于回归的目标检测器的启发，我们提出新的神经网络系统来处理（1）时空信息，（2）推断区域位置。我们使用递归神经网络将YOLO可扩展到时空域。本文的方法称为ROLO（recurrent YOLO）。
（1）使用YOLO收集视觉特征，然后使用LSTM；
（2）将卷积网络产生的高层特征与区域信息结合。

本文提出的框架

ROLO模型端到端训练有三个阶段：

特征学习卷积层的预训练；
用于object proposal的传统YOLO训练；
用于目标跟踪的LSTM训练。

3.1 检测模块的网络训练

首先预训练一个传统的CNN网络用来一般的特征学习。卷积神经网络输入一个视频帧，输出整张图像的feature map。权重使用有1000个分类的ImageNet数据学习得到。在预训练中，第一层全连接层产生一个4096大小的特征向量，理论上可以输入到任何分类工具（SVM或者CNN）产生好的分类结果。

一旦通过预训练参数得到了特征，就采用YOLO做检测模块。在卷积层之上，YOLO采用全连接层回归特征表达到区域预测。结构参考YOLO。

3.2 跟踪模块的网络训练

将LSTM RNNs增加到跟踪模块的训练中。有两条数据流进入到LSTM，来自卷积层的特征表示和来自全连接层的监测信息 $B_{t,i}$ 。在每个时间t步，都提取一个4096长度的特征向量，称这些特征向量为 $X_t$ 。除了 $B_{t,i}$ 和 $X_t$ ，还有上一个时间的状态输出 $S_{t-1}$ 。
使用Mean Squared Error (MSE)做训练：
$L_{MSE}=\frac{1}{n}\sum_{i=1}^n ||B_{target}-B_{pred}||_{2}^2$
$n$ 是一个batch的样本数。

3.3 Alternative Heatmap

作者将ROLO预测位置转换为长度为1024的特征向量，可以将其转换为32乘32的heatmap。在输入到LSTM之前，将它和4096的特征向量连接。heatmap的优点：在多个空间位置有置信度，而且可以可视化中间结果。
所以，heatmap为LSTM输入。

在训练期间，将区域信息从检测框传输到热图，方法是将值1分配给相应的区域，而将0分配给其他区域。
目标函数为：
$L_{MSE}=\frac{1}{n}\sum_{i=1}^n ||H_{target}-H_{pred}||_{2}^2$
$H_{target}$ 表示groundtruth的heatmap向量； $H_{pred}$ 表示在LSTM输出中预测的heatmap。

3.4 Spatio-temporal Regression and Spatial Supervision by Region Proposals

LSTM不仅能做序列处理，而且能处理时空回归。这种回归是双重的：

在一个unit中回归：当LSTM连接成一个单元时，LSTM能够从视觉特征推断区域位置。
对序列单元的回归，即在一系列帧上的级联特征之间的回归。 LSTM能够将特征序列回归到下一帧中的预测特征向量中。

4、实验结果

实验环境：
Python，Tensorflow。20/60fps分别对应YOLO和LSTM。使用八核处理器3.4GHz Intel Core i7-3770，NVIDIA TITAN X GPU。

工程主页包含跟踪器，预训练模型和结果。
由于ROLO的性能取决于YOLO部分，作者选择默认的YOLO模型进行公平比较。模型基于ImageNet数据预训练，可以识别20类对象。

图4，未见过序列的跟踪结果。红色：groundtruth。蓝色：YOLO。绿色：ROLO

图4(a)(b)中的groundtruth是faces，不存在于YOLO预训练的类中。对于运动模糊的情况，ROLO更稳定。
图4(c)中，对象类确实属于预先训练的YOLO类，但在任何训练序列中都未曾见过。这种情况下ROLO仍然跟踪它。
这证明了，（1）跟踪可以推广到没见过的对象。（2）LSTM可以推断视觉特征。（3）LSTM能够通过空间监督将视觉特征回归到区域推断。
传统方法（例如卡尔曼滤波），预测仅基于先前的位置，ROLO还利用了视觉线索的历史信息。
在ROLO中的位置历史信息扮演者空间监督的角色，是双重的：

当LSTM解释高层视觉特征时，先前的位置信息推断帮助回归特征到一个确定的视觉元素位置。空间监督回归作为在线外观模型。
在时间上，LSTM学习序列单元以将位置预测限制到空间范围。

4.2 处理遮挡

图5，在未看见帧中面对遮挡的时空鲁棒性

图5 展示了ROLO成功跟踪未见过帧中遮挡下的对象。77-783帧中，即使检测模块失败，ROLO继续跟踪对象。

图6.在看不见的视频剪辑中面对遮挡的鲁棒性。蓝色：YOLO检测的回归框，红色：Groundtruth。
作者还使用热图而不是位置坐标训练替代ROLO模型（离线训练），以便在遮挡条件下分析LSTM。ROLO结果用heatmap展示。图6 显示，即使有两个相似的对象同时出现在视频里，ROLO也能跟踪正确的对象，因为检测模块为LSTM单元提供空间约束。

因为几个原因，ROLO被证明是高效的：

来自卷积网络高层特征的表示能力；
LSTM能够做特征分析，所以能够检测对象，受到位置和热图矢量在空间上的监督。
利用时空信息有效回归的能力。

4.3 结果

在OTB-30上测试结果。

表1. Summary of Average Overlap Scores (AOS) results for all 12 trackers. The best ：绿色， second best：红色。