菜鸟实习日记~day19(ILSVRC 2016 VID主要方法

2017-11-06 本文已影响0人飞翔的小瓜瓜

1.数据选取

CUVideo、NUIST和MCG-ICT-CAS使用ILSVRC VID+DET作为训练集

ITLab-Inha使了ILSVRC VID+DET、COCO DET等作为训练集。

需要注意的是在构建新的训练集的时候要注意平衡样本并去除冗余（CUVideo和MCG-ICT-CAS抽取部分VID训练集训练模型，ITLab-Inha在每个类别选择一定数量图像参与训练，NUIST使用在DET上训练的模型对VID数据进行筛选）。对于同样的网络，使用扩充后的数据集可以提高10%左右的检测精度。

2.网络结构选取

我们在VID验证集上进行实验：同样的训练数据，基于ResNet101[6]的Faster R-CNN[7]模型的检测精度比基于VGG16[8]的Faster R-CNN模型的检测精度高12%左右

3.改进分类损失

T-cnn中的运动指导传播（Motion-guided Propagation, MGP）和多上下文抑制（Multi-context suppression, MCS）

4.利用跟踪信息修正

上文提到的MGP可以填补某些视频帧上漏检的目标，但对于多帧连续漏检的目标不是很有效，而目标跟踪可以很好地解决这个问题。CUVideo, NUIST, MCG-ICT-CAS以及ITLab-Inha四支参赛队伍都使用了跟踪算法进一步提高视频目标检测的召回率。使用跟踪算法获取目标序列基本流程如下：

-使用图像目标检测算法获取较好的检测结果；

-从中选取检测得分最高的目标作为跟踪的起始锚点；

-基于选取的锚点向前向后在整个视频片段上进行跟踪，生成跟踪轨迹；

-从剩余目标中选择得分最高的进行跟踪，需要注意的是如果此窗口在之前的跟踪轨迹中出现过，那么直接跳过，选择下一个目标进行跟踪；

-算法迭代执行，可以使用得分阈值作为终止条件。

5.网络选择与训练技巧

对于视频目标检测，除了要保证每帧图像的检测精度，还应该保证长时间稳定地跟踪每个目标。为此，ILSVRC2016新增一个VID子任务，此任务计算每个目标跟踪轨迹(tracklet)/管道(tubelet)的mAP来评测检测算法的时序一致性或者说跟踪连续性的性能。