菜鸟实习日记~day20（ILSVRC2016之MCMOT）

2017-11-07 本文已影响0人飞翔的小瓜瓜

MCMOT: Multi-Class Multi-Object Tracking using Changing Point Detection

这篇文章比较出彩的地方就是多目标跟踪+context region

一、成绩

•Object Detection from Video (VID) 2ndplace(mAP: 73.15%)

•Object Detection/Tracking from Video (VID) 2ndplace(mAP: 49.09%)

二、主要结构

Faster R-CNN Object Detector 加上 MCMOT（Multi-Class Multi-Object Tracking）

（1）Faster R-CNN Object Detector

由于视频中有些帧中的object 比较小，所以文章采取了large feature map(即去掉VGG-16中的pool4)

同时，视频帧也存在模糊的情况，本文应用了context region

我们知道一幅图不同proposal对应图像不同的region，这样的话每个region对与最终分类的贡献也就不一样，可以分为三类：

target region：本身包含了分类目标（比如人）；

context region：上下文，比如出现了一匹马通常就会有人（一般是人骑马）；

背景区域：比如一棵树和人同时出现在图像中，而树和人在日常生活中并没有太相关的联系，所以可以把树看成背景区域，包含噪声。

这三种很明显的target region对分类的贡献高于其他两者，context region高于background noise region。

cross region pooling:跨区域合并

（2）数据集的选取和扩充

由于视频图片的冗余性和单一性，需要大量的训练数据，于是文章利用COCO数据集进行pre_train.

（3）MCMOT: Multi-Class Multi-Object Tracking using Changing Point Detection

这里没有看的非常明白，但大概意思应该是提出基于变换点检测的多目标跟踪算法[11]，该算法首先检测出目标，然后对其进行跟踪，并在跟踪过程中对跟踪轨迹点进行分析处理，可以较好地缓解跟踪时的漂移现象，并能在轨迹异常时及时终止跟踪。

贴一张原理流程图

还解释了是否需要复杂的跟踪算法：Based on high performance detection,simple & fastMOT algorithm can achieve competitive result，是不需要的，因为detection部分已经有很好的表现了