【目标跟踪】《High Performance Visual T

2020-01-12 本文已影响0人不可能打工

论文：http://openaccess.thecvf.com/content_cvpr_2018/papers/Li_High_Performance_Visual_CVPR_2018_paper.pdf

1.Abstract

近年很多基于深度学习的目标跟踪方法，取得了很好的准确度，但是很少有方法可以在高精度的前提下保持实时的速度。这篇文章提出Siamese-RPN。利用Siamese子网络来提取特征，利用RPN子网络来进行正负分类和检测框回归。在推理阶段，Siamese-RPN可以认为是一个（local one-shot detection task）本地一次检测任务。作者预先计算孪生子网络中的模板支路，也就是第一帧，并且将它构造成一个检测支路中区域提取网络里面的一个卷积层，用于在线跟踪。得益于这些改良，传统的多尺度测试和在线微调可以被舍弃，这样做也大大提高了速度。Siamese-RPN跑出了160FPS的速度，并且在VOT2015,VOT2016和VOT2017上取得了领先的成绩。

2.Contribution

提出siamese region proposal network(Siamese-RPN)用于解决目标跟踪问题。该网络可利用“图片对”进行端到端地离线训练；
该模型可将在线跟踪任务转换为one-shot检测任务，而不是使用低效费时的多尺度测试(multi-scale test)；
该模型在保证准确率的同时，达到了较高的速度。

3.SiameseFC

论文地址：http://openaccess.thecvf.com/content_cvpr_2017/papers/Valmadre_End-To-End_Representation_Learning_CVPR_2017_paper.pdf

siameseFC结构

特征提取层利用到权重共享的全卷积神经网络（孪生网络）。
对于模板图像，首先统一resize到1271273，然后通过卷积神经层，得到一个66128的输出feature map。
对于检测图像，首先统一resize到2552553，然后通过卷积神经层，得到一个2222128的输出feature map。
两个特征图做相关性卷积，计算两个feature map各个位置（区域）上的相似度，得到一个17*17的score map。Score map上相似度最大的点，映射到原检测图像上，则认为是匹配位置。

siameseFC存在的缺点

bbox的大小一直不会变，和模板图像的大小保持一致。当视频中的目标由远及近等情况的时候，会在图像中变大，但bbox框并不会变大。
模板支只在第一帧进行，这使得模版特征对目标的变化不是很适应，当目标发生较大变化时，来自第一帧的特征可能不足以表征目标的特征。

4.SiameseRPN网络结构

Siamese-RPN的结构

SiamRPN的前一部分和SiamFC一样：都是先通过一个全卷积网络提取高层特征。不同的是SiamFC把输出直接用来进行相关滤波，而SiamRPN接入的是一个RPN(有2个分支：分类、回归)。
k代表k个anchor，模板分支6*6*256的特征图经过conv升维，分别升维为4*4*（2k*256）、4*4*（4k*256）。2k作为前后背景分类的softmax输出结果、4k作为bbox的（x,y,w,h）的回归结果。

其他细节

siameseRPN的loss与Faster-RCNN相同，分类部分的采用cross-entropy loss，回归部分采用smooth L1 loss。
图像预处理方式与Siamese-FC相同，具体来说就是经过填充、裁剪、缩放，把ground truth box放到图像的中心位置。