从CVPR2017 看多样目标检测+Feature Pyrami

2017-10-25 本文已影响1995人 BookThief

一. 导读

When you have trouble with object detection, keep calm and use deep learning.

这句话是作者自己抖机灵的话，如果说 deep learning 已经攻陷计算机视觉这个领域的话，Object Detection可以说是受灾最严重的区域了。不管是基于region proposal的RCNN系列，还是 end-to-end 的YOLO系列，基于深度学习的方法已经完胜手工特征方法。Object Detection 这块众多博士科研工作者和大批公司关注的“硬骨头” 是否已经黔驴技穷，无从下手？当然不是，而且，从近几年的趋势来看，如果你想“一文惊人”，抑或得到Best Paper Award，Object Detection是最佳方向（从RestNet 到 DenseNet 再到前几天ICCV kaimingHe双best paper）。

同时，近两年一个更明显的特点，最吸引人的Object Detection方法都是：

Simple Clean But Effective

这些方法都是基于网络结构很简单的思想，基本结构都是：

Skip Connection (RestNet, DenseNet)

Joint Multi Feature Map (R-FCN, FPN)

关于目标检测的发展（传统方法-RCNN系列-YOLO系列）以及目标检测的一些经常使用的术语（IOU, NMS, BBOX回归， MAP）可以见我另一篇博客。

二. 从CVPR 2016看Object Detection 发展

(a) 检测精度（“又准”）

检测精度是目标检测任务最初始也是最重要的指标，如何提高方法检测精度指标MAP，是各种方法比较的最基本的指标。这也是深度方法完胜手工方法的地方。
CVPR2016代表性工作有：ResNet, ION, HyperNet.

(b) 检测效率（“又快”）

网络的时间开销，如何提高检测速度，实现又快又好地检测。
YOLO：这个工作在识别效率方面优势十分明显。

(c)定位精度（“又好”）

如何产生更准确的Boundbox？如何逐步提高评价参数IOU（voc数据集，这个值为0.5）？
代表工作LocNet：抛弃Boundbox回归，使用概率模型。

总结：总最初始最基本的检测指标检测精度MAP，到如何减少时间开销，再到一个更准确的bbox。侧面反映了目标检测的不断发展: 又准(检测精度)又快(检测效率)又好(定位精度)

三. 从CVPR2017看多样的目标检测

从CVPR2017 论文list看，新的目标检测论文已经不再拘泥于ImageNet，VOC，CoCo数据集了，也不再拘泥于前面的检测精度，检测效率，以及定位精度了（当然这方面也有很多文章）。大家的目光开始转向一个特定环境特点条件下特定目标的检测（最大的特点是有很多这些特点目标的数据集文章出现）。目标检测呈现出百花齐放的景象。

1. Object Action Detection

Action Detection

特定行为特定动作的检测，“一个人在刷牙”不是检测出“人”和“牙刷”，而是“刷牙“这个动作。
CVPR2017相关文章：

Temporal Convolutional Networks for Action Segmentation and Detection ;
Predictive-Corrective Networks for Action Detection;
SCC: Semantic Context Cascade for Efficient Action Detection ;
UntrimmedNets for Weakly Supervised Action Recognition and Detection

2. Video Object Detection

Video Object Detection

基于视频的目标检测，传统目标检测都是基于静态图片的，基于视频的目标检测有很多不同点，大部分都是和跟踪算法想结合的。
CVPR2017相关文章：

Object Detection in Videos With Tubelet Proposal Networks ;
YouTube-BoundingBoxes: A Large High-Precision Data Set for Object Detection in Video；
Spatio-Temporal Self-Organizing Map Deep Network for Dynamic Object Detection From Videos;

3. 3D Object Detection

3D Object Detection

自然环境下的目标检测如何转换到3D空间下。
CVPR2017相关文章：

Visual-Inertial-Semantic Scene Representation for 3D Object Detection;
Multi-View 3D Object Detection Network for Autonomous Driving;
Amodal Detection of 3D Objects: Inferring 3D Bounding Boxes From 2D Ones in RGB-Depth Images

4. TEXT Detection

TEXT Detection

图像里文字的检测和识别。
CVPR2017相关文章：

Deep Matching Prior Network: Toward Tighter Multi-Oriented Text Detection;
End-To-End Concept Word Detection for Video Captioning, Retrieval, and Question Answering

5. Rain Detection

Rain Detection

检测出图像中的雨，并且去除得到去雨的照片。（记得之前有一篇去雾的）
CVPR2017相关文章：

Deep Joint Rain Detection and Removal From a Single Image

6. Line Detection

Line Detection

图片里边缘线段的检测。
CVPR2017相关文章：

MCMLSD: A Dynamic Programming Approach to Line Segment Detection

7. Pedestrian Detection

Pedestrian Detection

行人检测一直是一个重要的topic，当然也少不了。
CVPR2017相关文章：

What Can Help Pedestrian Detection?;
CityPersons: A Diverse Dataset for Pedestrian Detection;
Learning Cross-Modal Deep Representations for Robust Pedestrian Detection

8. Moving Object Detection

Moving Object Detection

移动物体检测不同于基于视频的目标检测，移动物体一般都是移动速度很快的物体（汽车，摩托，飞机，动物等等）。
CVPR2017相关文章：

Minimum Delay Moving Object Detection

9. Facial Landmark Detection

Facial Landmark Detection

人脸关键点检测也是一个一直很火热的话题。
CVPR2017相关文章：

A Deep Regression Architecture With Two-Stage Re-Initialization for High Performance Facial Landmark Detection;
Simultaneous Facial Landmark Detection, Pose and Deformation Estimation Under Facial Occlusion;
Interspecies Knowledge Transfer for Facial Keypoint Detection

10. Small Object Detection

Small Object Detection

小目标检测一直是目标检测任务的一个难点，这一篇是小交通标志检测。

Perceptual Generative Adversarial Networks for Small Object Detection

四. Feature Pyramid Networks for Object Detection 阅读

1. Introduction

小目标检测和尺度变化比较大的目标检测一直是目标检测任务的一大难点。
特征金字塔一直是传统方法应对这一难点最常用的方法。
但是对于深度学习：费时费力。
如何设计适合深度学习的特征金字塔？

2. Some DL feature pyramid

(a) 用图片金字塔生成特征金字塔
(b) 只在特征最上层预测
(c) 特征层分层预测
(d) FPN从高层携带信息传给底层，再分层预测

各自特点：
(a).运算耗时会增加4倍，训练深度网络的时候太吃显存；
(b).前后层之间由于不同深度（depths）影响，语义信息差距太大；
(c).SSD就是这样的形式，但是对于高分辨率的底层特征没有再利用，而这些层对于检测小目标很重要；
(d).把低分辨率、高语义信息的高层特征和高分辨率、低语义信息的低层特征进行自上而下的侧边连接，使得所有尺度下的特征都有丰富的语义信息

3. Bottom-up pathway

自底向上的过程就是神经网络普通的正向传播；
特征图经过卷积核计算，通常是越变越小的；
same network stage：feature map大小相同的地方，只抽取最上层；
逐层抽取特征；
ResNets的卷积层，分为了{C1_x，C2_x，C3_x，C4_x，C5_x}用了 C2，C3，C4，C5 最后的 feature map；