从CVPR2017 看多样目标检测+Feature Pyrami
一. 导读
When you have trouble with object detection, keep calm and use deep learning.
这句话是作者自己抖机灵的话,如果说 deep learning 已经攻陷计算机视觉这个领域的话,Object Detection可以说是受灾最严重的区域了。不管是基于region proposal的RCNN系列,还是 end-to-end 的YOLO系列,基于深度学习的方法已经完胜手工特征方法。Object Detection 这块众多博士科研工作者和大批公司关注的“硬骨头” 是否已经黔驴技穷,无从下手? 当然不是,而且,从近几年的趋势来看,如果你想“一文惊人”,抑或得到Best Paper Award,Object Detection是最佳方向(从RestNet 到 DenseNet 再到前几天ICCV kaimingHe双best paper)。
同时,近两年一个更明显的特点,最吸引人的Object Detection方法都是:
Simple Clean But Effective
这些方法都是基于网络结构很简单的思想,基本结构都是:
- Skip Connection (RestNet, DenseNet)
- Joint Multi Feature Map (R-FCN, FPN)
关于目标检测的发展(传统方法-RCNN系列-YOLO系列)以及目标检测的一些经常使用的术语(IOU, NMS, BBOX回归, MAP)可以见我另一篇博客。
二. 从CVPR 2016看Object Detection 发展
(a) 检测精度(“又准”)
检测精度是目标检测任务最初始也是最重要的指标,如何提高方法检测精度指标MAP,是各种方法比较的最基本的指标。这也是深度方法完胜手工方法的地方。
CVPR2016代表性工作有:ResNet, ION, HyperNet.
(b) 检测效率(“又快”)
网络的时间开销,如何提高检测速度,实现又快又好地检测。
YOLO:这个工作在识别效率方面优势十分明显。
(c)定位精度(“又好”)


如何产生更准确的Boundbox?如何逐步提高评价参数IOU(voc数据集,这个值为0.5)?
代表工作LocNet: 抛弃Boundbox回归,使用概率模型。
总结:总最初始最基本的检测指标 检测精度MAP,到如何减少时间开销,再到一个更准确的bbox。侧面反映了目标检测的不断发展: 又准(检测精度)又快(检测效率)又好(定位精度)
三. 从CVPR2017看多样的目标检测
从CVPR2017 论文list看,新的目标检测论文已经不再拘泥于ImageNet,VOC,CoCo数据集了,也不再拘泥于前面的检测精度,检测效率,以及定位精度了(当然这方面也有很多文章)。大家的目光开始转向一个特定环境特点条件下特定目标的检测(最大的特点是有很多这些特点目标的数据集文章出现)。目标检测呈现出百花齐放的景象。
1. Object Action Detection

特定行为特定动作的检测,“一个人在刷牙”不是检测出“人”和“牙刷”,而是“刷牙“这个动作。
CVPR2017相关文章:
- Temporal Convolutional Networks for Action Segmentation and Detection ;
- Predictive-Corrective Networks for Action Detection;
- SCC: Semantic Context Cascade for Efficient Action Detection ;
- UntrimmedNets for Weakly Supervised Action Recognition and Detection
2. Video Object Detection

基于视频的目标检测,传统目标检测都是基于静态图片的,基于视频的目标检测有很多不同点,大部分都是和跟踪算法想结合的。
CVPR2017相关文章:
- Object Detection in Videos With Tubelet Proposal Networks ;
- YouTube-BoundingBoxes: A Large High-Precision Data Set for Object Detection in Video;
- Spatio-Temporal Self-Organizing Map Deep Network for Dynamic Object Detection From Videos;
3. 3D Object Detection

自然环境下的目标检测如何转换到3D空间下。
CVPR2017相关文章:
- Visual-Inertial-Semantic Scene Representation for 3D Object Detection;
- Multi-View 3D Object Detection Network for Autonomous Driving;
- Amodal Detection of 3D Objects: Inferring 3D Bounding Boxes From 2D Ones in RGB-Depth Images
4. TEXT Detection

图像里文字的检测和识别。
CVPR2017相关文章:
- Deep Matching Prior Network: Toward Tighter Multi-Oriented Text Detection;
- End-To-End Concept Word Detection for Video Captioning, Retrieval, and Question Answering
5. Rain Detection


检测出图像中的雨,并且去除得到去雨的照片。(记得之前有一篇去雾的)
CVPR2017相关文章:
- Deep Joint Rain Detection and Removal From a Single Image
6. Line Detection


图片里边缘线段的检测。
CVPR2017相关文章:
- MCMLSD: A Dynamic Programming Approach to Line Segment Detection
7. Pedestrian Detection

行人检测一直是一个重要的topic,当然也少不了。
CVPR2017相关文章:
- What Can Help Pedestrian Detection?;
- CityPersons: A Diverse Dataset for Pedestrian Detection;
- Learning Cross-Modal Deep Representations for Robust Pedestrian Detection
8. Moving Object Detection


移动物体检测不同于基于视频的目标检测,移动物体一般都是移动速度很快的物体(汽车,摩托,飞机,动物等等)。
CVPR2017相关文章:
- Minimum Delay Moving Object Detection
9. Facial Landmark Detection

人脸关键点检测也是一个一直很火热的话题。
CVPR2017相关文章:
- A Deep Regression Architecture With Two-Stage Re-Initialization for High Performance Facial Landmark Detection;
- Simultaneous Facial Landmark Detection, Pose and Deformation Estimation Under Facial Occlusion;
- Interspecies Knowledge Transfer for Facial Keypoint Detection
10. Small Object Detection


小目标检测一直是目标检测任务的一个难点,这一篇是小交通标志检测。
- Perceptual Generative Adversarial Networks for Small Object Detection
四. Feature Pyramid Networks for Object Detection 阅读
1. Introduction


小目标检测和尺度变化比较大的目标检测一直是目标检测任务的一大难点。
特征金字塔一直是传统方法应对这一难点最常用的方法。
但是对于深度学习:费时费力。
如何设计适合深度学习的特征金字塔?
2. Some DL feature pyramid

(a) 用图片金字塔生成特征金字塔
(b) 只在特征最上层预测
(c) 特征层分层预测
(d) FPN从高层携带信息传给底层,再分层预测
各自特点:
(a).运算耗时会增加4倍,训练深度网络的时候太吃显存;
(b).前后层之间由于不同深度(depths)影响,语义信息差距太大;
(c).SSD就是这样的形式,但是对于高分辨率的底层特征没有再利用,而这些层对于检测小目标很重要;
(d).把低分辨率、高语义信息的高层特征和高分辨率、低语义信息的低层特征进行自上而下的侧边连接,使得所有尺度下的特征都有丰富的语义信息
3. Bottom-up pathway

- 自底向上的过程就是神经网络普通的正向传播;
- 特征图经过卷积核计算,通常是越变越小的;
- same network stage:feature map大小相同的地方,只抽取最上层;
- 逐层抽取特征;
ResNets的卷积层,分为了{C1_x,C2_x,C3_x,C4_x,C5_x}用了 C2,C3,C4,C5 最后的 feature map;
4. Top-down pathway and lateral connections
-
迭代最开始时:C5 + 1 * 1的卷积核-->最粗略的特征图(P5)
- 高层特征做2倍上采样-->与下一层同样大小的 featuremap
-
低层特征+1*1卷积,改变channel数-->与前一层相同channel特征图
-
上下相同channel 相同大小的特征图,像素间加法-->融合后的特征图 (C4->C4’)
-
3 * 3的卷积核处理已经融合的特征图-->消除混叠效应(C4'->P4)
-
不断迭代,前面抽取的C2,C3,C4,C5,各自对应融合的特征图{P2, P3, P4, P5}
5. Why does FPN Improves Features for Small Objects?
FPN leverages contextual information passed top-down for small objects
FPN increases feature resolution for small objects.

对于小物体,一方面我们需要高分辨率的 feature map 更多关注小区域信息,另一方面,如图中的足球一样,需要更全局的信息更准确判断足球的存在及位置。(这是作者在poster上的解释,poster那张图太模糊了,就借用习大大的照片了)