目标检测5年盘点

2018-12-29 本文已影响85人有事没事扯扯淡

来自首尔国立大学的 Lee hoseong 在近期开源了「deep learning object detection」GitHub 项目。该项目集合了从 2013 年 11 月提出的 R-CNN至在近期举办的 ECCV2018 上发表的 RFBNet 等四十多篇关于目标检测的论文，相当全面。这些论文很多都曾发表在机器学习或人工智能顶会上，如 ICLR、NIPS、CVPR、ICCV、ECCV 等。正如图中红色字体标示的那样，其中也包含了很多代表性的成果，如从 R-CNN 到 Mask R-CNN 的 R-CNN 系列、YOLO 系列、RPN、SSD、FPN 以及 Re-tinaNet 等。无论对刚入门的机器学习新手，还是想深入研究目标检测的研究者，都是难得的学习、参考资源。

image.png

这份综述论文包含超过 250 项关键贡献，覆盖了一般目标检测研究的许多方面：领先的检测框架、基础性的子问题（包括目标特征表示、目标提议生成、形境信息建模和训练策略）、评估问题（尤其是基准数据集、评估指标和当前最佳表现）。

目标检测可以分为两种类型：特定实例检测和特定类别检测。前者的目标是检测一个特定目标的实例（比如唐纳德·特朗普的脸、五角大楼建筑或我的狗 Penny），而后者的目标则是检测预定义目标类别的不同实例（比如人、车、自行车和狗）。历史上，目标检测领域的很多研究都关注的是单个类别（比如人脸或行人）或少数几个特定类别的检测。而过去几年中，研究界则已经开始向构建通用型目标检测系统的艰难目标迈进，以让目标检测的范围能与人类比肩。

一般目标检测问题本身的定义为：给定任意一张图像，确定其中是否存在任何预定义类别的形义目标实例；如果存在，就返回其空间位置和覆盖范围。目标（object，也可译为「对象」或「物体」）是指可以被看见和触碰的有形事物。尽管一般目标检测和目标类别检测有很多共同的含义，但前者更注重旨在检测种类广泛的自然事物类别的方法，而后者则主要针对特定目标实例或特定类别（比如人脸、行人或车）。一般目标检测已经得到了很大的关注，我们也能从近些年的目标识别竞赛上看出这一点，比如 2006-2012 年的 PASCAL VOC 检测挑战赛，2013 年的 ILSVRC 大规模检测挑战赛以及自 2015 年以来的 MS COCO 大规模检测挑战赛。

1. 背景

一般目标检测（即一般目标类别检测）也被称为目标类别检测或目标分类检测，其定义如下。给定一张图像，确定其中是否存在多个预定义类别的任何目标实例；如果存在，就返回每个实例的空间位置和覆盖范围。

(a)图像层面的目标分类（b）边界框层面的一般目标检测（c）像素层面的形义分割（d）实例层面的形义分割

2. 难点

一般目标检测中的难题概览

3. 主流框架

相对而言，用于定位的基本「滑动窗口」策略 [42, 56, 55] 仍还是主流，尽管 [113, 209] 也做出了一些努力。但是窗口的数量很大，而且会随像素数量呈二次增长，而且搜索多个尺度和宽高比的需求还会进一步增大搜索空间。巨大的搜索空间会导致高度的计算复杂度。因此，有效且高效的检测框架设计具有关键性作用。经常采用的策略包括级联、共享特征计算和降低每个窗口的计算量。（引用查原文）

详细情况总结在表 10 中。过去几年中提出的几乎所有检测器都基于其中一种里程碑检测器，试图在一个或多个方面实现改进。整体而言，这些检测器可以分为两大主要类别：

两级式检测框架，包含一个用于区域提议的预处理步骤，使得整体流程是两级式的。

单级式检测框架，即无区域提议的框架，这是一种单独提出的方法，不会将检测提议分开，使得整个流程是单级式的。

4. 基础问题

4.1 基于 DCNN 的目标表示

作为任何检测器的主要组件之一，优良的特征表示在目标检测中至关重要。

常用于一般目标检测的 DCNN 架构。对于 #Paras 和 #Layers 的统计数据，没有考虑最后的 FC 预测层。「Test Error」一列给出了在 ImageNet1000 上的 Top 5 分类测试误差。解释：OverFeat（准确的模型）、DenseNet201（Growth Rate 32, DenseNet-BC）以及 ResNeXt50（32*4d）。

HyperNet 和 ION 的比较。LRN 是指局部响应归一化

在改进用于一般目标检测的 DCNN 特征表示中的表征方法的特性总结。详细讨论参见 4.1.2 节。缩写：Selective Search（SS）、EdgeBoxes（EB）、InceptionResNet（IRN）。mAP@IoU=0.5 时，在 VOC07、VOC12 和 COCO 上报告的检测结果；另一列在 COCO 上的结果是在一个新指标 mAP@IoU=[0.5 : 0.05 : 0.95] 上报告的，这是在从 0.5 到 0.95（写成 [0.5:0.95]）的不同 IoU 阈值上平均求取 mAP。训练数据：07 表示 VOC2007 trainval，12 表示 VOC2012 trainval，07+12 表示 VOC07 和 VOC12 trainval 的并集，07++12 表示 VOC07 trainval、VOC07 test 和 VOC12 trainval 的并集，07++12+CO 表示 VOC07 trainval、VOC07 test、VOC12 trainval 和 COCO trainval 的并集。COCO 检测结果是在 COCO2015 Test-Dev 上报告的，只有 MPN [233] 除外，其结果基于 COCO2015 Test-Standard

Hourglass 架构：Conv1 到 Conv5 是 VGG 和 ResNet 等主干网络中的主要卷积模块。比较而言，近期的方法常会用到一些反向融合模块（RFB）

4.2. 内容建模（context modeling）

在物理世界中，视觉目标通常会出现在特定的环境中，并且通常与其它相关目标共同存在，而且有强大的心理学证据 [13, 9] 表明内容在人类目标识别中发挥着关键性的作用。人们也认识到对内容适当建模有助于目标检测和识别 [203, 155, 27, 26, 47, 59]，尤其是当目标尺寸过小、存在遮挡或图像质量差等原因造成目标外观特征不充分时。已有研究者探讨了很多不同类型的内容环境，尤其可参阅 [47, 59]。内容环境大致可分为这三大类 [13, 59]：

Semantic context: The likelihood of an object to be found in some scenes but not in others;

Spatial context: Tthe likelihood of finding an object in some position and not others with respect to other objects in the scene;

Scale context: Objects have