计算机视觉

目标检测5年盘点

2018-12-29  本文已影响85人  有事没事扯扯淡

论文地址:https://arxiv.org/abs/1809.02165

来自首尔国立大学的 Lee hoseong 在近期开源了「deep learning object detection」GitHub 项目。该项目集合了从 2013 年 11 月提出的 R-CNN至在近期举办的 ECCV2018 上发表的 RFBNet 等四十多篇关于目标检测的论文,相当全面。这些论文很多都曾发表在机器学习或人工智能顶会上,如 ICLR、NIPS、CVPR、ICCV、ECCV 等。正如图中红色字体标示的那样,其中也包含了很多代表性的成果,如从 R-CNN 到 Mask R-CNN 的 R-CNN 系列、YOLO 系列、RPN、SSD、FPN 以及 Re-tinaNet 等。无论对刚入门的机器学习新手,还是想深入研究目标检测的研究者,都是难得的学习、参考资源。

image.png

这份综述论文包含超过 250 项关键贡献,覆盖了一般目标检测研究的许多方面:领先的检测框架、基础性的子问题(包括目标特征表示、目标提议生成、形境信息建模和训练策略)、评估问题(尤其是基准数据集、评估指标和当前最佳表现)。


目标检测可以分为两种类型 :特定实例检测和特定类别检测。前者的目标是检测一个特定目标的实例(比如唐纳德·特朗普的脸、五角大楼建筑或我的狗 Penny),而后者的目标则是检测预定义目标类别的不同实例(比如人、车、自行车和狗)。历史上,目标检测领域的很多研究都关注的是单个类别(比如人脸或行人)或少数几个特定类别的检测。而过去几年中,研究界则已经开始向构建通用型目标检测系统的艰难目标迈进,以让目标检测的范围能与人类比肩。

一般目标检测问题本身的定义为:给定任意一张图像,确定其中是否存在任何预定义类别的形义目标实例;如果存在,就返回其空间位置和覆盖范围。目标(object,也可译为「对象」或「物体」)是指可以被看见和触碰的有形事物。尽管一般目标检测和目标类别检测有很多共同的含义,但前者更注重旨在检测种类广泛的自然事物类别的方法,而后者则主要针对特定目标实例或特定类别(比如人脸、行人或车)。一般目标检测已经得到了很大的关注,我们也能从近些年的目标识别竞赛上看出这一点,比如 2006-2012 年的 PASCAL VOC 检测挑战赛 ,2013 年的 ILSVRC 大规模检测挑战赛 以及自 2015 年以来的 MS COCO 大规模检测挑战赛 。

1. 背景

一般目标检测(即一般目标类别检测)也被称为目标类别检测 或目标分类检测,其定义如下。给定一张图像,确定其中是否存在多个预定义类别的任何目标实例;如果存在,就返回每个实例的空间位置和覆盖范围。

(a)图像层面的目标分类(b)边界框层面的一般目标检测(c)像素层面的形义分割(d)实例层面的形义分割

2. 难点

一般目标检测中的难题概览

3. 主流框架

相对而言,用于定位的基本「滑动窗口」策略 [42, 56, 55] 仍还是主流,尽管 [113, 209] 也做出了一些努力。但是窗口的数量很大,而且会随像素数量呈二次增长,而且搜索多个尺度和宽高比的需求还会进一步增大搜索空间。巨大的搜索空间会导致高度的计算复杂度。因此,有效且高效的检测框架设计具有关键性作用。经常采用的策略包括级联、共享特征计算和降低每个窗口的计算量。(引用查原文

详细情况总结在表 10 中。过去几年中提出的几乎所有检测器都基于其中一种里程碑检测器,试图在一个或多个方面实现改进。整体而言,这些检测器可以分为两大主要类别:

  1. 两级式检测框架,包含一个用于区域提议的预处理步骤,使得整体流程是两级式的。
  2. 单级式检测框架,即无区域提议的框架,这是一种单独提出的方法,不会将检测提议分开,使得整个流程是单级式的。

4. 基础问题

4.1 基于 DCNN 的目标表示

作为任何检测器的主要组件之一,优良的特征表示在目标检测中至关重要。

常用于一般目标检测的 DCNN 架构。对于 #Paras 和 #Layers 的统计数据,没有考虑最后的 FC 预测层。「Test Error」一列给出了在 ImageNet1000 上的 Top 5 分类测试误差。解释:OverFeat(准确的模型)、DenseNet201(Growth Rate 32, DenseNet-BC)以及 ResNeXt50(32*4d)。 HyperNet 和 ION 的比较。LRN 是指局部响应归一化 在改进用于一般目标检测的 DCNN 特征表示中的表征方法的特性总结。详细讨论参见 4.1.2 节。缩写:Selective Search(SS)、EdgeBoxes(EB)、InceptionResNet(IRN)。mAP@IoU=0.5 时,在 VOC07、VOC12 和 COCO 上报告的检测结果;另一列在 COCO 上的结果是在一个新指标 mAP@IoU=[0.5 : 0.05 : 0.95] 上报告的,这是在从 0.5 到 0.95(写成 [0.5:0.95])的不同 IoU 阈值上平均求取 mAP。训练数据:07 表示 VOC2007 trainval,12 表示 VOC2012 trainval,07+12 表示 VOC07 和 VOC12 trainval 的并集,07++12 表示 VOC07 trainval、VOC07 test 和 VOC12 trainval 的并集,07++12+CO 表示 VOC07 trainval、VOC07 test、VOC12 trainval 和 COCO trainval 的并集。COCO 检测结果是在 COCO2015 Test-Dev 上报告的,只有 MPN [233] 除外,其结果基于 COCO2015 Test-Standard Hourglass 架构:Conv1 到 Conv5 是 VGG 和 ResNet 等主干网络中的主要卷积模块。比较而言,近期的方法常会用到一些反向融合模块(RFB)

4.2. 内容建模(context modeling)

在物理世界中,视觉目标通常会出现在特定的环境中,并且通常与其它相关目标共同存在,而且有强大的心理学证据 [13, 9] 表明内容在人类目标识别中发挥着关键性的作用。人们也认识到对内容适当建模有助于目标检测和识别 [203, 155, 27, 26, 47, 59],尤其是当目标尺寸过小、存在遮挡或图像质量差等原因造成目标外观特征不充分时。已有研究者探讨了很多不同类型的内容环境,尤其可参阅 [47, 59]。内容环境大致可分为这三大类 [13, 59]:

  1. Semantic context: The likelihood of an object to be found in some scenes but not in others;
  2. Spatial context: Tthe likelihood of finding an object in some position and not others with respect to other objects in the scene;
  3. Scale context: Objects have
使用了环境信息的检测器汇总 探索局部周围环境特征的代表性方法:MRCNN [62]、GBDNet [235, 236]、ACCNN [123] 和 CoupleNet [251]

4.3 检测提议方法(detection proposal methods)

检测提议(detection proposal)通常被用作一个预处理步骤,以通过限制需要检测器评估的区域的数量来降低计算的复杂性。因此,一个优良的检测提议应当具备以下特点:

  1. High recall, which can be achieved with only a few proposals;
  2. The proposals match the objects as accurately as possible;
  3. High efficiency.
使用 DCNN 的目标提议方法汇总。蓝色数字表示目标提议的数量。除非另有说明,在 COCO 上的检测结果都使用了 mAP@IoU[0.5, 0.95]

4.4 其他情况

用于训练策略和处理类别不平衡问题的代表性方法。在 COCO 上的结果基于 Test-Dev

5. 数据集和评价指标

用于目标识别的常用数据库 用于评估目标检测器的常用指标汇总

6. 总结

具体的总结参见原文

上一篇下一篇

猜你喜欢

热点阅读