目标检测研究之路3

2017-06-28 本文已影响66人活体检测业余爱好

端到端的方法

本小节介绍端到端（End-to-End）的目标检测方法，这些方法无需区域提名，包括YOLO和SSD

YOLO

YOLO的全拼是You Only Look Once，顾名思义就是只看一次，进一步把目标判定和目标识别合二为一，所以识别性能有了很大提升，达到每秒45帧，而在快速版YOLO(Fast YOLO，卷积层更少)中，可以达到每秒155帧。

网络的整体结构如图14所示，针对一张图片，YOLO的处理步骤为：

1. 把输入图片缩放到448×448大小；
2. 运行卷积网络；
3. 对模型置信度卡阈值，得到目标位置与类别。

图14. YOLO检测系统

网络的模型如图15所示，将448×448大小的图切成S×S的网格，目标中心点所在的格子负责该目标的相关检测，每个网格预测B个边框及其置信度，以及C种类别的概率。YOLO中S=7，B=2，C取决于数据集中物体类别数量，比如VOC数据集就是C=20。对VOC数据集来说，YOLO就是把图片统一缩放到448×448，然后每张图平均划分为7×7=49个小格子，每个格子预测2个矩形框及其置信度，以及20种类别的概率。

图15. YOLO模型

YOLO简化了整个目标检测流程，速度的提升也很大，但是YOLO还是有不少可以改进的地方，比如S×S的网格就是一个比较启发式的策略，如果两个小目标同时落入一个格子中，模型也只能预测一个；另一个问题是Loss函数对不同大小的bbox未做区分。

补充：http://blog.csdn.net/hx921123/article/details/55802795（写的还行）以及
zhuanlan.zhihu.com/p/25045711中的训练方法

SSD

SSD[17,23]的全拼是Single Shot MultiBox Detector，冲着YOLO的缺点来的。SSD的框架如图16所示，图16(a)表示带有两个Ground Truth边框的输入图片，图16(b)和(c)分别表示8×8网格和4×4网格，显然前者适合检测小的目标，比如图片中的猫，后者适合检测大的目标，比如图片中的狗。在每个格子上有一系列固定大小的Box（有点类似前面提到的Anchor Box），这些在SSD称为Default Box，用来框定目标物体的位置，在训练的时候Ground Truth会赋予给某个固定的Box，比如图16(b)中的蓝框和图16(c)中的红框。