目标检测之YOLO v2-You Only Look Once(

2020-01-31  本文已影响0人  CristianoC

目录

前言

今天给大家介绍斩获CVPR 2017 Best Paper Honorable MentionYOLO v2的论文,YOLO9000:Better, Faster, Stronger。准确来说这篇论文提出了两个模型:YOLO v2YOLO9000,本篇论文主要的工作可以概括为2步:

  1. 作者在YOLO v1的基础上,借鉴了很多trick,比如Batch NormalizationHigh Resolution Classifier等,提出YOLO v2,让预测变得更准确(Better),更快速(Faster),以下是用到的trick以及相对应提高的mAP。

    作者也给出了YOLO v2在速度和准确性与其他算法如Faster R-CNN,SSD的对比:
  2. 如果说前面的很多trick只是参考别的论文没有太大的创新,那么YOLO9000则提出了一种让世人称赞不已的策略:分类和检测的联合训练策略,让模型识别的种类不再局限于像COCO数据集的80种,模型可以因此联动像ImageNet这样拥有上万种种类的分类数据集以及像COCO这样的检测数据集一起训练,最终YOLO9000可以识别超过9000种种类,YOLO9000也因此命名。

YOLO v2:Better,Faster

1.Batch Normalization(批度归一化)

2.High Resolution Classifier(使用高分辨率图像微调分类模型)

3.Convolutional With Anchor Boxes(使用先验框Anchor Box替换全连接层)

在之前的YOLO v1中,直接采用全连接层来预测边界框,效果不好。作者借鉴了Faster R-CNN中使用RPN预测偏移量offsets置信度confidences的思想,预测bounding boxAnchor框的偏移(offset)而不是直接预测bounding box的坐标。

  1. 首先作者去除了一个池化层,来使得输出的卷积特征图有更高的分辨率
  2. 其次作者缩减了网络,把原本网络的输入448×448缩减成416×416。因为YOLO v2模型下采样的总步长为32,对于416×416大小的图片,最终得到的特征图大小为13×13,维度是数,这样特征图恰好只有一个中心位置。作者发现对于一些大物体,它们中心点往往落入图片中心位置,此时使用特征图的一个中心点而不是四个中心点去预测这些物体的边界框相对容易些*。所以在YOLOv2设计中要保证输入对应的最终的特征图有奇数个位置(Multi-Scale Training部分有点打脸==)

使用anchor boxes之后,mAP下降了0.3,但召回率提高了7%。这是因为YOLOv1只能预测98个边界框(7×7×2),而YOLO v2使用anchor boxes之后可以预测上千个边界框(13×13×num_anchor),这使得模型拥有进一步的改进空间。

4.Dimension Clusters(使用聚类算法提取anchor boxes的宽高)

5.Direct location prediction(直接位置预测)

6.Fine-Grained Features(细粒度特征)

7.Multi-Scale Training(多尺寸训练)

8.Darknet-19

tips:YOLO v2具体的训练方式这里不多赘述,在YOLO v3的介绍中会重点侧重实现。

YOLO9000:Stronger

-通过联合训练策略,YOLO9000可以快速检测出超过9000个类别的物体,总体mAP值为19.7

参考文献

  1. YOLO9000:Better, Faster, Stronger
上一篇 下一篇

猜你喜欢

热点阅读