深度学习·神经网络·计算机视觉机器学习与计算机视觉读论文

读论文系列:Object Detection CVPR2016

2018-04-02  本文已影响40人  梦里茶

CVPR2016: You Only Look Once:Unified, Real-Time Object Detection

转载请注明作者:梦里茶

YOLO detection system

YOLO,You Only Look Once,摒弃了RCNN系列方法中的region proposal步骤,将detection问题转为一个回归问题

网络结构

CNN Model

于是输出可以表示为一个SxSx(B*(4+1)+C)的tensor,训练只需要根据数据集准备好这样的tensor进行regression就行

训练

Loss

YOLO Loss Function

YOLO里最核心的东西就讲完了,其实可以把YOLO看作固定region proposal的Faster RCNN,于是可以省掉Faster RCNN里region proposal部分,分类和bounding box regression跟Faster RCNN是差不多的

细节

Leaky Relu

网络中只有最后的全连接层用了线性的激活函数,其他层用了leaky Relu:f(x)=max(x, 0.1x)

对比Relu和leaky Relu

Relu Leaky Relu

在x小于0的时候,用了0.1x,避免使用relu的时候有些单元永远得不到激活(Dead ReLU Problem)

Fast YOLO

卷积层更少,只有9层卷积+2层全连接,每层filters也更少,于是速度更快

实验效果

SOA

Fast YOLO速度最快,准确率不太高,但还是比传统方法好,YOLO则比较中庸,速度不慢,准确率也不太高,但也还行。

Error Analysis

主要是定位不准(毕竟没有精细的region proposal),但是在背景上出错较少(不容易把背景当成对象)

缺点

Summary

Anyway,YOLO结构还是挺优雅的,比Faster RCNN黑科技少多了,更重要的是,它是当时最快的深度学习检测模型,也是很值得肯定的。

上一篇下一篇

猜你喜欢

热点阅读