Faster R-CNN论文阅读笔记
论文:Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks
Github: Faster R-CNN
如果不了解R-CNN系列,建议先阅读这方面的论文,博客
相关知识
论文里采用了“Anchor”机制来生成候选区域,候选区域生成最简单粗暴的方法就是用多尺度(scale),多视场(aspect ratio)的Sliding Window来生成。
Anchor机制解释图- 所谓多尺度(scale):可以简单的理解为将图片缩放成一系列图像,这些不同大小的图像就代表不同的尺度。尺度是一个相对的概念。如上图(a)所示。
- 所谓多视场(aspect ratio):多视场这个是自己理解翻译的词。这个可以这么理解:对与图像中的某个目标比如猫,对猫的眼睛给个框,然后扩大这个框,把猫的脑袋也包括进来,然后继续扩大,把整个猫也包含进来。这来得到的一些框内的图像就算是多视场。如上图(b)所示
Sliding Window给出的候选区域就是多尺度,多视场的图像的集合,它给出的是不同尺度大小,不同视场大小的图像的集合。是一个暴力枚举所有可能区域的方法。
而“Anchor”机制个人觉得可以理解为Sliding Window提取候选区域的一种近似。“Anchor”机制只使用3个scale,3个aspect ratio,即3x3共个9个候选框(参见图c,这里只画了3个,没画全)。这样得到的候选区域虽然会有误差,不过后面反正会有bounding box回归来修正误差,所以就无所谓了,只要不是差太多就行。
Abstract
主流的目标检测方法在detection network已经取得了不错的运行时间方面的优化,因此region proposal algorithms成为了一个计算瓶颈。作者本文的关键工作就是提出了Region Proposal Network用来进行候选区域提取,这样可以大大缩短候选区域的提取时间。
Introduction
目标检测网络基本上可以分成两部分:候选区域生成(Region proposals) + 对候选区域进行分类以及bound boxes回归。
Region proposal方法有多种,比如:Selective Search, greedily merges superpixels, EdgeBoxes. 以Selective Search方法为例,相比于高效的检测网络部分,这部分的运行时间高了将近一个数量级,其他方法虽然有一定的提升,但是总的来说,region proposal 部分相比于 detection network 多花了很多时间,运行速度的瓶颈就在于此!作者本文的创新点就在于和传统的生成候选区域的算法不同,作者使用Region proposal network来进行Region proposals. 网络整体结构示意图如下:
Faster R-CNN示意图对于一副输入图像,将其送入CNN提取特征,然后利用Region Proposal Network提取候选区域(这个过程利用了刚才说的Anchor机制,后面细说)。对每一个候选区域进行分类和bounding box回归,就可以得到检测的结果。不过这里候选区域提取是在CNN的最后一个feature map上提取的,那么问题来了,提取的候选区域怎么映射对应回原图呢?feature map上的框怎么对应上输入图像的框?实际上,就是很直接粗暴的方式:根据特征图和原图的比例,把特征图上的框按比例进行缩放。
Faster R-CNN的网络结构
RPN网络
RPN网络结构如下图所示:
RPN网络结构图
对于任意一副输入图像,将其送入CNN之后,就可以得到相应的feature maps。RPN在CNN的最后一层feature map上滑动。假如最后一个feature map的大小是40 x 60 x channels,那么对于feature map中的每一个像素,用channels x 3 x 3 x 512的卷积核进行卷积,这样可以输出一个512维的特征向量。然后在接上一个1x1x18的卷积核,就可以输出18 = 2x9个评分(9个anchor,每个anchor有两个评分,代表前景,背景的confidence)。在256维特征后面接1x1x36的卷积核就可以得到36个值(9个anchor,每个anchor是4个值,分别代表中心点坐标,宽,高值)。
对于每一个像素都进行预测9个anchor,如果最后一层feature map是40x60大小的话,就要预测40x60x9个anchor,选出前300个得分高的作为候选区域,这样相比于Selective search得到的2000个区域少了很多,而且作者还进行了实验,发现用RPN得到的候选区域比selective search得到的Recall高很多。
RPN网络的训练
- 正样本选取:和ground truth的IoU值最高的anchor被当作正样本。此外,如果一个anchor和ground truth的IoU超过0.7,则也当成正样本。
- 负样本选取:如果一个anchor和所有ground truth的IoU低于0.3,则认为是负样本。
对于既不是正样本,也不是负样本的anchor则直接丢弃。超出边界的anchor也丢弃
优化的目标函数如下:
RPN优化的损失函数
第一项表示分类损失,第二项表示回归损失,lambda是权重因子。RPN网络和CNN结合在一起可以实现端到端的训练,CNN在ImageNet预训练。
RPN和Fast R-CNN共享卷积层
RPN和Fast R-CNN(准确来说是Fast R-CNN的分类和bounding box回归部分)都是接在CNN后面的,准确来说应该是这样的:CNN接上RPN,而后是Fast R-CNN。那么,也就是说Fast R-CNN和RPN是共享CNN的。那么这该怎么训练呢?作者给出了3种网络的训练方式:
- 联合训练
- 近似联合训练
- 非近似联合训练
实现细节
将图像resize到短边为600像素,送入神经网络进行检测,并进行非极大值抑制,得到最终结果!
实验结果
state of art!