【转载】目标检测之RCNN，fast RCNN，faster R

2018-01-05 本文已影响417人 dopami

原文链接：http://www.cnblogs.com/sandy-t/p/7208568.html

RCNN:

候选区生成(Selective Search)。

分割成2000左右的候选小区域

合并规则：颜色、纹理相近，尺度均匀，合并后形状规则

特征提取。

归一候选区尺寸为227×227，归一方法。

使用在imageNet上的分类网络作为预训练网络，预训练网络输出4096维特征

预训练网络加上全连接层在分类数据集上预训练

每一类使用SVM分类器

对预训练网络输出的4096维特征，使用多个SVM分类器进行判断

对于负样本过多的问题，使用hard negative mining，将重叠框小于阈值的作为负类。

位置回归

训练回归器输出x,y,d,h偏移量

fast RCNN

使用整张图片传入网络提取特征

使用Selective search等方法得到候选区域，复用前面阶段的网络特征

对候选区使用Roi Pooling层规定尺寸图像（全连接层需要相同大小的输入）

输入到两个并行的全连接层中，分别计算损失

例如：

对于输入图像：

候选区域：

最后一个卷积层：

放大

归一尺寸的候选区域的特征：

和

faster RCNN

主要思想是使用最后一个卷积层来得到候选区域，faster RCNN相当于：候选区域生成网络+fast RCNN。

特征提取网络，VGG-16等。网络输出5139256维特征

使用3种面积，3种长宽总共9种候选窗口，称为：anchor，如图：

训练过程中有四种损失：

区域生成网络的前后景分类损失（Object or not object）

区域生成网络的区域位置损失（Bounding box proposal）

Fast RCNN物体分类损失（Normal object classification）

Fast RCNN区域位置损失（Improve previous Bounding box proposal）

训练方式：

轮流训练

近似联合训练

联合训练

整个结构：

有些人，一辈子都没有得到过自己想要的，因为他们总是半途而废