【转载】目标检测之RCNN,fast RCNN,faster R
原文链接:http://www.cnblogs.com/sandy-t/p/7208568.html
RCNN:
![](https://img.haomeiwen.com/i8595017/02168b7572ed78e1.png)
候选区生成(Selective Search)。
分割成2000左右的候选小区域
合并规则:颜色、纹理相近,尺度均匀,合并后形状规则
特征提取。
归一候选区尺寸为227×227,归一方法。
使用在imageNet上的分类网络作为预训练网络,预训练网络输出4096维特征
预训练网络加上全连接层在分类数据集上预训练
每一类使用SVM分类器
对预训练网络输出的4096维特征,使用多个SVM分类器进行判断
对于负样本过多的问题,使用hard negative mining,将重叠框小于阈值的作为负类。
位置回归
训练回归器输出x,y,d,h偏移量
![](https://img.haomeiwen.com/i8595017/f3286afd94035c7e.png)
fast RCNN
![](https://img.haomeiwen.com/i8595017/ae9019c0ff67d4a1.png)
使用整张图片传入网络提取特征
使用Selective search等方法得到候选区域,复用前面阶段的网络特征
对候选区使用Roi Pooling层规定尺寸图像(全连接层需要相同大小的输入)
![](https://img.haomeiwen.com/i8595017/bbc6aaac6e6087ef.png)
输入到两个并行的全连接层中,分别计算损失
![](https://img.haomeiwen.com/i8595017/443de3281b02a4dd.png)
例如:
对于输入图像:
![](https://img.haomeiwen.com/i8595017/585805c3098d6ae2.png)
候选区域:
![](https://img.haomeiwen.com/i8595017/972755db03add772.png)
最后一个卷积层:
![](https://img.haomeiwen.com/i8595017/ebe87791f6d37cbd.png)
放大
![](https://img.haomeiwen.com/i8595017/244a9f0d17122b80.png)
归一尺寸的候选区域的特征:
![](https://img.haomeiwen.com/i8595017/8c08de8d9def898d.png)
和
![](https://img.haomeiwen.com/i8595017/8ef229f80fcd4af8.png)
faster RCNN
主要思想是使用最后一个卷积层来得到候选区域,faster RCNN相当于:候选区域生成网络+fast RCNN。
![](https://img.haomeiwen.com/i8595017/0cd0cd58bc5e95ee.png)
特征提取网络,VGG-16等。网络输出5139256维特征
使用3种面积,3种长宽总共9种候选窗口,称为:anchor,如图:
![](https://img.haomeiwen.com/i8595017/c2edfcf26eb517ea.png)
训练过程中有四种损失:
区域生成网络的前后景分类损失(Object or not object)
区域生成网络的区域位置损失(Bounding box proposal)
Fast RCNN物体分类损失(Normal object classification)
Fast RCNN区域位置损失(Improve previous Bounding box proposal)
![](https://img.haomeiwen.com/i8595017/cc140d65351ae542.png)
训练方式:
轮流训练
近似联合训练
联合训练
整个结构:
![](https://img.haomeiwen.com/i8595017/8fb67aed4d4788cb.png)
有些人,一辈子都没有得到过自己想要的,因为他们总是半途而废