R-CNN详解

2016-12-30 本文已影响1084人二山三人

Test的过程：

1. 对给定的一张图片，通过Selective Search得到2000个Proposals

2. 每一个Proposal都经过已经训练好的CNN网络，得到fc7层的features,4096-dimension，即2000*4096

3. 用SVM分类器(4096*K)得到相应的score，即2000*K

4. 用CNN中pool5的特征，利用已经训练好的权值，得到bounding box的修正值，原先的proposal经过修正得到新的proposal的位置

5. 对每一类别的scores，进行non-maximum suppression。具体来讲，对于2000*K中的每一列，进行nms。对于特定的这一列（这一类），选取值最大的对应的proposal，计算其他proposal跟此proposal的IOU，剔除那些重合很多的proposal。再从剩下的proposal里选取值最大的，然后再进行剔除，如此反复进行，直到没有剩下的proposal。K列（K类）都进行这样的操作，即可得到最终的bounding box和每一个bounding box对应的类别及其score值。

Training的过程：

1. 对训练集中所有的图片，用selective search提取出各图片对应的2000个proposal，并保存。（图片路径+bounding box信息）

2. 对每张图片，根据图片中bounding box的ground truth信息，给该图片的2000个proposal赋类标签，并保存。（这2000个proposal，如果跟ground truth中的proposal的IoU值超过了阈值，则把ground truth中的proposal对应的类标签赋给原始产生的这个proposal，其余的proposal都标为background）

3. 根据2中得到的文件，每次随机取batch，32 positive windows and 96 background windows，来训练一个在ImageNet上训好的模型，每一个proposal输入CNN，对应的类标签，来训练这201类的classification网络，训练好后，对所有的proposal,forward一遍来得到fc7 feature，保存最终的fc7特征及对应的proposal信息到文件中

4. 训练SVM分类器。对某一个特定的类，把跟属于这个类的ground truth的bounding box的IoU大于阈值的原始提取的proposal标为正样本，其余标为负样本，得到新的一个文件（加上之前得到的fc7特征信息）。用这个文件去训练这一个类的SVM。同样的方法，循环训好其他类别的分类器。

5. 用CNN得到的pool5的特征和bounding box的ground truth来训练bounding box regression，只对那些跟ground truth的IoU超过某个阈值的proposal进行训练，其余的不参与。

补充：

1. 在把proposal丢进CNN之前，需要把proposal处理成固定的一个大小，paper里提到“Prior to warping, dilate the tight bounding box, make p pixels around the original”，这个是什么意思？

比例=proposal的w/227-2p，把原图按此比例进行变换，以proposal的中心为中心，截取227大小的图作为输入，进入CNN

2. Detection中，mAP是怎么计算的？

对于每一个类，设置一个阈值，score大于此值的为正，否则为负，与ground truth相比，得到属于次此类别且score大于阈值的proposal，属于此类别但score不大于阈值的proposal，得到不属于此类别但score大于阈值的proposal，不属于此类别但score不大于阈值的proposal。由此计算，precision, recall。通过改变阈值，得到不同组对应的recall和precision。画曲线即可得到AP。

得到每一个类别对应的AP后，取平均值得到mAP。

recall = 属于次此类别且score大于阈值的proposal/(属于此类别且score大于阈值的proposal+属于此类别但score不大于阈值的proposal

precision = 属于次此类别且score大于阈值的proposal/(属于此类别且score大于阈值的proposal+不属于此类别但score大于阈值的proposal

R-CNN详解

猜你喜欢

热点阅读