FPN读书笔记

2018-06-12 本文已影响58人 haoshengup

3、Feature Pyramid Networks

（1）Bottom-up pathway
使用的网络结构是：ResNet网络。在网络的前向传播过程中，总共有5种不同大小的feature map，对于相同大小的feature map，我们称之为网络的一个阶段。参考ResNet的网络结构图，总共有5个阶段：conv1、conv2、conv3、conv4、conv5。
在这里选择conv2、conv3、conv4、conv5来建立特征金字塔，它们对应的strides分别为：{4，8，16，32}。这里没有使用conv1，因为会占用太多的内存。
注意，这里选择每个阶段的最后一层来作为特征层，因为每个阶段的最好一层有最强的特征。并分别把选取的4个特征层记作：{ C₂、C₃、C₄、C₅}。
（2）Top-down Pathway and lateral connections
① Top-down Pathway：将上述的4张特征图从上到下进行下采样。
② lateral connections：将bottom-up pathway和top-down pathway具有相同尺寸的特征图按照元素进行相加。在这里，bottom-up pathway底层的特征图能够定位的更准确，因为下采样的次数较少，所以包含了更多的细节信息。
③ 在lateral connections阶段，由于相加的两个特征图的通道数不一样，所以需要先对bottom-up pathway的特征图进行1 * 1的卷积，以调整通道数和上采样的结果相同。相加之后，对相加的结果进行3 * 3的卷积，以消除上采样的混淆现象（aliasing effect）。最后的结果记作：{ P₂、P₃、P₄、P₅}，并且和{ C₂、C₃、C₄、C₅}是一一对应的。

4、Applications

4.1 Feaure Pyramid Networks for RPN
（1）特征金字塔中的每张特征图生成anchor的时候只使用一种尺寸，具体的尺寸是：{ P₂、P₃、P₄、P₅、P₆}分别对应{ 32²、64²、128²、246²、512²}，并且每个anchor对应的宽高比为：{1:2，1:1，2:1}。这样，在整个特征金字塔中有15种不同的anchor。其中：P₆是P₅下采样的结果，并且在fast r-cnn阶段不使用P₆。
（2）训练RPN所采用的labels（对应于每个anchor）用IOU来确定，如果IOU>0.7，则为正样本，如果IOU<0.3则为负样本。
（3）不用判断某个gt_box对应于特征金字塔中的哪张特征图。因为，gt_box和anchor是对应的，而对于某一个anchor，我们是知道出自于哪张特征图的。
4.2 Feature Pyramid Networks for Fast R-cnn
（1）因为这里有4种尺度的特征图（每种特征图上都有从原图上的anchor映射过来的proposals），所以，在使用ROI Pooling的时候，也必须有4种不同的ROI Pooling，那么如何对应ROI Pooling和特征图呢？可以参考下面的公式，P_k为特征金字塔的特征图，w和h为对应的特征图尺寸：[图片上传失败...(image-ec0fd8-1528804803897)] \right \rfloor)

其中，224为原图尺寸，k₀ = 4。
（2）特征金字塔中的每张特征图（即，{ P₂、P₃、P₄、P₅}）中的proposals经过他们对应的ROI Pooling，分别输出7 * 7的结果，也就是说，这4张特征图上的proposals经过ROI Pooling之后，提取出了49个特征。
然后，把上述7 * 7的结果分布连接两个全连接层，接下来分别进行分类和定位（当然，这里的参数也是共享的）。

5、Experiments on Objection Detection

5.1 Region proposals with RPN
（1）Implement details
① 在8个GPU上，使用同步SGD的方法进行训练
② 在每一个GPU上，每个mini_batch包含2张图片，每张图片256个anchor
③ 权重衰减0.0001，动量：0.9
④ 起初30k个mini_batch的学习率是0.02，接下来10k个为0.002
⑤ 超出图片边界的anchor也会被使用（在faster r-cnn中，超出图片边界的anchor会被直接忽略掉）
（2）Comparisions with baselines
① FPN之所以会比普通的RPN效果好，原因是：RPN只在最后一张特征图上进行操作，会使它在更高的分辨率和更强的语义信息之间做妥协。
② How important are lateral connections?
Table 1(e)展示了只使用top-down feature pyramid而没有使用1 * 1 lateral connections的结果。
可以肯定的是：top-down feature pyramid同时具有很强的语义信息和更高的分辨率。但是，这些特征在进行物体定位的时候不够精确，因为这些maps经过了多次的下采样和上采样，丢失了这些信息。但是，更精确的定位信息，可以通过lateral connections传递进来。
5.2 Object Detection with Fast/Faster R-cnn
（1）Implementation details
① 在8个GPU上，使用同步SGD的方法进行训练，每个GPU上的mini-batch包含两张图片，每一张图片使用512个ROIs
② 权重衰减：0.0001，动量：0.9
③ 起初60k个mini_batch的学习率是0.02，接下来20k个为0.002
④ 每张图片，在训练的时候使用2000个proposals（然后从中随机选取512个ROIs），测试的时候使用1000个。
（2）Faster R-cnn（on consistent proposals）
使用FPN效果好的原因：
① 增加了输入图片的分辨率，这里使用的是800（以前是600）
② 每张图片使用512个ROIs进行训练，可以加快收敛（以前是64个ROIs)
③ 使用了5种尺寸的anchor（以前的是4种尺寸，增加了32²）
④ 测试的时候，每张图片使用1000个proposals（以前是300个）

FPN读书笔记

3、Feature Pyramid Networks

4、Applications

5、Experiments on Objection Detection

猜你喜欢

热点阅读