深度学习之目标检测

FPN读书笔记

2018-06-12  本文已影响58人  haoshengup
3、Feature Pyramid Networks

(1)Bottom-up pathway
  使用的网络结构是:ResNet网络。在网络的前向传播过程中,总共有5种不同大小的feature map,对于相同大小的feature map,我们称之为网络的一个阶段。参考ResNet的网络结构图,总共有5个阶段:conv1、conv2、conv3、conv4、conv5。
  在这里选择conv2、conv3、conv4、conv5来建立特征金字塔,它们对应的strides分别为:{4,8,16,32}。这里没有使用conv1,因为会占用太多的内存。
  注意,这里选择每个阶段的最后一层来作为特征层,因为每个阶段的最好一层有最强的特征。并分别把选取的4个特征层记作:{ C2C3C4C5}。
(2)Top-down Pathway and lateral connections
  ① Top-down Pathway:将上述的4张特征图从上到下进行下采样。
  ② lateral connections:将bottom-up pathway和top-down pathway具有相同尺寸的特征图按照元素进行相加。在这里,bottom-up pathway底层的特征图能够定位的更准确,因为下采样的次数较少,所以包含了更多的细节信息。
  ③ 在lateral connections阶段,由于相加的两个特征图的通道数不一样,所以需要先对bottom-up pathway的特征图进行1 * 1的卷积,以调整通道数和上采样的结果相同。相加之后,对相加的结果进行3 * 3的卷积,以消除上采样的混淆现象(aliasing effect)。最后的结果记作:{ P2P3P4P5},并且和{ C2C3C4C5}是一一对应的。

4、Applications

4.1 Feaure Pyramid Networks for RPN
  (1)特征金字塔中的每张特征图生成anchor的时候只使用一种尺寸,具体的尺寸是:{ P2P3P4P5P6}分别对应{ 322642128224625122},并且每个anchor对应的宽高比为:{1:2,1:1,2:1}。这样,在整个特征金字塔中有15种不同的anchor。其中:P6P5下采样的结果,并且在fast r-cnn阶段不使用P6
  (2)训练RPN所采用的labels(对应于每个anchor)用IOU来确定,如果IOU>0.7,则为正样本,如果IOU<0.3则为负样本。
  (3)不用判断某个gt_box对应于特征金字塔中的哪张特征图。因为,gt_box和anchor是对应的,而对于某一个anchor,我们是知道出自于哪张特征图的。
4.2 Feature Pyramid Networks for Fast R-cnn
  (1)因为这里有4种尺度的特征图(每种特征图上都有从原图上的anchor映射过来的proposals),所以,在使用ROI Pooling的时候,也必须有4种不同的ROI Pooling,那么如何对应ROI Pooling和特征图呢?可以参考下面的公式,Pk为特征金字塔的特征图,w和h为对应的特征图尺寸:[图片上传失败...(image-ec0fd8-1528804803897)] \right \rfloor)


  其中,224为原图尺寸,k0 = 4。
  (2)特征金字塔中的每张特征图(即,{ P2P3P4P5})中的proposals经过他们对应的ROI Pooling,分别输出7 * 7的结果,也就是说,这4张特征图上的proposals经过ROI Pooling之后,提取出了49个特征。
  然后,把上述7 * 7的结果分布连接两个全连接层,接下来分别进行分类和定位(当然,这里的参数也是共享的)。
5、Experiments on Objection Detection

5.1 Region proposals with RPN
(1)Implement details
  ① 在8个GPU上,使用同步SGD的方法进行训练
  ② 在每一个GPU上,每个mini_batch包含2张图片,每张图片256个anchor
  ③ 权重衰减0.0001,动量:0.9
  ④ 起初30k个mini_batch的学习率是0.02,接下来10k个为0.002
  ⑤ 超出图片边界的anchor也会被使用(在faster r-cnn中,超出图片边界的anchor会被直接忽略掉)
(2)Comparisions with baselines
  ① FPN之所以会比普通的RPN效果好,原因是:RPN只在最后一张特征图上进行操作,会使它在更高的分辨率和更强的语义信息之间做妥协。
  ② How important are lateral connections?
  Table 1(e)展示了只使用top-down feature pyramid而没有使用1 * 1 lateral connections的结果。
  可以肯定的是:top-down feature pyramid同时具有很强的语义信息和更高的分辨率。但是,这些特征在进行物体定位的时候不够精确,因为这些maps经过了多次的下采样和上采样,丢失了这些信息。但是,更精确的定位信息,可以通过lateral connections传递进来。
5.2 Object Detection with Fast/Faster R-cnn
(1)Implementation details
  ① 在8个GPU上,使用同步SGD的方法进行训练,每个GPU上的mini-batch包含两张图片,每一张图片使用512个ROIs
  ② 权重衰减:0.0001, 动量:0.9
  ③ 起初60k个mini_batch的学习率是0.02,接下来20k个为0.002
  ④ 每张图片,在训练的时候使用2000个proposals(然后从中随机选取512个ROIs),测试的时候使用1000个。
(2)Faster R-cnn(on consistent proposals)
使用FPN效果好的原因:
  ① 增加了输入图片的分辨率,这里使用的是800(以前是600)
  ② 每张图片使用512个ROIs进行训练,可以加快收敛(以前是64个ROIs)
  ③ 使用了5种尺寸的anchor(以前的是4种尺寸,增加了322
  ④ 测试的时候,每张图片使用1000个proposals(以前是300个)

上一篇 下一篇

猜你喜欢

热点阅读