RRPN_2018_复旦

2022-02-06  本文已影响0人  dc_3

时间:2018
作者:马建奇 复旦大学
要解决的问题:旋转文本检测,基于faster rcnn改进。

数据增强过程中gt的标签变化

(x,y,w,h,θ):x和y绕图像中心点的旋转,w,h保持不变,角度跟着增加。绕任一点旋转矩阵可参考https://blog.csdn.net/u013407012/article/details/103721902/

faster-rcnn

fasterrcnn首先使用特征提取网络提取特征,最后得到5038512特征图,然后利用每个位置的512个特征去得到三个尺度三个长宽比例下锚点框的描述,包括置信度以及坐标偏移量。测试时保留前300个分数最高的锚点框。利用上述的特征图,找到对应位置特征,使用roi pooling提取77?特征,然后全连接映射到类别和坐标偏移量。总的来说,主要几个部分:

相对于fasterrcnn的改进

1、RPN->RRPN:

相对于RPN的改进。锚点框变成了三个尺度,三个长宽比,6个方向的倾斜锚点框。然后每个框除了目标置信度,坐标偏移外,还需要回归角度偏移量。最终输出的就是倾斜的候选框区域。

2、ROIpooling->RROIpooling

前一个只能处理水平方向的候选矩形框。所以rroi使用仿射变换将倾斜的候选区域特征图映射到水平区域特征图。这样就相当于对水平区域提取roiplling后的特征了。


图片.png

这里,将倾斜矩形框分成7x7块大小,其中i,j表示具体的子区域。第一个for循环能得到(i,j)位置左上角在原图中的真实坐标,然后第二个for循环能够计算这块小区域内所有特征点的最大值。最后将该最大值赋值给value,得到最终pooling后的特征图。

其他解读

https://blog.csdn.net/m_buddy/article/details/89416473

github网址

https://github.com/mjq11302010044/RRPN

上一篇 下一篇

猜你喜欢

热点阅读