Rotation-Sensitive Regression fo
CVPR2018——华中科技大学+武汉大学
Inspired by :Oriented Response Networks(CVPR2017)
摘要
对自然场景中的文字检测,分类问题对于旋转不敏感,但回归问题对于旋转是敏感的,因此两个任务应当采用不同的特征。之前的方法对两个任务均采用共享特征,导致性能下降。因此提出采用不同的特征来进行分类和回归任务,回归分支网络通过旋转卷积核提取旋转敏感的特征,分类分支通过池化旋转敏感性特征来提取旋转不变性特征。效果有较大提升。

网络结构如下图,采用旋转卷积核,分类特征通过旋转池化层得到,同时引入Inception block来扩张感受野,其中有三种不同尺度的卷积核。网络以SSD(VGG-16)结构为基础,每层输出的旋转敏感性特征之后接两个分支,一个分支用于回归,另一分支经过旋转池化之后得到分类特征。

Rotation-Sensitive Regression
网络通过activate rotating filters(ARF)来提取旋转敏感性特征,ARF由标准卷积核及其旋转克隆体组成,假设标准卷积核为,其中
是卷积核尺寸,
是卷积核的数量(一个标准卷积核旋转
个不同的角度,最后得到
个不同的卷积核)。ARF通过将标准卷积核旋转不同的角度来得到其
个克隆体,对应为:
,令
和
代表输入特征图和输出特征图的第
个通道。ARF由下式得到输出:

其中代表
的第
个旋转通道,输出特征图为
通道的。实验中令
。
同时,为了令感受野适应长条形的文本,采用Inception block来扩张感受野,分别为不同的阶段设置卷积核为:、
、
。
Rotation-Invariant Classification
通过池化层来得到旋转不变性特征,假设输入的旋转敏感性特征图为(
通道),旋转不变特征
由最大池化得到,计算定义为:

因为池化操作是无序的,而且应用在所有个通道上,因此赤化之后的特征是具备旋转不变性的。
Default Boxes and Prediction
回归分支产生从default box:到四边形的偏移量,四边形表示为
,其中,
,对于每个default box,预测产生分类得分和四边形位置偏移,
,且有:
。其中,
分别为default box的宽和高。
Groung Truth
第一个点的选择对于回归效果有一定影响,根据四边形到其对应的最大外接矩形的距离来决定第一个点的位置。(参考Textboxes++: A single-shot oriented scene text detector)
Loss Function
在进行default boxes和ground-truth boxes的匹配时,采用四边形的最小内接水平矩形框来匹配。
采用与SSD类似的损失函数:

代表第i个default box和第j个ground truth匹配成功,否则就为0,
表示置信度分数,
表示预测的位置,
表示实际标注。
表示default boxes的数量,
。
Experiments
优化算法:ADAM
ratios of default boxes:1,2,3,5,1/2,1/3,1/5 or 1,2,3,5,7,9,15,1/2,1/3,1/5,1/7,1/9,1/15(针对不同的数据集)
在HRSC2016数据集上的实验效果:
