R2CNN: Rotational Region CNN for
2019-03-29 本文已影响0人
yanghedada
文章是任意方向的text检测,文章是三星北京研发中心提出的R2CNN(Rotational Region CNN),基于Faster R-CNN架构,主要用于文字检测。论文中把(x1,y1,x2,y2,x3,y3,x4,y4),设计为用顺时针的前两个顶点和高度组成(x1,y1,x2,y2,h)。
- 下图中b,c就是文中的提到坐标表示:
- 算法概览
算法总体是基于faster r-cnn的,只在faster r-cnn的基础上又加上了倾斜的坐标检测(inclined box coordinates),所以R2CNN由两种预测方式inclined box coordinates和axis-aligned box coordinates(水平坐标检测)。
image.png- 讨论
-
作者指出使用使用角度描述任意方向极其不稳定,所以使用(x1,y1,x2,y2,h)表示。作者同时使用水平坐标预测和倾斜坐标预测,使用λ1和λ2进行调整加权。
-
同时为了配合text检测,在ROIPooling中仅使用7x7正方形网格提取特征可能不太合适,作者采用了三种尺寸(7x7,11x3,3x11)进行检测。
-
构建loss函数:
- 倾斜NMS
水平的NMS对倾斜的矩形计算不准确,使用倾斜NMS方法进行过滤。
下图中b中的红色被正常的nms过滤掉了,使用倾斜NMS可以保留红色框c图,
- 效果
从图中可以看到使用多个roi和同时使用两种预测方法在702 x 720的图上效果有明显提升。
image.png参考:
paper
R2CNN 算法笔记
Rotational Region CNN
tensorflow复现
caffe源码