[CV]CTPN 算法
2020-09-28 本文已影响0人
LCG22
本文参考链接:http://xiaofengshi.com/2019/01/23/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0-TextDetection/
1、CTPN 是由 FasterRcnn 改进而来的,它和 FasterRcnn 的异同是:
basenet
FasterRcnn:Vgg16, Vgg19, resnet
CTPN: Vgg16 或者其它的 CNN 结构
RPN 预测:
FasterRcnn:basenet 的 predict layer 使用 CNN 生成
CTPN:basenet 之后使用双向的 RNN 和 FC 生成
ROI:
FasterRcnn:模型适用于目标检测,为多分类任务,包含 ROI 及类别损失和 BOX 回归
CTPN:文本提取为二分类任务,不包含 ROI 及类别损失,只在 RPN 层计算目标损失及 BOX 回归
Anchor:
FasterRcnn:一共 9 种 anchor ,3 比例,3 尺寸
CTPN:固定 anchor 宽度,一共 10 种高度
batch:
FasterRcnn:每次只能训练一个样本
CTPN:每次只能训练一个样本
2、CTPN 只能用来检测水平文字,一般可以用来进行标准格式印刷体的检测
3、在目标框回归预测时,加上回归框的角度信息,就可以用来检测旋转文本,比如 EAST 模型