一种改进的平行四边形候选框的文本检测方法技术

技术编号:23085626 阅读:12 留言:0更新日期:2020-01-11 01:20
本发明专利技术提出一种改进的平行四边形候选框的文本检测方法,在训练步骤以及检测步骤中,预测特征谱在进入PriorBox层之前先经过偏移学习模块,所述偏移学习模块用于输出预测特征谱以及候选框在Y轴方向的偏移量至PriorBox层;PriorBox层输出的候选框坐标包括矩形候选框坐标与引入偏移的平行四边形候选框;使用平行四边形的候选框来贴近标签GroundTruth,以提升GroundTruth与预测框之间的IoU,从而降低网络回归的困难程度。本发明专利技术能准确定位倾斜的长文本,适用于书籍文字识别、然场景下多方向文字识别。

An improved text detection method of parallelogram candidate box

【技术实现步骤摘要】
一种改进的平行四边形候选框的文本检测方法
本专利技术涉及文本检测技术,特别涉及文字检测中候选框生成的方法。
技术介绍
OCR(OpticalCharacterRecognition),现泛指图像文字识别,即从图像视频中自动识别文字内容,属于AI计算机视觉的一个重要分支。移动互联网的爆炸式增长以及深度学习技术的普及,分别从业务需求与技术支撑两方面,进一步推动OCR领域发展。OCR技术可深入服务于广告推荐系统的图像内容提取、广告素材审核、广告图像创意、用户理解等等,OCR亦可应用于UGC图片视频过滤、医学影像识别、证件识别、文档识别、街景路牌识别等等。当今主流的OCR技术主要分为两步:1、文本检测,指的是精确定位出图像中文本的位置;2、文本识别,指的是精确的识别出文本检测中定位出来的图像的文本内容。传统的OCR技术主要是通过手工设计特征提取方法,再通过对连通域计算最小外接矩形实现对文本的定位。传统的OCR技术手工提取的特征较差,容易出现漏检、错检等问题。而随着信息技术的高速发展,图像数据的指数级增长,硬件条件的提升,基于深度学习的新兴文本检测方法如雨后春笋般快速发展起来。基于深度学习的文本检测方法拥有通过网络自动学习提取特征的优点,实现了检测性能上的质的提升。目前比较流行的文本检测技术有CTPN、TextBoxes_plusplus、TextMoutain等,它们都有各自的优缺点,比如CTPN方法拥有较快的速度,但却无法检测倾斜文本;TextBoxes_plusplus文本检测方法虽可以检测倾斜文本,但是其无法精确定位长文本以及倾斜文本。TextBoxes_plusplus的网络结构如下:TextBoxes_plusplus检测算法包括步骤:1)训练步骤:1-1)输入样本图像经过基于VGG16的主干网络得到的预测特征谱,预测特征谱分别来自于网络中6个卷积层或全连接层conv4_3、fc7、conv6_2、conv7_2、conv8_2、conv9_2;样本图像的标签GroundTruth为其中q=1,2,3,4是GroundTruth的四个顶点,为GroundTruth的水平最小外接矩形的左上角以及右下角坐标。具体形式如图1。1-2)将预测特征谱分别输入回归特征谱层、分类特征谱层、PriorBox层得到回归特征谱、分类特征谱以及矩形候选框坐标;回归特征谱(conv4_3_mbox_loc、fc7_mbox_loc、conv6_2_mbox_loc、conv7_2_mbox_loc、conv8_2_mbox_loc、conv9_2_mbox_loc)为图像特征谱、分类特征谱(conv4_3_mbox_conf、fc7_mbo_conf、conv6_2_mbox_conf、conv7_2_mbox_conf、conv8_2_mbox_conf、conv9_2_mbox_conf)为分类置信度;1-3)将回归特征谱、分类特征谱以及矩形候选框坐标输入至损失层Loss进行回归损失与分类损失计算,再根据损失调整网络参数,返回步骤1-1)重复训练步骤直至达到训练结束条件;损失层Loss在回归特征谱上根据矩形候选框坐标生成矩形预测框,用这些矩形预测框与GroundTruth计算IoU(IntersectionoverUnion),当IoU大于0.5时将该预测框记为正样本,IoU小于0.5的预测框记为负样本。由于匹配上同一个GroundTruth的预测框可能存在很多个,因此通过NMS算法来将这些冗余的文本框去除,保留IoU最大的一个预测框。2)测试步骤:2-1)输入测试图像经过基于VGG16的主干网络得到的预测特征谱;2-2)将预测特征谱分别输入回归特征谱层、分类特征谱层、PriorBox层得到回归特征谱、分类特征谱以及候选框坐标;回归特征谱为图像特征谱、分类特征谱为分类置信度;2-3)将回归特征谱、分类特征谱以及PriorBox输入对应输出层TextDetectionOutput层得到及检测框的位置坐标以及测试图像的分类结果。上述TextBoxes_plusplus算法由于候选框的生成机制缺陷,导致预测框无法有效降低回归损失,因此无法准确定位倾斜的长文本甚至导致漏检。
技术实现思路
本专利技术所要解决的技术问题是,针对现有图像文字识别中对长、倾斜文本定位准确率低的问题,基于TextBoxes_plusplus检测算法的基础上提出一种改进的候选框的文本检测方法。本专利技术为解决上述技术问题所采用的技术方案是,一种改进的平行四边形候选框的文本检测方法,在训练步骤以及检测步骤中,预测特征谱在进入PriorBox层之前先经过偏移学习模块,所述偏移学习模块用于输出预测特征谱以及候选框在Y轴方向的偏移量至PriorBox层;PriorBox层输出的候选框坐标包括矩形候选框坐标与引入偏移的平行四边形候选框;PriorBox层计算平行四边形候选框的四个顶点坐标的方法为:x1=xcenter-bb_width/2y1=ycenter-bb_height(1-dy)/2x2=xcenter+bb_width/2y2=ycenter-bb_height(1+dy)/2x3=xcenter-bb_width/2y3=ycenter+bb_width(1+dy)/2x4=xcenter+bb_width/2y4=ycenter+bb_height(1-dy)/2其中,(xq,yq),q=1,2,3,4分别是平行四边形候选框的左上、右上、左下、右下四个顶点,xcenter、ycenter分别为预测特征谱的中心的横、纵坐标,bb_width、bb_height分别为PriorBox层中预设的框宽、框高,dy为偏移学习模块输出的偏移量。具体的,前置偏移学习模块通过深度卷积神经网络对水平的候选框无监督的学习一个Y轴方向的偏移量,再将该偏移量通过激活函数操作将其归一化到(-1,1)之间,将归一化后的偏移量增加到候选框的垂直方向上,形成最终的平行四边形候选框。使用平行四边形的候选框来贴近标签GroundTruth,以提升GroundTruth与预测框之间的IoU,从而降低网络回归的困难程度。本专利技术的有益效果是,能准确定位倾斜的长文本,适用于书籍文字识别、然场景下多方向文字识别。附图说明图1为训练数据集标签说明;图2为矩形候选框匹配与平行四边形候选框匹配对比;图3为本专利技术训练步骤流程图。具体实施方式在现有TextBoxes_plusplus网络的基础上,在预测特征谱输出处conv4_3、fc7、conv6_2、conv7_2、conv8_2、conv9_2连接一个用于学习候选框偏移量的深度卷积神经网络作为前置于PriorBox层之前的模块,即偏移学习模块。偏移学习模块依次由卷积层conv1、卷积层conv1_1、卷积本文档来自技高网
...

【技术保护点】
1.一种改进的平行四边形候选框的文本检测方法,其特征在于,包括以下步骤:/n1)训练步骤:/n1-1)得到样本图像的预测特征谱;/n1-2)将预测特征谱分别输入回归特征谱层、分类特征谱层以及前置偏移学习模块的PriorBox层得到回归特征谱、分类特征谱以及候选框坐标;回归特征谱为图像特征谱、分类特征谱为分类置信度;/n所述偏移学习模块用于输出预测特征谱与候选框在Y轴方向的偏移量至PriorBox层;/nPriorBox层输出的候选框坐标包括矩形候选框坐标与引入偏移的平行四边形候选框;/nPriorBox层计算平行四边形候选框的四个顶点坐标的方法为:/nx

【技术特征摘要】
1.一种改进的平行四边形候选框的文本检测方法,其特征在于,包括以下步骤:
1)训练步骤:
1-1)得到样本图像的预测特征谱;
1-2)将预测特征谱分别输入回归特征谱层、分类特征谱层以及前置偏移学习模块的PriorBox层得到回归特征谱、分类特征谱以及候选框坐标;回归特征谱为图像特征谱、分类特征谱为分类置信度;
所述偏移学习模块用于输出预测特征谱与候选框在Y轴方向的偏移量至PriorBox层;
PriorBox层输出的候选框坐标包括矩形候选框坐标与引入偏移的平行四边形候选框;
PriorBox层计算平行四边形候选框的四个顶点坐标的方法为:
x1=xcenter-bb_width/2
y1=ycenter-bb_height(1-dy)/2
x2=xcenter+bb_width/2
y2=ycenter-bb_height(1+dy)/2
x3=xcenter-bb_width/2
y3=ycenter+bb_width(1+dy)/2
x4=xcenter+bb_width/2
y4=ycenter+bb_height(1-dy)/2
其中,(xq,yq),q=1,2,3,4分别是平行四边形候选框的左上、右上、左下、右下四个顶点,xcenter、ycenter分别为预测特征谱的中心的横、纵坐标,bb_width、...

【专利技术属性】
技术研发人员:李宏亮陶聚王强杨健榜王晓鹏罗鹏飞
申请(专利权)人:电子科技大学
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1