一种基于边界拟合的多尺度特征融合场景文本检测方法技术

技术编号:38714304 阅读:12 留言:0更新日期:2023-09-08 14:57
该发明专利技术公开了一种基于边界拟合的多尺度特征融合场景文本检测方法,属于计算机视觉技术领域,特别涉及基于深度学习的场景文本检测方法。本发明专利技术提出边界拟合模块,利用序列关系进行学习让控制点发生偏移以使边界变形,获得最终的检测外轮廓。以保证轮廓尽量包含完整的文本区域,使检测外轮廓更加拟合不规则形状的文本;针对自然场景中存在较多面积较大的文本,其中包含的文本形态各异并且大小分布不均匀,本发明专利技术在特征提取部分增加多尺度特征融合模块,获取不同大小感受野的特征信息,改善自然场景中的文本检测不完整的问题。然场景中的文本检测不完整的问题。然场景中的文本检测不完整的问题。

【技术实现步骤摘要】
一种基于边界拟合的多尺度特征融合场景文本检测方法


[0001]本专利技术属于计算机视觉
,特别涉及基于深度学习的场景文本检测方法。

技术介绍

[0002]作为实际应用领域中的重要研究课题之一,场景文本检测技术在过去一段时间内取得了极大的进展,并且涌现出了许多优秀的方法模型。因为场景文本的复杂性与多变性,场景文本检测方法综合多方面因素,不断设计各式各样的功能模块,辅助网络对任意形状、大小分布不均、视觉角度扭曲的文本进行定位检测。
[0003]受到目标检测方法的启发,一些研究在文本实例为规则形状的文本图像上取得了理想的效果,它们主要由堆叠的卷积组成,将输入图像编码为特征映射,然后将特征图输入分类器,预测每个空间位置的文本实例的存在和定位。受一阶段检测模型的启发,Liao等人提出的Textboxes网络通过将默认框定义为具有不同高宽比的四边形来适应SSD网络,以有效地检测定位自然图像中的文本。并且为了更好的覆盖某些区域可能密集的文本,使用垂直偏移来调整默认框。Zhou提出的East网络采用U型设计网络,集成不同层次的特征,每个空间位置的特征用于回归底层文本实例的矩形或四边形边界框,同时预测检测框的角度以检测方向多向的文本,在文本检测领域中发挥了重要作用,既高度简化了管道,又能够进行高效的实时推理。基于相同的思路,在Ma等人提出的方法中,网络用于生成旋转候选区域而不是轴对齐矩形区域,以适应任意方向的文本。尽管上述方法对于检测水平多向性、规则形状文本具有较佳的效果,受到多变的文本形状、纹理尺度以及光照等干扰因素的影响,场景文本的研究仍具有巨大的挑战性,尤其是自然场景中的不规则形状文本图像的检测问题。
[0004]与上述方法不同的是,本专利技术的方法并没有采用基于检测框回归的方法,而是通过像素分类,基于分割确定预测检测框。
[0005]基于分割的方法通过像素级别预测来定位文本区域以增强文本形状、角度变化的鲁棒性。Liao等人提出的DBNet网络将二值化模块插入到分割网络中进行联合优化,这样网络可以自适应地预测图像中的每一个像素点的阈值和概率,从而完全区分前景和背景的像素。二值化阈值又从网络中学习得到,彻底将二值化步骤加入到网络中一起训练,这样最终输出对于阈值和概率就会具有非常敏感且可以进行自适应调整,在简化了后处理的同时提高了文本检测的效果。然而单一依赖于分割检测文本,很难区分相邻文本区域,Wang等人提出的方法以不同尺度收缩文本区域,并逐渐放大检测到的文本区域,直到与其他实例发生碰撞,该方法能够有效提取并区分图像中相邻的文本实例。
[0006]还有一些工作尝试使用不同方法来区分并提取相邻文本实例。例如,TextSnake网络认为文本可以表示为一系列沿文本中心线滑动的圆盘,类似蛇形,这符合文本实例的运行方向。通过这种新颖的方法,该模型学习并预测局部属性,包括中心线、文本区域/非文本区域、圆盘半径与方向,然后使用局部几何圆形以有序点列表的形式提取中心线,利用其重建文本行,在几个弯曲数据集中实现了较先进的性能。除了基于文本核心区域扩大的检测方法,近来还有一些工作尝试对特征提取部分以及损失函数进行调整。例如Kim等人提出的
方法着重于设计网络架构来反映损失函数,从而得到最大化条件对数似然,并且该模块独立于输出特征的后处理。PAN方法提取特征部分由特征金字塔和特征融合模块组成,特征金字塔是一个可级联的U形模块,可以引入多层次信息指导更好的分割,经过该模块获得的特征再进行收缩后与分割图像共同作用,生成最终的检测框。
[0007]因此,场景文本检测方法总结如下:(1)基于回归的方法预测多个候选框,通过后处理方式选择表现最优秀的检测框。(2)基于分割的方法利用文本分类信息获得分割图,从而得到预测检测框。但是,这两种方法都存在缺陷与不足。基于回归的方法多采用四边形检测框,对自然场景中的弯曲文本检测效果不佳;基于分割的方法虽然能够更好检测任意形状场景文本,但过于依赖预测检测框精确度,出现边缘检测不完整或包含较多背景噪声等问题。

技术实现思路

[0008]本专利技术的目的在于提出一种基于边界拟合的多尺度特征融合场景文本检测方法,通过引入距离和方法先验知识,从而更加有利于相邻密集文本的分离与区分;并且设计一种基于边界拟合的文本检测框架,包含边界拟合模块和多尺度融合模块,通过使边界自适应学习变形和增加感受野,提升模型的检测精确度。为了公平客观的比较结果,本专利技术的方法采用使用广泛的场景文本数据集Total

Text和CTW1500进行训练,数据集中都标定了多边形检测框的位置。训练完成后,在这两个数据集中的测试集进行测试,通过对比发现,本专利技术的方法提升了场景文本检测的精度。
[0009]为了达到以上目的,本专利技术技术方案为:一种基于边界拟合的多尺度特征融合场景文本检测方法,该方法为:
[0010]输入图像依次经过残差网络ResNet、多尺度特征融合模块,然后分为两路一路经过一个卷积模块conv1,卷积模块conv1的输出与另一路一起输入通道融合模块C,通道融合模块C的输出经过边界拟合模块和预测输出模块;
[0011]所述先验特征提取模块的损失函数L
PB
为:L
PB
=L
cls
+αL
dis
+L
v

[0012]其中,L
cls
表示文本分类损失函数,α表示距离场损失函数权重,L
v
表示方向向量损失函数,L
dis
表示距离场损失函数;
[0013][0014]p∈T表示属于文本区域T的所有像素点p,D
p
表示预测检测框中像素与边界的距离,D
p
表示真实文本图像中像素点与真实标签中的像素点之间的距离;
[0015]L
v
=norm_loss+angle_loss
[0016][0017][0018]其中,norm_loss表示距离损失,angle_loss表示角度损失,V
p
表示模型预测的向量,而V
p
表示图像实际的向量,w(p)表示与像素点所在的文本区域的真实面积成反比的权重矩阵,T表示文本区域。
[0019]进一步的,所述所述残差网络ResNet为提取输入图像的多尺度特征,尺度包括;1/16、1/8、1/4;
[0020]多尺度特征融合模块的融合方法为:
[0021]步骤1:将1/4大小的特征图进行上采样与卷:操作,生成32通道的尺度为原来两倍的图像,尺度为1/2;
[0022]步骤2:依次将1/16、1/8、1/4和生成的1/2尺度的特征图进行上采样,再通过1
×
1卷积将通道数均调整为32;
[0023]步骤3:将步骤2得到的各尺度特征图在通道维度上对应融合生成多尺度融合特征,再利用1
×
1卷积将融合后的特征图通道数调整至原输入图像的大小,得到共享特本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于边界拟合的多尺度特征融合场景文本检测方法,该方法为:输入图像依次经过残差网络ResNet、多尺度特征融合模块,然后分为两路一路经过一个卷积模块conv1,卷积模块conv1的输出与另一路一起输入通道融合模块C,通道融合模块C的输出经过边界拟合模块和预测输出模块;所述先验特征提取模块的损失函数L
PB
为:L
PB
=L
cls
+αL
dis
+L
v
;其中,L
cls
表示文本分类损失函数,α表示距离场损失函数权重,L
v
表示方向向量损失函数,L
dis
表示距离场损失函数;p∈T表示属于文本区域T的所有像素点p,D
p
表示预测检测框中像素与边界的距离,D
p
表示真实文本图像中像素点与真实标签中的像素点之间的距离;L
v
=norm_loss+angle_loss=norm_loss+angle_loss其中,norm_loss表示距离损失,angle_loss表示角度损失,V
p
表示模型预测的向量,而V
p
表示...

【专利技术属性】
技术研发人员:于力刘若云万瀚阳郑宏周雪
申请(专利权)人:电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1