一种基于边界拟合的多尺度特征融合场景文本检测方法技术

技术编号：38714304 阅读：24 留言：0更新日期：2023-09-08 14:57

该发明专利技术公开了一种基于边界拟合的多尺度特征融合场景文本检测方法，属于计算机视觉技术领域，特别涉及基于深度学习的场景文本检测方法。本发明专利技术提出边界拟合模块，利用序列关系进行学习让控制点发生偏移以使边界变形，获得最终的检测外轮廓。以保证轮廓尽量包含完整的文本区域，使检测外轮廓更加拟合不规则形状的文本；针对自然场景中存在较多面积较大的文本，其中包含的文本形态各异并且大小分布不均匀，本发明专利技术在特征提取部分增加多尺度特征融合模块，获取不同大小感受野的特征信息，改善自然场景中的文本检测不完整的问题。然场景中的文本检测不完整的问题。然场景中的文本检测不完整的问题。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于边界拟合的多尺度特征融合场景文本检测方法

[0001]本专利技术属于计算机视觉
，特别涉及基于深度学习的场景文本检测方法。

技术介绍

[0002]作为实际应用领域中的重要研究课题之一，场景文本检测技术在过去一段时间内取得了极大的进展，并且涌现出了许多优秀的方法模型。因为场景文本的复杂性与多变性，场景文本检测方法综合多方面因素，不断设计各式各样的功能模块，辅助网络对任意形状、大小分布不均、视觉角度扭曲的文本进行定位检测。
[0003]受到目标检测方法的启发，一些研究在文本实例为规则形状的文本图像上取得了理想的效果，它们主要由堆叠的卷积组成，将输入图像编码为特征映射，然后将特征图输入分类器，预测每个空间位置的文本实例的存在和定位。受一阶段检测模型的启发，Liao等人提出的Textboxes网络通过将默认框定义为具有不同高宽比的四边形来适应SSD网络，以有效地检测定位自然图像中的文本。并且为了更好的覆盖某些区域可能密集的文本，使用垂直偏移来调整默认框。Zhou提出的East网络采用U型设计网络，集成不同层次的特征，每个空间位置的特征用于回归底层文本实例的矩形或四边形边界框，同时预测检测框的角度以检测方向多向的文本，在文本检测领域中发挥了重要作用，既高度简化了管道，又能够进行高效的实时推理。基于相同的思路，在Ma等人提出的方法中，网络用于生成旋转候选区域而不是轴对齐矩形区域，以适应任意方向的文本。尽管上述方法对于检测水平多向性、规则形状文本具有较佳的效果，受到多变的文本形状、纹理尺度以及光照等干扰因素的...

【技术保护点】

【技术特征摘要】
1.一种基于边界拟合的多尺度特征融合场景文本检测方法，该方法为：输入图像依次经过残差网络ResNet、多尺度特征融合模块，然后分为两路一路经过一个卷积模块conv1，卷积模块conv1的输出与另一路一起输入通道融合模块C，通道融合模块C的输出经过边界拟合模块和预测输出模块；所述先验特征提取模块的损失函数L
PB
为：L
PB
＝L
cls
+αL
dis
+L
v
；其中，L
cls
表示文本分类损失函数，α表示距离场损失函数权重，L
v
表示方向向量损失函数，L
dis
表示距离场损失函数；p∈T表示属于文本区域T的所有像素点p，D
p
表示预测检测框中像素与边界的距离，D
p
表示真实文本图像中像素点与真实标签中的像素点之间的距离；L
v
＝norm_loss+angle_loss＝norm_loss+angle_loss其中，norm_loss表示距离损失，angle_loss表示角度损失，V
p
表示模型预测的向量，而V
p
表示...

【专利技术属性】
技术研发人员：于力，刘若云，万瀚阳，郑宏，周雪，
申请(专利权)人：电子科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人