自然场景文本检测方法、系统、存储介质及计算设备技术方案

技术编号:37798042 阅读:16 留言:0更新日期:2023-06-09 09:28
本发明专利技术公开了一种自然场景文本检测方法、系统、存储介质及计算设备,包括:1)对原始数据集进行Imgaug数据增强;2)将处理后的数据集中的图像输入改进DBNet,通过加入了LAFE模块的骨干网络模块来获取目标图像的特征信息,其中,经过LAFE模块时依次进行三层空洞卷积、通道注意力和空间注意力来增强图像前后景特征的区别;将经过骨干网络模块输出的特征输入到加入了MEFF模块的特征金字塔模块中,以输出补充了空间语义信息的不同尺度的特征图,最终预测由概率图和阈值图生成的近似二值图,进而经过像素点到文本框的聚合后处理得出检测结果。本发明专利技术具有了深度学习技术的特性,通过训练可以不断优化网络,提高自然场景文本的检测能力。力。力。

【技术实现步骤摘要】
自然场景文本检测方法、系统、存储介质及计算设备


[0001]本专利技术涉及深度学习图像处理的
,尤其是指一种基于多层次特征增强与融合的自然场景文本检测方法、系统、存储介质及计算设备。

技术介绍

[0002]随着信息技术逐渐普及到生活中,文本成为大量信息的载体,并且以文档、图像或视频数据的方式被保存下来,有力地促进了人与人之间的交流。自然场景文本指的是人们日常生活中所处环境的文本,例如街道超市、商品包装或店铺牌匾等,这些文本蕴含的内容更加丰富,能够帮助人们快速地对当前所处环境做出判断,从而进行相关的生活行为。然而,不同于传统的、规则的文档图像中书写规范、排列整齐,自然场景文本具有字体风格不一、形状多变等特点,而且自然场景图像通常会存在多种干扰因素,如噪声、遮挡、混淆及透视失真等,使自然场景文本检测的难度急剧增加。当我们想用眼睛去搜索想要的文本信息时,成本太高,耗费时间,而且效率低下。因此,把目标检测和语义分割技术应用到自然场景文本的检测十分有必要。
[0003]随着二维目标检测技术的快速发展,有学者将YOLO、SSD和Faster R

CNN等主流目标检测器应用到自然场景文本检测领域,并且取得了较好的效果。然而,由于预设框和网络候选框通常为矩形框,不利于检测弯曲和任意形状等文本。近年来,从像素点层级角度出发的语义分割技术逐渐被国内外学者和研究机构广泛应用,在自然场景文本检测领域中有了更好的效果。同时,由于其不需要预设框的操作,因此能够有效地检测各类形状的文本。然而,目前现有的自然场景文本检测方法基本都是从如何检测任意形状文本这一角度出发,对于其他类型的自然场景文本的检测能力则有所不足,如未聚焦小文本、复杂背景文本及宽间距弯曲文本等。

技术实现思路

[0004]本专利技术的第一目的在于针对现有的DBNet模型特点,考虑自然场景文本检测中未聚焦小文本、复杂背景文本及宽间距弯曲文本等检测难题,提供一种基于多层次特征增强与融合的自然场景文本检测方法,该方法具有了深度学习技术的特性,采用了改进DBNet,改进DBNet在自然场景文本的检测中准确率和召回率更高,泛化能力也更好,且能够有效地检测未聚焦小文本、复杂背景文本及宽间距弯曲文本,通过训练可以不断优化网络,从而提高网络检测性能。
[0005]本专利技术的第二目的在于提供一种基于多层次特征增强与融合的自然场景文本检测系统。
[0006]本专利技术的第三目的在于提供一种存储介质。
[0007]本专利技术的第四目的在于提供一种计算设备。
[0008]本专利技术的第一目的通过下述技术方案实现:基于多层次特征增强与融合的自然场景文本检测方法,该方法是基于改进DBNet实现自然场景文本的精准检测,该改进DBNet是
对原来DBNet的骨干网络模块、特征金字塔模块都进行了改进,其中,对骨干网络模块的改进是:加入LAFE模块,其将三层空洞卷积、通道注意力和空间注意力有效地融合到一起;对特征金字塔模块的改进是:加入MEFF模块,其在多层次特征的融合过程中引入可变形卷积网络;
[0009]该自然场景文本检测方法的具体实施包括以下步骤:
[0010]1)数据预处理,包括对原始数据集进行Imgaug数据增强,然后将输入到训练网络前的数据集中的图像处理为640
×
640的大小;
[0011]2)将处理后的数据集中的图像输入改进DBNet,通过加入了LAFE模块的骨干网络模块来获取目标图像的特征信息,其中,经过LAFE模块时依次进行三层空洞卷积、通道注意力和空间注意力来增强图像前后景特征的区别;将经过骨干网络模块输出的特征输入到加入了MEFF模块的特征金字塔模块中,以输出补充了空间语义信息的不同尺度的特征图,最终预测由概率图和阈值图生成的近似二值图,进而经过像素点到文本框的聚合后处理得出检测结果。
[0012]进一步,在步骤1)中,所述Imgaug数据增强的情况是:对原始数据进行(

10
°
,10
°
)范围内的旋转、0.5倍和3倍比例的缩放,以及图像正则化、随机裁剪和翻转;通过该数据增强方式,能够有效地提高改进DBNet的网络性能,且对自然场景文本的检测也更具鲁棒性和有效性。
[0013]进一步,在步骤2)中,所述骨干网络模块由包含LAFE模块的ResNet50+DCN网络构成,将处理后的数据集输入到未包含LAFE模块的骨干网络模块中,其读取输入的自然场景图像信息,以输出不同层次的原始特征C
i
={C2,C3,C4,C5},其中C2,C3,C4,C5分别为未包含LAFE模块的骨干网络模块输出的第2层、第3层、第4层和第5层的特征,且第2层、第3层、第4层和第5层的特征的通道数分别为2048、1024、512、256;
[0014]采用1
×
1卷积将第2层、第3层、第4层和第5层的特征的通道数降为256,然后将通道数都降为256的不同层次的原始特征C
i
并行地输入到LAFE模块中;
[0015]在LAFE模块中,采用三层空洞卷积的方式来扩大网络感受野,以加强网络对全局上下文信息的建模能力,并且每经过一次空洞卷积,上一层的特征图需要填充若干个像素点以保证输出特征图尺寸与原始特征C
i
相同,计算过程如式(1)所示:
[0016][0017]式中,i={2,3,4,5},m、n和p表示三层空洞卷积的膨胀系数r={1,2,3},F
m
表示采用膨胀系数为1的3
×
3卷积,F
n
表示采用膨胀系数为2的3
×
3卷积,F
p
表示采用膨胀系数为3的3
×
3卷积,则表示经过了三层空洞卷积后的融合特征;
[0018]在经过三层空洞卷积后,为了补充特征的通道维度信息,将融合特征加入通道注意力得到特征如式(2)所示:
[0019][0020]式中,AvgPool和MaxPool分别表示平均池化和最大池化操作,MLP表示利用两个全连接层先压缩后扩张通道数,σ表示Sigmoid函数;
[0021]在加入了通道注意力后,为了补充特征的空间维度信息,还需要对特征加入空间注意力得到最终的增强特征计算过程如式(3)所示,其中F7×7表示用7
×
7卷积提取空间信息;最后,增强特征L
i
则是原始特征C
i
、融合特征增强特征这三类特征相加得到的,如式(4)所示:
[0022][0023][0024]式中,表示经过三层空洞卷积输出的融合特征,表示经过通道注意力输出的特征,表示经过通道注意力和空间注意力输出的增强特征,L
i
表示LAFE模块输出的增强特征。
[0025]进一步,在步骤2)中,所述特征金字塔模块将骨干网络模块输出的特征信息作为输入,把不同尺度的特征图进行融合,其加入MEFF模块在改进本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于多层次特征增强与融合的自然场景文本检测方法,其特征在于,该方法是基于改进DBNet实现自然场景文本的精准检测,该改进DBNet是对原来DBNet的骨干网络模块、特征金字塔模块都进行了改进,其中,对骨干网络模块的改进是:加入LAFE模块,其将三层空洞卷积、通道注意力和空间注意力有效地融合到一起;对特征金字塔模块的改进是:加入MEFF模块,其在多层次特征的融合过程中引入可变形卷积网络;该自然场景文本检测方法的具体实施包括以下步骤:1)数据预处理,包括对原始数据集进行Imgaug数据增强,然后将输入到训练网络前的数据集中的图像处理为640
×
640的大小;2)将处理后的数据集中的图像输入改进DBNet,通过加入了LAFE模块的骨干网络模块来获取目标图像的特征信息,其中,经过LAFE模块时依次进行三层空洞卷积、通道注意力和空间注意力来增强图像前后景特征的区别;将经过骨干网络模块输出的特征输入到加入了MEFF模块的特征金字塔模块中,以输出补充了空间语义信息的不同尺度的特征图,最终预测由概率图和阈值图生成的近似二值图,进而经过像素点到文本框的聚合后处理得出检测结果。2.根据权利要求1所述的基于多层次特征增强与融合的自然场景文本检测方法,其特征在于,在步骤1)中,所述Imgaug数据增强的情况是:对原始数据进行(

10
°
,10
°
)范围内的旋转、0.5倍和3倍比例的缩放,以及图像正则化、随机裁剪和翻转;通过该数据增强方式,能够有效地提高改进DBNet的网络性能,且对自然场景文本的检测也更具鲁棒性和有效性。3.根据权利要求2所述的基于多层次特征增强与融合的自然场景文本检测方法,其特征在于,在步骤2)中,所述骨干网络模块由包含LAFE模块的ResNet50+DCN网络构成,将处理后的数据集输入到未包含LAFE模块的骨干网络模块中,其读取输入的自然场景图像信息,以输出不同层次的原始特征C
i
={C2,C3,C4,C5},其中C2,C3,C4,C5分别为未包含LAFE模块的骨干网络模块输出的第2层、第3层、第4层和第5层的特征,且第2层、第3层、第4层和第5层的特征的通道数分别为2048、1024、512、256;采用1
×
1卷积将第2层、第3层、第4层和第5层的特征的通道数降为256,然后将通道数都降为256的不同层次的原始特征C
i
并行地输入到LAFE模块中;在LAFE模块中,采用三层空洞卷积的方式来扩大网络感受野,以加强网络对全局上下文信息的建模能力,并且每经过一次空洞卷积,上一层的特征图需要填充若干个像素点以保证输出特征图尺寸与原始特征C
i
相同,计算过程如式(1)所示:式中,i={2,3,4,5},m、n和p表示三层空洞卷积的膨胀系数r={1,2,3},F
m
表示采用膨胀系数为1的3
×
3卷积,F
n
表示采用膨胀系数为2的3
×
3卷积,F
p
表示采用膨胀系数为3的3
×
3卷积,则表示经过了三层空洞卷积后的融合特征;在经过三层空洞卷积后,为了补充特征的通道维度信息,将融合特征加入通道注意力得到特征如式(2)所示:式中,AvgPool和MaxPool分别表示平均池化和最大池化操作,MLP表示利用两个全连接
层先压缩后扩张通道数,σ表示Sigmoid函数;在加入了通道注意力后,为了补充特征的空间维度信息,还需要对特征加入空间注意力得到最终的增强特征计算过程如式(3)所示,其中F7×7表示用7
×
7卷积提取空间信息;最后,增强特征L
i
则是原始特征C
i
、融合特征增强特征这三...

【专利技术属性】
技术研发人员:杜振锋周晓清龚汝洪曾凡智周燕
申请(专利权)人:广东宜教通教育有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1