一种扫描型文件的抗透印干扰识别方法及系统技术方案

技术编号:39144885 阅读:10 留言:0更新日期:2023-10-23 14:56
本发明专利技术涉及文本识别技术领域,公开了一种扫描型文件的抗透印干扰识别方法及系统,其方法通过获取由若干张文本图片以及其分别对应的文本识别内容组成的源图片数据集以及由其它若干张文本图片组成的干扰图片数据集,对干扰图片数据集中的每张文本图片进行增广处理,并将经过增广处理后的干扰图片数据集中的每张文本图片重叠至源图片数据集中的每个文本图片上,获得文本合成图片,通过文本合成图片数据集对预设的神经网络进行训练,构建目标文本识别模型,通过目标文本识别模型对待识别文件扫描图片进行识别,得到文本识别结果,从而解决了因透印程度过高而导致的文本扫描结果的准确度较低的问题。的准确度较低的问题。的准确度较低的问题。

【技术实现步骤摘要】
一种扫描型文件的抗透印干扰识别方法及系统


[0001]本专利技术涉及文本识别
,尤其涉及一种扫描型文件的抗透印干扰识别方法及系统。

技术介绍

[0002]文件扫描图片是指对打印出来的纸质文件进行扫描,生成电子版的扫描图片,以便后续对图片中的文字进行识别。可以理解的是,打印出来的纸质文件包括单面打印和双面打印,其中,双面打印时可能会在纸张上出现透印的情况。透印会影响扫描形成的文件扫描图片,进而使图片中的文字识别结果准确性大大降低。
[0003]目前,并没有一种专门抗透印的方法,而是把透印当成一种通过干扰来处理。但当透印程度过高(尤其是油印渗透)时,其本身就是文字且富有规则,很容易对通过文本扫描造成极大的干扰,导致文本扫描结果的准确度较低。

技术实现思路

[0004]本专利技术提供了一种扫描型文件的抗透印干扰识别方法及系统,解决了透印程度过高导致文本扫描结果的准确度较低的技术问题。
[0005]有鉴于此,本专利技术第一方面提供了一种扫描型文件的抗透印干扰识别方法,包括以下步骤:
[0006]基于预设的文件扫描图片数据集,获取由若干张文本图片以及其分别对应的文本识别内容组成的源图片数据集以及由其它若干张文本图片组成的干扰图片数据集;
[0007]对所述干扰图片数据集中的每张文本图片进行增广处理;
[0008]将经过增广处理后的干扰图片数据集中的每张文本图片重叠至所述源图片数据集中的每个文本图片上,获得文本合成图片,并构建文本合成图片数据集;
[0009]通过所述文本合成图片数据集对预设的神经网络进行训练,构建目标文本识别模型;
[0010]将待识别文件扫描图片输入至所述目标文本识别模型中,根据所述目标文本识别模型的输出,得到所述待识别文件扫描图片的文本识别结果。
[0011]优选地,对所述干扰图片数据集中的每张文本图片进行增广处理的步骤具体包括:
[0012]将所述干扰图片数据集中的每张文本图片进行镜像处理;
[0013]将经过镜像处理后的文本图片的对比度和亮度进行随机调节。
[0014]优选地,将经过增广处理后的干扰图片数据集中的每张文本图片重叠至所述源图片数据集中的每个文本图片上,获得文本合成图片,并构建文本合成图片数据集的步骤具体包括:
[0015]将所述源图片数据集中的每个文本图片作为正面图片,定义为A
p,q,e
,其中,p表示图片中每个像素所在行,q表示图片中每个像素所在列,e表示图片中每个像素的RGB值,并
将增广处理后的干扰图片数据集中的每张文本图片作为背面图片,定义为B
p,q,e

[0016]将背面图片重叠至正面图片上,获得文本合成图片为C
p,q,e
=A
p,q,e

(255

B
p,q,e
)
×
r,r为0

0.5之间的任意一个随机数值;
[0017]根据文本合成图片构建文本合成图片数据集。
[0018]优选地,通过所述文本合成图片数据集对预设的神经网络进行训练,构建目标文本识别模型的步骤具体包括:
[0019]对源图片数据集中的每个文本图片进行文字块分割,获取源图片数据集中的每个文本图片中每个文字块的位置坐标对以及相应的文字块中的文字识别内容;
[0020]将文本合成图片作为预设的神经网络的输入,并将源图片数据集中的每个文本图片的每个文字块的位置坐标对以及相应的文字块中的文字识别内容作为预设的神经网络的输出进行训练,得到目标文本识别模型。
[0021]优选地,本方法还包括:
[0022]设置文字块坐标对的损失值为:
[0023][0024]式中,L1表示文字块坐标对的损失值,i表示文字块的序号,n表示文字块的个数,(xc
i
,yc
i
)表示文字块坐标对的实际观测坐标值,(xa
i
,ya
i
)表示文字块坐标对的预测观测坐标值;
[0025]设置每个文字块内文字内容的损失值为:
[0026][0027]式中,L2表示文字块内文字内容的损失值,j表示文字块内第j个文字,k表示文字块内的总文件个数,CEL表示CrossEntropy Loss函数,Ca
i,k
表示文字块内的预测文字内容,Cc
i,k
表示文字块内的实际文字内容;
[0028]设置文字块特征纠正后偏差的损失值为:
[0029][0030]式中,L3表示文字块特征纠正后偏差的损失值,g表示特征维度单位序号,m表示特征总维度长度,vc
g
表示文字块特征纠正后偏差的实际观测值,va
g
表示文字块特征纠正后偏差的预测观测值;
[0031]对文字块坐标对的损失值、文字块内文字内容的损失值和文字块特征纠正后偏差的损失值进行加权计算,得到目标损失值。
[0032]第二方面,本专利技术还提供了一种扫描型文件的抗透印干扰识别系统,包括:
[0033]数据获取模块,用于基于预设的文件扫描图片数据集,获取由若干张文本图片以及其分别对应的文本识别内容组成的源图片数据集以及由其它若干张文本图片组成的干扰图片数据集;
[0034]增广处理模块,用于对所述干扰图片数据集中的每张文本图片进行增广处理;
[0035]图像合成模块,用于将经过增广处理后的干扰图片数据集中的每张文本图片重叠
至所述源图片数据集中的每个文本图片上,获得文本合成图片,并构建文本合成图片数据集;
[0036]模型训练模块,用于通过所述文本合成图片数据集对预设的神经网络进行训练,构建目标文本识别模型;
[0037]文本识别模块,用于将待识别文件扫描图片输入至所述目标文本识别模型中,根据所述目标文本识别模型的输出,得到所述待识别文件扫描图片的文本识别结果。
[0038]优选地,所述增广处理模块具体包括:
[0039]镜像处理模块,用于将所述干扰图片数据集中的每张文本图片进行镜像处理;
[0040]图片调节模块,用于将经过镜像处理后的文本图片的对比度和亮度进行随机调节。
[0041]优选地,所述图像合成模块具体包括:
[0042]图像定义模块,用于将所述源图片数据集中的每个文本图片作为正面图片,定义为A
p,q,e
,其中,p表示图片中每个像素所在行,q表示图片中每个像素所在列,e表示图片中每个像素的RGB值,并将增广处理后的干扰图片数据集中的每张文本图片作为背面图片,定义为B
p,q,e

[0043]重叠模块,用于将背面图片重叠至正面图片上,获得文本合成图片为C
p,q,e
=A
p,q,e

(255

B
p,q,e
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种扫描型文件的抗透印干扰识别方法,其特征在于,包括以下步骤:基于预设的文件扫描图片数据集,获取由若干张文本图片以及其分别对应的文本识别内容组成的源图片数据集以及由其它若干张文本图片组成的干扰图片数据集;对所述干扰图片数据集中的每张文本图片进行增广处理;将经过增广处理后的干扰图片数据集中的每张文本图片重叠至所述源图片数据集中的每个文本图片上,获得文本合成图片,并构建文本合成图片数据集;通过所述文本合成图片数据集对预设的神经网络进行训练,构建目标文本识别模型;将待识别文件扫描图片输入至所述目标文本识别模型中,根据所述目标文本识别模型的输出,得到所述待识别文件扫描图片的文本识别结果。2.根据权利要求1所述的扫描型文件的抗透印干扰识别方法,其特征在于,对所述干扰图片数据集中的每张文本图片进行增广处理的步骤具体包括:将所述干扰图片数据集中的每张文本图片进行镜像处理;将经过镜像处理后的文本图片的对比度和亮度进行随机调节。3.根据权利要求1所述的扫描型文件的抗透印干扰识别方法,其特征在于,将经过增广处理后的干扰图片数据集中的每张文本图片重叠至所述源图片数据集中的每个文本图片上,获得文本合成图片,并构建文本合成图片数据集的步骤具体包括:将所述源图片数据集中的每个文本图片作为正面图片,定义为A
p,q,e
,其中,p表示图片中每个像素所在行,q表示图片中每个像素所在列,e表示图片中每个像素的RGB值,并将增广处理后的干扰图片数据集中的每张文本图片作为背面图片,定义为B
p,q,e
;将背面图片重叠至正面图片上,获得文本合成图片为C
p,q,e
=A
p,q,e

(255

B
p,q,e
)
×
r,r为0

0.5之间的任意一个随机数值;根据文本合成图片构建文本合成图片数据集。4.根据权利要求1所述的扫描型文件的抗透印干扰识别方法,其特征在于,通过所述文本合成图片数据集对预设的神经网络进行训练,构建目标文本识别模型的步骤具体包括:对源图片数据集中的每个文本图片进行文字块分割,获取源图片数据集中的每个文本图片中每个文字块的位置坐标对以及相应的文字块中的文字识别内容;将文本合成图片作为预设的神经网络的输入,并将源图片数据集中的每个文本图片的每个文字块的位置坐标对以及相应的文字块中的文字识别内容作为预设的神经网络的输出进行训练,得到目标文本识别模型。5.根据权利要求4所述的扫描型文件的抗透印干扰识别方法,其特征在于,还包括:设置文字块坐标对的损失值为:式中,L1表示文字块坐标对的损失值,i表示文字块的序号,n表示文字块的个数,(xc
i
,yc
i
)表示文字块坐标对的实际观测坐标值,(xa
i
,ya
i
)表示文字块坐标对的预测观测坐标值;设置每个文字块内文字内容的损失值为:
式中,L2表示文字块内文字内容的损失值,j表示文字块内第j个文字,k表示文字块内的总文件个数,CEL表示CrossEntropy Loss函数,Ca
i,k
表示文字块内的预测文字内容,Cc
i,k
表示文字块内的实际文字内容;设置文字块特征纠正后偏差的损失值为:式中,L3表示文字块特征纠正后偏差的损失值,g表示特征维度单位序号,m表示特征总维度长度,vc
g
表示文字块特征纠正后偏差的实际观测值,va
g
表示文字块特征纠正后偏差的预测观测值;对文字块坐标对的损失值、文字块内文字内容的损失值和文字块特征纠正后偏差的损失值进行加权计算,得到目标损失值。6.一种扫描型文件的抗透印干扰识别系统,其特...

【专利技术属性】
技术研发人员:杜文聪徐潮辉刘健文陈永灿步俊华林振晓潘锦宁李伟昌
申请(专利权)人:广东电网有限责任公司佛山供电局
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1