一种基于图像结构信息的OCR数据合成方法技术

技术编号:28840158 阅读:31 留言:0更新日期:2021-06-11 23:38
本发明专利技术公开了一种基于图像结构信息的的OCR数据合成方法,其步骤包括:首先收集自然场景图像,建立图像背景库;接着构建图像结构信息预测网络,并对背景图像中的每一张图片都进行预测,构建图像结构信息库;然后统计真实数据中的前景与背景的颜色分布,建立前景背景颜色库;最后根据背景图像的三维信息选择一个合适位置,将文字嵌入到背景图像中去。本发明专利技术能快速合成海量的逼真文本图像,并解决OCR领域训练数据匮乏的问题,从而提升文本检测与识别模型的准确率与鲁棒性。

【技术实现步骤摘要】
一种基于图像结构信息的OCR数据合成方法
本专利技术涉及光学字符识别领域的相关问题,具体涉及一种基于图像结构信息的OCR数据合成方法。
技术介绍
OCR领域主要有两种方法:基于传统算法的OCR方法与基于深度学习的OCR方法。基于深度学习OCR方法无论是准确率还是鲁棒性都大大优于基于传统算法的OCR方法。但前者的准确率非常依赖于大批量的训练样本,而仅仅通过人工标注数据来获得训练样本是不够的,因为OCR需要的数据至少是百万级别的,完全靠人为标注是不现实的。另外OCR对训练样本的丰富性要求很高,而目前的一般OCR数据合成方法都是在背景图像上直接嵌入文字,不能充分利用背景图像的三维空间信息以及结构信息,导致合成出来的图像不逼真。
技术实现思路
本专利技术克服了现有技术的不足之处,提供一种基于图像结构信息的的OCR数据合成方法,以期能充分利用背景图像的结构信息来合成海量逼真的文本图像数据,从而提升文本检测与识别模型的准确率与鲁棒性。本专利技术为达到上述专利技术目的,采用如下技术方案:本专利技术一种基于图像结构信息的OCR数据合成方法的特点在于,包括以下步骤:步骤1:收集自然场景图像,用于建立图像背景库;步骤2:构建图像结构信息预测网络SN,包括:编码模块Encoder,快速特征融合模块FM,结构预测模块Decoder;所述编码模块Encoder,包含:4n个卷积层,n个最大池化层;所述快速特征融合模块FM,包含4个卷积层,4个上采样层;所述结构预测模块Decoder,包含3a个卷积层;步骤3:将图像背景库中的每一张背景图片均输入图像结构信息预测网络SN中进行预测,得到对应的结构信息;步骤3.1:将一张背景图片X送入编码模块Encoder中,每经过n层卷积后再经过一个最大池化层的下采样处理,从而经过4n个卷积层以及n个最大池化层处理后,得到四组特征图F1、F2、F3、F4,尺寸分别为其中,H和W是背景图片X的高与宽;步骤3.2:将四组特征图F1、F2、F3、F4送入快速特征融合模块FM中,从而利用式(1)-(5)进行快速的特征融合,得到多种尺度的融合特征Ffuse:Ffuse=Conv(F1up)(1)式(1)中:Conv表示卷积层操作,F1up表示第二组特征图F2与第一组特征图F1的融合特征,并有:F1up=Up(F2up)+Conv(F1)(2)式(2)中:Up表示上采样层操作;F2up表示第三组特征图F3与第二组特征图F2的融合特征,并有:F2up=Up(F3up)+Conv(F2)(3)式(3)中:F3up表示第三组特征图F3与第四组特征图F4的融合特征,并有:F3up=F4up+Conv(F3)(4)式(4)中:F4up表示对第四组特征图F4进行上采样之后的特征,并有:F4up=Up(F4)(5)步骤3.3:将融合特征Ffuse送入结构预测模块Decoder中,从而利用式(6)-式(8)进行解码,分别得到语义分割图segX、深度估计图depthX、边缘检测图edageX并作为结构信息:segX=Conva1(Ffuse)(6)depthX=Conva2(Ffuse)(7)edageX=Conva3(Ffuse)(8)式(6)-式(8)中:Conva1、Conva2、Conva3表示分别表示三个a次卷积操作;步骤4:在背景图片X中找到一个嵌入文字的区域;根据语义分割图segX中每一类别对应的区域,使用泛洪填充算法对边缘检测图edageX进行处理,得到边缘内的连续区域;将每一类别对应的区域与连续区域进行合并处理,从而得到嵌入文字的区域;步骤5:估计三维空间信息:首先根据深度估计图depthX计算背景图片X上每一个像素点的三维坐标;然后根据背景图片X上的每一个连续区域的所有像素点的三维坐标,计算对应的三维平面的信息;最后计算一个水平面分别映射到的每一个连续区域所对应的三维平面的单应性矩阵;步骤6:建立前景背景颜色库:通过聚类算法对背景图片X中的每个像素的颜色进行聚类,得到两个聚类中心,分别代表前景颜色与文字颜色;对外部的文本识别数据集中的每张文本图片进行聚类,得到前景背景颜色库;步骤7:将文字嵌入到背景图像X:对一个嵌入文字的区域对应的背景颜色进行统计,并从前景背景颜色库中选择与统计出的背景颜色对应的前景文字的颜色;随机选择一个字体与文本串,用于绘制前景文字图片,并根据嵌入文字区域的单应性矩阵对所述前景文字图片进行透视变换,再将透视后的前景文字图片与背景图片X进行泊松融合,得到最终的合成的文本图片。与现有技术相比,本专利技术的有益效果在于:1、本专利技术通过在背景图像上嵌入文字,可以快速合成海量逼真的数据,这些数据可以代替人工标注的数据来训练OCR网络,大大减少了人工标注的人力物力,并且可以增加OCR网络的准确率与鲁棒性。2、本专利技术充分利用了背景图像的结构信息来找到合适的位置来嵌入文字,因此嵌入的文字能与背景图像较为和谐的融合在一起,从而大大提高了合成图像的真实性。3、本专利技术提出的数据合成方法可以保证每一类文字的频率较为均衡,解决了真实数据类别不均衡的问题,也因此可以提高网络对那些出现频率较低的文字的识别率。附图说明图1是本专利技术基于图像结构信息的OCR数据合成方法的使用流程图;图2是本专利技术基于图像结构信息的OCR数据合成方法的网络结构图。具体实施方式本实施例中,如图1所示,一种基于图像结构信息的的OCR数据合成方法,包括以下步骤:步骤1:收集自然场景图像,用于建立图像背景库;步骤2:构建图像结构信息预测网络SN,包括:编码模块Encoder,快速特征融合模块FM,结构预测模块Decoder;编码模块Encoder,包含:4n个卷积层,n个最大池化层;快速特征融合模块FM,包含4个卷积层,4个上采样层;结构预测模块Decoder,包含3a个卷积层;步骤3:如图2所示;将图像背景库中的每一张背景图片均输入图像结构信息预测网络SN中进行预测,得到对应的结构信息;步骤3.1:将一张背景图片X送入编码模块Encoder中,每经过n层卷积后再经过一个最大池化层的下采样处理,从而经过4n个卷积层以及n个最大池化层处理后,得到四组特征图F1、F2、F3、F4,尺寸分别为其中,H和W是背景图片X的高与宽;步骤3.2:将四组特征图F1、F2、F3、F4送入快速特征融合模块FM中,从而利用式(1)-(5)进行快速的特征融合,得到多种尺度的融合特征Ffuse:Ffuse=Conv(F1up)(1)式(1)中:Conv表示卷积层操作,F1up表示第二组特征图F2与第一组特征图F1的融合特征,并有:F1up=Up(F2up)+Conv(F1)(本文档来自技高网...

【技术保护点】
1.一种基于图像结构信息的OCR数据合成方法,其特征在于,包括以下步骤:/n步骤1:收集自然场景图像,用于建立图像背景库;/n步骤2:构建图像结构信息预测网络SN,包括:编码模块Encoder,快速特征融合模块FM,结构预测模块Decoder;/n所述编码模块Encoder,包含:4n个卷积层,n个最大池化层;/n所述快速特征融合模块FM,包含4个卷积层,4个上采样层;/n所述结构预测模块Decoder,包含3a个卷积层;/n步骤3:将图像背景库中的每一张背景图片均输入图像结构信息预测网络SN中进行预测,得到对应的结构信息;/n步骤3.1:将一张背景图片X送入编码模块Encoder中,每经过n层卷积后再经过一个最大池化层的下采样处理,从而经过4n个卷积层以及n个最大池化层处理后,得到四组特征图F

【技术特征摘要】
1.一种基于图像结构信息的OCR数据合成方法,其特征在于,包括以下步骤:
步骤1:收集自然场景图像,用于建立图像背景库;
步骤2:构建图像结构信息预测网络SN,包括:编码模块Encoder,快速特征融合模块FM,结构预测模块Decoder;
所述编码模块Encoder,包含:4n个卷积层,n个最大池化层;
所述快速特征融合模块FM,包含4个卷积层,4个上采样层;
所述结构预测模块Decoder,包含3a个卷积层;
步骤3:将图像背景库中的每一张背景图片均输入图像结构信息预测网络SN中进行预测,得到对应的结构信息;
步骤3.1:将一张背景图片X送入编码模块Encoder中,每经过n层卷积后再经过一个最大池化层的下采样处理,从而经过4n个卷积层以及n个最大池化层处理后,得到四组特征图F1、F2、F3、F4,尺寸分别为其中,H和W是背景图片X的高与宽;
步骤3.2:将四组特征图F1、F2、F3、F4送入快速特征融合模块FM中,从而利用式(1)-(5)进行快速的特征融合,得到多种尺度的融合特征Ffuse:
Ffuse=Conv(F1up)(1)
式(1)中:Conv表示卷积层操作,F1up表示第二组特征图F2与第一组特征图F1的融合特征,并有:



式(2)中:Up表示上采样层操作;表示第三组特征图F3与第二组特征图F2的融合特征,并有:



式(3)中:表示第三组特征图F3与第四组特征图F4的融合特征,并有:



式(4)中:表示对第四组特征图F4进行上采样之后的特征,并有:



步骤3.3:将融合特征Ffuse送入结...

【专利技术属性】
技术研发人员:汪增福吴仕莲
申请(专利权)人:中国科学院合肥物质科学研究院
类型:发明
国别省市:安徽;34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1