基于语义分析的图文识别修复方法技术

技术编号:39588165 阅读:24 留言:0更新日期:2023-12-03 19:39
本申请公开了一种基于语义分析的图文识别修复方法

【技术实现步骤摘要】
基于语义分析的图文识别修复方法、系统、设备及介质


[0001]本申请涉及文字图像识别
,具体涉及一种基于语义分析的图文识别修复方法

系统

设备及介质


技术介绍

[0002]在生产和生活当中,常常需要处理大量的文字

报表或者文本,而文本识别技术能够减轻人们的工作,以提高工作效率;现在技术中对文字图片的处理方法为:方式一

对输入的文字图片,采用
DB
算法对图片内的文字进行检测定位,再利用
CRNN
算法对检测到的文本框开展字符识别,输出图片中所包含的文字内容;方式二

采用
DB
算法对文字图片进行文本框检测定位,针对检测到的文本框采用
SVTR
算法训练字符识别模型进行字符识别,最终输出图片中包含的文字内容

[0003]上述方式一中的方法模型结构简单,容易训练,模型容易收敛,但字符识别准确率相当较低,在包含大量中文字符集情况下,会比
RARE
类型的
Attention
模型低不少,在英文字符集的情况下会低更多;对于艺术字等有较大变形的短文本,或自然场景下的变化较大的文本,此方法识别准确率更低;而方式二在一定程度上能解决方式一存在的问题,但在复杂场景下,如光照不均

背景噪声多

文字模糊等情况下,识别准确度有所下降;此外,长文本

语言和多字体上表现欠佳,由于不同语言和字体的字符形状和结构差异较大,
SVTR
需要更多的训练数据和算法优化来实现更好的识别效果;因此,有必要在复杂情况下,提高长文本和多字体的文字图片识别准确率


技术实现思路

[0004]本申请的主要目的在于克服现有技术的缺点与不足,提供一种基于语义分析的图文识别修复方法

系统

设备及介质,通过在传统的字符识别模型中加入
NLP
文本纠错任务,并在字符识别模型中添加语言模型,以提高文本的识别正确率并能够获取完整的文本数据

[0005]为了达到上述目的,本申请采用以下技术方案:
[0006]第一方面,本申请提供了一种基于语义分析的图文识别修复方法,包括下述步骤:
[0007]获取待识别的第一文字图片,并对所述第一文字图片进行处理,得到第二文字图片;
[0008]将所述第二文字图片通过预先设立的文本框检测模型,得到所述第二文字图片的文本框;
[0009]将所述第二文字图片的文本框通过预先构建的字符识别模型,得到第一字符识别结果;
[0010]在所述第一字符识别结果的基础上添加语言模型,分析所述文本框之间是否可连接,并对不同文本框之间的文本进行拆分重组,以使同一单元格内的文本数据完整,最终得到第二字符识别结果

[0011]作为优选的技术方案,所述字符识别模型包括
patch embedding
模块

特征混合模块

合并模块

错误字符定位模块以及字符纠正网络模块;所述
patch embedding
模块用于将二维图片转换为一系列一维的
patch
块;所述特征混合模块用于提取字符特征序列;所述合并模块用于字符特征序列生成转录序列;所述错误字符定位模块用于确定错误字符的位置信息;所述字符纠正网络模块用于纠正转录错误的字符序列;其中,所述特征混合模块还包括全局混合模块和局部混合模块;所述全局混合模块用于评估所有字符组件间的依赖性,将不同字符组件建立起依赖关系;所述局部混合模块用于模拟笔画样例特征

[0012]作为优选的技术方案,所述将所述第二文字图片的文本框通过预先构建的字符识别模型,得到第一字符识别结果,具体步骤包括:
[0013]patch embedding
模块将所述第二文字图片通过卷积进行
1/4
下采样得到特征图;其中,卷积采用
BN
范式对数据进行标准化;
[0014]特征混合模块对所述特征图进行高度下采样,得到低维度特征图;
[0015]合并模块先将高维度全局池化,并通过全连接层,将字符压缩为一个特征序列,进而生成转录序列;相同字符被转录成重复的字符,非文本组件被转录为空白字符;同时计算字符的第一特征值;
[0016]错误字符模块整合转录出的字符,与待识别的第二文字图片的文本框的标注结果进行比较,确定转录出的字符与标注字符间有出入的字符及其位置信息,计算得到错误字符第二特征值;
[0017]字符纠正网络模块首先在输出的第一特征值中将第二特征值用
mask
掩膜替换,得到第三特征值,将第三特征值以概率乘积的方式来均衡字符串的第一特征值,得到第四特征值;其次,将第四特征值作为字符纠正网络模块中
Transformer
模块的输入,对
Transformer
模块最后一层的输出与第一特征值进行残差连接,得到每个字符最终的特征;最后,将每个字符最终的特征输入至
softmax
分类器,从候选词表中输出概率最大的字符作为正确的字符

[0018]作为优选的技术方案,所述在所述第一字符识别结果的基础上添加语言模型,分析所述文本框之间是否可连接,并对不同文本框之间的文本进行拆分重组,以使同一单元内的文本数据完整,最终得到第二字符识别结果;具体步骤包括:
[0019]对所述第二文字图片的文本框坐标按照从小到大进行排序,并检测第二文字图片中是否存在表格,如存在表格,标定出表格的位置;
[0020]分别将表格外同一高度的文本以及不同高度的文本进行合并;
[0021]在所述标定出表格的位置范围内,将表格划分成单元格,并对单元格的文本进行重组,得到第二字符识别结果

[0022]作为优选的技术方案,所述分别将表格外同一高度的文本以及不同高度的文本进行合并,具体步骤为:
[0023]表格外同一高度的文本合并:
[0024]计算文本框右边坐标与下一个文本框左边坐标的差值,若差值在阈值范围内,则两个文本框可进行连接的;
[0025]表格外不同高度的文本合并:
[0026]计算文本框右边坐标与下一个文本坐标左边的差值,若差值超过阈值,则计算文
本框右边坐标与第二文字图片的全局右侧坐标差值,下一个文本框坐标左边与第二文字图片的全局左侧坐标差,若两个差值都小于阈值,则将前后两个文本框的字符合并,并加入词库

词性逻辑判断
、N

gram
语言模型;最后,计算两个文本框组合起来的文本成为一句话的概率,若概率高于阈值,则直接将两个文本框中的文本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种基于语义分析的图文识别修复方法,其特征在于,包括下述步骤:获取待识别的第一文字图片,并对所述第一文字图片进行处理,得到第二文字图片;将所述第二文字图片通过预先设立的文本框检测模型,得到所述第二文字图片的文本框;将所述第二文字图片的文本框通过预先构建的字符识别模型,得到第一字符识别结果;在所述第一字符识别结果的基础上添加语言模型,分析所述文本框之间是否可连接,并对不同文本框之间的文本进行拆分重组,以使同一单元格内的文本数据完整,最终得到第二字符识别结果
。2.
根据权利要求1所述的基于语义分析的图文识别修复方法,其特征在于,所述字符识别模型包括
patch embedding
模块

特征混合模块

合并模块

错误字符定位模块以及字符纠正网络模块;所述
patch embedding
模块用于将二维图片转换为一系列一维的
patch
块;所述特征混合模块用于提取字符特征序列;所述合并模块用于字符特征序列生成转录序列;所述错误字符定位模块用于确定错误字符的位置信息;所述字符纠正网络模块用于纠正转录错误的字符序列;其中,所述特征混合模块还包括全局混合模块和局部混合模块;所述全局混合模块用于评估所有字符组件间的依赖性,将不同字符组件建立起依赖关系;所述局部混合模块用于模拟笔画样例特征
。3.
根据权利要求1所述的基于语义分析的图文识别修复方法,其特征在于,所述将所述第二文字图片的文本框通过预先构建的字符识别模型,得到第一字符识别结果,具体步骤包括:
patch embedding
模块将所述第二文字图片通过卷积进行
1/4
下采样得到特征图;其中,卷积采用
BN
范式对数据进行标准化;特征混合模块对所述特征图进行高度下采样,得到低维度特征图;合并模块先将高维度全局池化,并通过全连接层,将字符压缩为一个特征序列,进而生成转录序列;相同字符被转录成重复的字符,非文本组件被转录为空白字符;同时计算字符的第一特征值;错误字符模块整合转录出的字符,与待识别的第二文字图片的文本框的标注结果进行比较,确定转录出的字符与标注字符间有出入的字符及其位置信息,计算得到错误字符的第二特征值;字符纠正网络模块首先在输出的第一特征值中将第二特征值用
mask
掩膜替换,得到第三特征值,将第三特征值以概率乘积的方式来均衡字符串的第一特征值,得到第四特征值;其次,将第四特征值作为字符纠正网络模块中
Transformer
模块的输入,对
Transformer
模块最后一层的输出与第一特征值进行残差连接,得到每个字符最终的特征;最后,将每个字符最终的特征输入至
softmax
分类器,从候选词表中输出概率最大的字符作为正确的字符
。4.
根据权利要求1所述的基于语义分析的图文识别修复方法,其特征在于,所述在所述第一字符识别结果的基础上添加语言模型,分析所述文本框之间是否可连接,并对不同文本框之间的文本进行拆分重组,以使同一单元内的文本数据完整,最终得到第二字符识别结果;具体步骤包括:对所述第二文字图片的文本框坐标按照从小到大进行排序,并检测第二文字图片中是
否存在表格,如存在表格,标定出表格的位置;分别将表格外同一高度的文本以及不同高度的文本进行合并;在所述标定出表格的位置范围内,将表格划分成单元格,并对单元格的文本进行重组,得到第二字符识别结果
。5.
根据权利要求4所述的基于语义分析的图文识别修复方法,其特征在于,所述分别将表格外同一高度的文...

【专利技术属性】
技术研发人员:潘谷陈利军洪曙光冯文豪林焕凯
申请(专利权)人:高新兴科技集团股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1