基于语义分析的图文识别修复方法技术

技术编号：39588165 阅读：33 留言：0更新日期：2023-12-03 19:39

本申请公开了一种基于语义分析的图文识别修复方法

全部详细技术资料下载

【技术实现步骤摘要】
基于语义分析的图文识别修复方法、系统、设备及介质

[0001]本申请涉及文字图像识别
，具体涉及一种基于语义分析的图文识别修复方法
、
系统
、
设备及介质
。

技术介绍

[0002]在生产和生活当中，常常需要处理大量的文字
、
报表或者文本，而文本识别技术能够减轻人们的工作，以提高工作效率；现在技术中对文字图片的处理方法为：方式一
、
对输入的文字图片，采用
DB
算法对图片内的文字进行检测定位，再利用
CRNN
算法对检测到的文本框开展字符识别，输出图片中所包含的文字内容；方式二
、
采用
DB
算法对文字图片进行文本框检测定位，针对检测到的文本框采用
SVTR
算法训练字符识别模型进行字符识别，最终输出图片中包含的文字内容
。
[0003]上述方式一中的方法模型结构简单，容易训练，模型容易收敛，但字符识别准确率相当较低，在包含大量中文字符集情况下，会比
RARE
类型的
Attention
模型低不少，在英文字符集的情况下会低更多；对于艺术字等有较大变形的短文本，或自然场景下的变化较大的文本，此方法识别准确率更低；而方式二在一定程度上能解决方式一存在的问题，但在复杂场景下，如光照不均
、
背景噪声多
、
文字模糊等情况下，识别准确度有所下降；此外，长文本
、
多...

【技术保护点】

【技术特征摘要】
1.
一种基于语义分析的图文识别修复方法，其特征在于，包括下述步骤：获取待识别的第一文字图片，并对所述第一文字图片进行处理，得到第二文字图片；将所述第二文字图片通过预先设立的文本框检测模型，得到所述第二文字图片的文本框；将所述第二文字图片的文本框通过预先构建的字符识别模型，得到第一字符识别结果；在所述第一字符识别结果的基础上添加语言模型，分析所述文本框之间是否可连接，并对不同文本框之间的文本进行拆分重组，以使同一单元格内的文本数据完整，最终得到第二字符识别结果
。2.
根据权利要求1所述的基于语义分析的图文识别修复方法，其特征在于，所述字符识别模型包括
patch embedding
模块
、
特征混合模块
、
合并模块
、
错误字符定位模块以及字符纠正网络模块；所述
patch embedding
模块用于将二维图片转换为一系列一维的
patch
块；所述特征混合模块用于提取字符特征序列；所述合并模块用于字符特征序列生成转录序列；所述错误字符定位模块用于确定错误字符的位置信息；所述字符纠正网络模块用于纠正转录错误的字符序列；其中，所述特征混合模块还包括全局混合模块和局部混合模块；所述全局混合模块用于评估所有字符组件间的依赖性，将不同字符组件建立起依赖关系；所述局部混合模块用于模拟笔画样例特征
。3.
根据权利要求1所述的基于语义分析的图文识别修复方法，其特征在于，所述将所述第二文字图片的文本框通过预先构建的字符识别模型，得到第一字符识别结果，具体步骤包括：
patch embedding
模块将所述第二文字图片通过卷积进行
1/4
下采样得到特征图；其中，卷积采用
BN
范式对数据进行标准化；特征混合模块对所述特征图进行高度下采样，得到低维度特征图；合并模块先将高维度全局池化，并通过全连接层，将字符压缩为一个特征序列，进而生成转录序列；相同字符被转录成重复的字符，非文本组件被转录为空白字符；同时计算字符的第一特征值；错误字符模块整合转录出的字符，与待识别的第二文字图片的文本框的标注结果进行比较，确定转录出的字符与标注字符间有出入的字符及其位置信息，计算得到错误字符的第二特征值；字符纠正网络模块首先在输出的第一特征值中将第二特征值用
mask
掩膜替换，得到第三特征值，将第三特征值以概率乘积的方式来均衡字符串的第一特征值，得到第四特征值；其次，将第四特征值作为字符纠正网络模块中
Transformer
模块的输入，对
Transformer
模块最后一层的输出与第一特征值进行残差连接，得到每个字符最终的特征；最后，将每个字符最终的特征输入至
softmax
分类器，从候选词表中输出概率最大的字符作为正确的字符
。4.
根据权利要求1所述的基于语义分析的图文识别修复方法，其特征在于，所述在所述第一字符识别结果的基础上添加语言模型，分析所述文本框之间是否可连接，并对不同文本框之间的文本进行拆分重组，以使同一单元内的文本数据完整，最终得到第二字符识别结果；具体步骤包括：对所述第二文字图片的文本框坐标按照从小到大进行排序，并检测第二文字图片中是
否存在表格，如存在表格，标定出表格的位置；分别将表格外同一高度的文本以及不同高度的文本进行合并；在所述标定出表格的位置范围内，将表格划分成单元格，并对单元格的文本进行重组，得到第二字符识别结果
。5.
根据权利要求4所述的基于语义分析的图文识别修复方法，其特征在于，所述分别将表格外同一高度的文...

【专利技术属性】
技术研发人员：潘谷，陈利军，洪曙光，冯文豪，林焕凯，
申请(专利权)人：高新兴科技集团股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人