一种文本纠错方法和装置制造方法及图纸

技术编号:24092928 阅读:20 留言:0更新日期:2020-05-09 08:54
本发明专利技术公开了一种文本纠错方法和装置,涉及计算机技术领域。该方法的一具体实施方式包括:对图像识别得到的待纠错文本进行第一纠错操作,得到待纠错文本的第一纠错文本,第一纠错操作包括:利用候选字符集合,对待纠错文本中置信度不符合预设条件的字符进行字符纠错;基于第一纠错文本的文本结构特性,对第一纠错文本进行结构化文本修复,得到最终纠错文本,文本结构特性包括文本项的完整属性约束条件、文本项的值域约束条件、文本项之间的依赖存在约束条之中的一者或多者。该实施方式能够快速提高文本识别的精度,自动进行文本纠错,并充分利用文本结构化特性进行纠错,提高结构化准确率,进而有利于提高业务处理结果的准确性。

A text correction method and device

【技术实现步骤摘要】
一种文本纠错方法和装置
本专利技术涉及计算机
,尤其涉及一种文本纠错方法和装置。
技术介绍
目前在很多业务场景中所使用的文本是通过OCR(光学字符识别)等技术进行图像识别而得到的,由于文本的来源图像质量参差不齐,导致文本识别准确率有很大差异,从而影响业务处理结果的准确性。例如,保险公司对保单的核保,最重要的依据就是客户的体检报告数据,目前保险公司收到的体检报告绝大部分是客户或者代理人上传的体检报告图像,需要通过OCR技术对体检影像进行字符识别结构化,进而通过机器学习模型自动识别风险因子辅助核保员审核。由于体检报告图片质量参差不齐,所以体检报告的识别准确率也有很大差异,但核保审核对检查结果准确率的要求比较高,例如将血压值135识别为185,就可能使原本可以承保的保单变为拒保了,严重影响核保的准确率。在实现本专利技术过程中,专利技术人发现现有技术中至少存在如下问题:文本识别的精度、结构化准确率都比较低,无法对文本进行自动纠错,严重影响业务处理结果的准确性。
技术实现思路
有鉴于此,本专利技术实施例提供一种文本纠错方法和装置,能够快速提高文本识别的精度,自动进行文本纠错,并充分利用文本结构化特性进行纠错,提高结构化准确率,进而有利于提高业务处理结果的准确性。为实现上述目的,根据本专利技术实施例的一个方面,提供了一种文本纠错方法。一种文本纠错方法,包括:对图像识别得到的待纠错文本进行第一纠错操作,得到所述待纠错文本的第一纠错文本,所述第一纠错操作包括:利用候选字符集合,对所述待纠错文本中置信度不符合预设条件的字符进行字符纠错;基于所述第一纠错文本的文本结构特性,对所述第一纠错文本进行结构化文本修复,得到所述待纠错文本的最终纠错文本,其中,所述文本结构特性包括:文本项的完整属性约束条件、文本项的值域约束条件、文本项之间的依赖存在约束条之中的一者或多者。可选地,利用候选字符集合,对所述待纠错文本中置信度不符合预设条件的字符进行字符纠错的步骤,包括:从所述图像识别得到所述待纠错文本时输出的图像识别信息中,获取所述待纠错文本中各字符的候选字符和所述置信度,所述候选字符集合为所述各字符的候选字符的集合;将所述待纠错文本中,所述置信度小于或等于阈值门限的目标字符,替换为对应的所述候选字符。可选地,所述待纠错文本中每一字符的候选字符为多个;将所述待纠错文本中,所述置信度小于或等于阈值门限的目标字符,替换为对应的所述候选字符的步骤,包括:对于所述待纠错文本中,所述置信度小于或等于所述阈值门限的目标字符,将所述目标字符与其邻近字符组成第一多元字符组,所述第一多元字符组对应多个第二多元字符组,每一所述第二多元字符组由所述目标字符的一个候选字符和所述目标字符的所述邻近字符构成;确定每一所述第二多元字符组的字符共现概率,并将所述目标字符替换为所述字符共现概率最大的所述第二多元字符组中的所述候选字符。可选地,通过如下方式确定每一所述第二多元字符组的字符共现概率:判断所述第二多元字符组是否为用来构建多元共现矩阵的多元字符组,所述多元共现矩阵包括所述多元字符组的字符共现概率;如果所述第二多元字符组是所述构建多元共现矩阵的多元字符组,则从所述多元共现矩阵中查找所述第二多元字符组的字符共现概率;如果所述第二多元字符组不是所述构建多元共现矩阵的多元字符组,则将其字符共现概率赋值为预设值,且所述预设值低于所述构建多元共现矩阵的任一所述第二多元字符组的字符共现概率。可选地,所述第一纠错操作还包括:利用混淆集对所述字符纠错后的文本进行文本段检查,并将检查未通过的文本段替换为所述混淆集中的候选文本段。可选地,利用混淆集对所述字符纠错后的文本进行文本段检查,并将检查未通过的文本段替换为所述混淆集中的候选文本段的步骤,包括:将所述字符纠错后的文本中的文本段与所述混淆集中的错误文本段匹配,将匹配一致的所述文本段,替换为所述混淆集中与该匹配的错误文本段对应的候选文本段。可选地,所述基于所述第一纠错文本的文本结构特性,对所述第一纠错文本进行结构化文本修复,包括以下的一种或多种:基于所述第一纠错文本中各文本项的完整属性约束条件,检查所述第一纠错文本中文本项的属性是否缺失,在有缺失属性的情况下,从所述完整属性约束条件提取相应的所述缺失属性,进行文本项属性修复;基于所述第一纠错文本中各文本项的值域约束条件,检查所述文本项的属性值是否符合所述值域约束条件的规定值,对于不符合所述规定值的所述文本项的属性值,进行文本项属性值修复;基于所述第一纠错文本中各文本项之间的依赖存在约束条件,检查与所述文本项依赖存在的文本项是否缺失,如果有缺失,则根据所述依赖存在约束条件中规定的文本项依赖关系,进行文本项缺失修复。根据本专利技术实施例的另一方面,提供了一种文本纠错装置。一种文本纠错装置,包括:第一纠错模块,用于对图像识别得到的待纠错文本进行第一纠错操作,得到所述待纠错文本的第一纠错文本,所述第一纠错操作包括:利用候选字符集合,对所述待纠错文本中置信度不符合预设条件的字符进行字符纠错;结构化文本修复模块,用于基于所述第一纠错文本的文本结构特性,对所述第一纠错文本进行结构化文本修复,得到所述待纠错文本的最终纠错文本,其中,所述文本结构特性包括:文本项的完整属性约束条件、文本项的值域约束条件、文本项之间的依赖存在约束条之中的一者或多者。可选地,所述第一纠错模块包括字符纠错模块,用于:从所述图像识别得到所述待纠错文本时输出的图像识别信息中,获取所述待纠错文本中各字符的候选字符和所述置信度,所述候选字符集合为所述各字符的候选字符的集合;将所述待纠错文本中,所述置信度小于或等于阈值门限的目标字符,替换为对应的所述候选字符。可选地,所述待纠错文本中每一字符的候选字符为多个;所述字符纠错模块包括字符替换子模块,用于:对于所述待纠错文本中,所述置信度小于或等于所述阈值门限的目标字符,将所述目标字符与其邻近字符组成第一多元字符组,所述第一多元字符组对应多个第二多元字符组,每一所述第二多元字符组由所述目标字符的一个候选字符和所述目标字符的所述邻近字符构成;确定每一所述第二多元字符组的字符共现概率,并将所述目标字符替换为所述字符共现概率最大的所述第二多元字符组中的所述候选字符。可选地,所述字符替换子模块通过如下方式确定每一所述第二多元字符组的字符共现概率:判断所述第二多元字符组是否为用来构建多元共现矩阵的多元字符组,所述多元共现矩阵包括所述多元字符组的字符共现概率;如果所述第二多元字符组是所述构建多元共现矩阵的多元字符组,则从所述多元共现矩阵中查找所述第二多元字符组的字符共现概率;如果所述第二多元字符组不是所述构建多元共现矩阵的多元字符组,则将其字符共现概率赋值为预设值,且所述预设值低于所述构建多元共现矩阵的任一所述第二多元字符组的字符共现概率。可选地,所述第一纠错模块还包括文本段纠错模块,用于:利用混淆集对所述字符纠错后的文本进行文本段检查,并将检查未通过的文本段替换为所述混淆集中的候选文本段。可选地,所述文本段纠错本文档来自技高网...

【技术保护点】
1.一种文本纠错方法,其特征在于,包括:/n对图像识别得到的待纠错文本进行第一纠错操作,得到所述待纠错文本的第一纠错文本,所述第一纠错操作包括:利用候选字符集合,对所述待纠错文本中置信度不符合预设条件的字符进行字符纠错;/n基于所述第一纠错文本的文本结构特性,对所述第一纠错文本进行结构化文本修复,得到所述待纠错文本的最终纠错文本,其中,所述文本结构特性包括:文本项的完整属性约束条件、文本项的值域约束条件、文本项之间的依赖存在约束条之中的一者或多者。/n

【技术特征摘要】
1.一种文本纠错方法,其特征在于,包括:
对图像识别得到的待纠错文本进行第一纠错操作,得到所述待纠错文本的第一纠错文本,所述第一纠错操作包括:利用候选字符集合,对所述待纠错文本中置信度不符合预设条件的字符进行字符纠错;
基于所述第一纠错文本的文本结构特性,对所述第一纠错文本进行结构化文本修复,得到所述待纠错文本的最终纠错文本,其中,所述文本结构特性包括:文本项的完整属性约束条件、文本项的值域约束条件、文本项之间的依赖存在约束条之中的一者或多者。


2.根据权利要求1所述的方法,其特征在于,利用候选字符集合,对所述待纠错文本中置信度不符合预设条件的字符进行字符纠错的步骤,包括:
从所述图像识别得到所述待纠错文本时输出的图像识别信息中,获取所述待纠错文本中各字符的候选字符和所述置信度,所述候选字符集合为所述各字符的候选字符的集合;
将所述待纠错文本中,所述置信度小于或等于阈值门限的目标字符,替换为对应的所述候选字符。


3.根据权利要求2所述的方法,其特征在于,所述待纠错文本中每一字符的候选字符为多个;
将所述待纠错文本中,所述置信度小于或等于阈值门限的目标字符,替换为对应的所述候选字符的步骤,包括:
对于所述待纠错文本中,所述置信度小于或等于所述阈值门限的目标字符,将所述目标字符与其邻近字符组成第一多元字符组,所述第一多元字符组对应多个第二多元字符组,每一所述第二多元字符组由所述目标字符的一个候选字符和所述目标字符的所述邻近字符构成;
确定每一所述第二多元字符组的字符共现概率,并将所述目标字符替换为所述字符共现概率最大的所述第二多元字符组中的所述候选字符。


4.根据权利要求3所述的方法,其特征在于,通过如下方式确定每一所述第二多元字符组的字符共现概率:
判断所述第二多元字符组是否为用来构建多元共现矩阵的多元字符组,所述多元共现矩阵包括所述多元字符组的字符共现概率;
如果所述第二多元字符组是所述构建多元共现矩阵的多元字符组,则从所述多元共现矩阵中查找所述第二多元字符组的字符共现概率;
如果所述第二多元字符组不是所述构建多元共现矩阵的多元字符组,则将其字符共现概率赋值为预设值,且所述预设值低于所述构建多元共现矩阵的任一所述第二多元字符组的字符共现概率。


...

【专利技术属性】
技术研发人员:刘兴旺刘岩刘亚宋慧驹
申请(专利权)人:泰康保险集团股份有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1