票据信息处理方法、装置、电子设备及计算机存储介质制造方法及图纸

技术编号:35307539 阅读:14 留言:0更新日期:2022-10-22 12:58
本发明专利技术提供了一种票据信息处理方法、装置、电子设备及计算机存储介质,该方法包括:根据票据的OCR识别结果,对票据进行结构化处理,以获得票据对应的结构化信息,结构化信息包括票据中的关键词和关键词对应的关键词内容;获取预设的标准词库,标准词库包括不同关键词对应的标准词;根据待纠正的关键词内容对应的关键词,从标准词库中确定候选标准词;使用候选标准词对待纠正的关键词内容进行纠正。本发明专利技术实施例中,根据待纠正的关键词内容对应的关键词在预设的标准词库中确定与之对应的候选标准词,使用候选标准词对待纠正的关键词内容进行纠正,以使得获取到的票据信息更贴近标准词库,提高票据信息识别的准确率。提高票据信息识别的准确率。提高票据信息识别的准确率。

【技术实现步骤摘要】
票据信息处理方法、装置、电子设备及计算机存储介质


[0001]本专利技术涉及一种图像识别
,尤其涉及一种票据信息处理方法、装置、电子设备及计算机存储介质。

技术介绍

[0002]现有的票据信息识别一般依赖于OCR(Optical

Character

Recognition,光学字符识别)技术,一般指通过电子设备(例如扫描仪或者数码相机等)检查纸上打印的字符,通过检测亮、暗的模式确定字符形状,然后用字符识别方法将形状翻译成计算机文字的过程;即,针对印刷体字符,采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,并通过识别软件将图像中的文字转换成文本格式,将非结构化的票据数据转化为结构化数据,以实现票据信息的提取,供文字处理软件进一步编辑加工的技术。
[0003]但是,目前OCR技术对于票据的识别存在精度不足的问题,容易出现字符识别错误的情况,因此,市场上亟需一种可以提高票据识别效率的处理方法、装置、电子设备及计算机存储介质。

技术实现思路

[0004]本专利技术实施例提供一种票据信息处理方法、装置、电子设备及计算机存储介质,用以克服相关技术中存在的上述技术问题。
[0005]根据本专利技术实施例的第一方面,提供一种票据信息处理方法,具体包括以下步骤:根据票据的OCR识别结果,对票据进行结构化处理,以获得票据对应的结构化信息,结构化信息包括票据中的关键词和关键词对应的关键词内容;获取预设的标准词库,标准词库包括不同关键词对应的标准词;根据待纠正的关键词内容对应的关键词,从标准词库中确定候选标准词;使用候选标准词对待纠正的关键词内容进行纠正。
[0006]可选地,根据待纠正的关键词内容对应的关键词,从标准词库中确定候选标准词,包括:从标准词库中选取标准词对应的关键词与待纠正的关键词内容所属的关键词一致的标准词作为候选标准词。
[0007]可选地,使用候选标准词对待纠正的关键词内容进行纠正,包括:若待纠正的关键词内容的关键词包括地址,则按照地址划分规则对用于指示地址的关键词内容进行切分,以获得切分出的多个地址片段;针对各地址片段,确定地址片段与候选标准词之间的相似度;若存在相似度大于设定的地址阈值的标准词,则使用相似度大于阈值的候选标准词替换地址片段。
[0008]可选地,按照地址划分规则对用于指示地址的关键词内容进行切分,以获得切分出的多个地址片段,包括:使用正则表达式从关键词内容中切分出省级、市级、区级、具体地址级中至少一级地址片段。
[0009]可选地,使用候选标准词对待纠正的关键词内容进行纠正,包括:若待纠正的关键词内容对应的关键词包括金额,则基于金额类的候选标准词,确定金额的汉字金额和数字
金额的对应关系;从指示金额的关键词内容中获取汉字金额的字符串;使用金额类的候选标准词对汉字金额的字符串进行纠正。
[0010]可选地,使用金额类的候选标准词对汉字金额的字符串进行纠正,包括:针对汉字金额的字符串中的各字符,获取各字符对应的OCR识别结果中置信度最高的前K个预测字符;若前K个预测字符中包含金额类的候选标准词,则将字符确定为包含的金额类的候选标准词。
[0011]可选地,使用候选标准词对待纠正的关键词内容进行纠正,还包括:根据纠正后的汉字金额的字符串和汉字金额和数字金额的对应关系,确定待纠正的关键词内容中数字金额的字符串。
[0012]可选地,使用候选标准词对待纠正的关键词内容进行纠正,包括:若待纠正的关键词内容对应的关键词属于预设的关键词,则计算待纠正的关键词内容和候选标准词之间的相似度;选取相似度满足筛选条件的候选标准词作为纠正的关键词内容。
[0013]可选地,票据信息处理方法,还包括:获取第一语言类别的字符和第二语言类别的字符之间的映射关系,第一语言类别和第二语言类别不同,且第一语言类别和第二语言类别包括中文、英文和数字中之一;针对待纠正的关键词内容中各字符,若当前字符的OCR识别结果中预测字符的置信度低于置信度阈值,且确定当前字符的语言类别未满足预设规则,则根据映射关系对当前字符进行纠正。
[0014]根据本专利技术实施例的第二方面,提供一种票据信息处理装置,具体包括:第一获取单元,用于根据票据的OCR识别结果,对票据进行结构化处理,以获得票据对应的结构化信息,结构化信息包括票据中的关键词和关键词对应的关键词内容;第二获取单元,用于获取预设的标准词库,标准词库包括不同关键词对应的标准词;确定单元,用于根据待纠正的关键词内容对应的关键词,从标准词库中确定候选标准词;纠错单元,用于使用候选标准词对待纠正的关键词内容进行纠正。
[0015]一种计算机存储介质,计算机存储介质上存储有计算机可执行程序,计算机可执行程序被运行以实施本专利技术实施例中任一项的方法。
[0016]一种电子设备,电子设备包括存储器以及处理器,存储器上用于存储计算机可执行程序,处理器用于运行计算机可执行程序以实施本专利技术实施例中任一项的方法。
[0017]本专利技术实施例中,通过对票据进行结构化处理以得到票据对应的结构化信息,结构化信息具体指票据中的关键词及关键词对应的关键词内容,并根据待纠正的关键词内容对应的关键词在预设的标准词库中确定与之对应的候选标准词,使用候选标准词对待纠正的关键词内容进行纠正,以使得获取到的票据信息更贴近标准词库,提高票据信息识别的准确率。
附图说明
[0018]图1为本专利技术实施例提供的一种票据信息处理方法的步骤流程图;
[0019]图2为本专利技术实施例提供的另一种票据信息处理方法的步骤流程图;
[0020]图3为本专利技术实施例提供的另一种票据信息处理方法的步骤流程图;
[0021]图4为本专利技术实施例提供的另一种票据信息处理方法的步骤流程图;
[0022]图5为本专利技术实施例提供的一种票据信息处理装置的结构框图;
[0023]图6为本专利技术实施例提供的一种电子设备的结构示意图。
具体实施方式
[0024]为了对本专利技术实施例的技术特征、目的和效果有更加清楚的理解,现对照附图说明本专利技术实施例的具体实施方式。
[0025]在本文中,“示意性”表示“充当实例、例子或说明”,不应将在本文中被描述为“示意性”的任何图示、实施方式解释为一种更优选的或更具优点的技术方案。
[0026]为使图面简洁,各图中只示意性地表示出了与本专利技术相关的部分,它们并不代表其作为产品的实际结构。另外,为使图面简洁便于理解,在有些图中具有相同结构或功能的部件,仅示意性地绘示了其中的一个或多个,或仅标示出了其中的一个或多个。
[0027]需要说明的是,在不冲突的情况下,本专利技术中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本专利技术。
[0028]现有的票据信息识别一般依赖于OCR(Optical

Character

Recognition,光学字符识别)技术,一般指通本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种票据信息处理方法,其特征在于,包括:根据票据的OCR识别结果,对所述票据进行结构化处理,以获得所述票据对应的结构化信息,所述结构化信息包括票据中的关键词和所述关键词对应的关键词内容;获取预设的标准词库,所述标准词库包括不同关键词对应的标准词;根据待纠正的关键词内容对应的关键词,从所述标准词库中确定候选标准词;使用所述候选标准词对所述待纠正的关键词内容进行纠正。2.根据权利要求1所述的方法,其特征在于,所述根据待纠正的关键词内容对应的关键词,从所述标准词库中确定候选标准词,包括:从所述标准词库中选取标准词对应的关键词与待纠正的关键词内容所属的关键词一致的标准词作为候选标准词。3.根据权利要求1或2所述的方法,其特征在于,所述使用所述候选标准词对所述待纠正的关键词内容进行纠正,包括:若所述待纠正的关键词内容的关键词包括地址,则按照地址划分规则对用于指示地址的关键词内容进行切分,以获得切分出的多个地址片段;针对各所述地址片段,确定所述地址片段与所述候选标准词之间的相似度;若存在相似度大于设定的地址阈值的标准词,则使用所述相似度大于阈值的候选标准词替换所述地址片段。4.根据权利要求3所述的方法,其特征在于,所述按照地址划分规则对用于指示地址的关键词内容进行切分,以获得切分出的多个地址片段,包括:使用正则表达式从所述关键词内容中切分出省级、市级、区级、具体地址级中至少一级地址片段。5.根据权利要求1或2所述的方法,其特征在于,所述使用所述候选标准词对所述待纠正的关键词内容进行纠正,包括:若所述待纠正的关键词内容对应的关键词包括金额,则基于金额类的候选标准词,确定金额的汉字金额和数字金额的对应关系;从指示金额的关键词内容中获取汉字金额的字符串;使用金额类的候选标准词对所述汉字金额的字符串进行纠正。6.根据权利要求5所述的方法,其特征在于,所述使用金额类的候选标准词对所述汉字金额的字符串进行纠正,包括:针对汉字金额的字符串中的各字符,获取各字符对应的OCR识别结果中置信度最高的前K个预测字符;若所述前K个预测字符中包含金额类的候选标准词,则将所述字符确定...

【专利技术属性】
技术研发人员:李国库佟德超
申请(专利权)人:盐城金堤科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1