文字识别方法、名单扫描方法和装置制造方法及图纸

技术编号:37815113 阅读:13 留言:0更新日期:2023-06-09 09:45
本说明书实施例提供了一种文字识别方法及装置、名单扫描方法及装置。在该方法中包括:确定待识别文字;根据预先设定的笔顺编码规则以及所述待识别文字的书写笔顺,得到待识别文字对应的笔顺编码;从该笔顺编码中拆分出至少一个编码片段;针对每一个编码片段均执行:根据预先设置的容差限制,在预先生成的字典中收集与当前的编码片段相对应的一组候选已知文字;其中,所述字典中包括多个已知文字;在对应各个编码片段的各组候选已知文字之间求交集,根据该交集得到所述待识别文字所对应的所述字典中的目标已知文字。本说明书实施例能够更为有效地识别出输入的文字。为有效地识别出输入的文字。为有效地识别出输入的文字。

【技术实现步骤摘要】
文字识别方法、名单扫描方法和装置


[0001]本说明书一个或多个实施例涉及计算机技术,尤其涉及文字识别方法、名单扫描方法和装置。

技术介绍

[0002]在很多业务场景中,需要对文字进行识别,从而确定待识别的文字是哪一个文字,进而进行相应的处理。比如,在名单扫描业务场景中,需要对输入的主体比如人名、企业名、地址中包括的文字进行识别,从而确定该主体比如人名是否在一个异常名单中,进而采取不同的风控手段。再如,在OCR(光学字符识别,Optical Character Recognition)技术中,由于OCR识别存在一定的误差,可能会出现形近字的误识别,因此可以对OCR识别出的文字进行纠错识别,找到该误识别出的错误文字所对应的正确文字。
[0003]因此,需要一种有效的文字识别方法。

技术实现思路

[0004]本说明书一个或多个实施例描述了文字识别方法和装置以及名单扫描方法和装置,能够更为有效地识别出输入的文字。
[0005]根据第一方面,提供了一种文字识别方法,其中,该方法包括:
[0006]得到待识别文字;
[0007]根据预先设定的笔顺编码规则以及所述待识别文字的书写笔顺,得到待识别文字对应的笔顺编码;
[0008]从该笔顺编码中拆分出至少一个编码片段;
[0009]针对每一个编码片段均执行:根据预先设置的容差限制,在预先生成的字典中收集与当前的编码片段相对应的一组候选已知文字;其中,所述字典中包括多个已知文字;
[0010]在对应各个编码片段的各组候选已知文字之间求交集,根据该交集得到所述待识别文字所对应的所述字典中的目标已知文字。
[0011]其中,该方法进一步包括:
[0012]针对所述字典中的每一个已知文字均执行:根据预先设定的笔顺编码规则以及当前已知文字的书写笔顺,得到当前已知文字对应的笔顺编码;从该笔顺编码中拆分出至少一个编码片段;建立当前已知文字与从该当前已知文字中拆分出的每一个编码片段之间的对应关系;以及
[0013]利用从各个已知文字中拆分出的所有编码片段形成为BK树;其中,BK树上的每一个节点表征一个编码片段;
[0014]相应地,所述根据预先设置的容差限制在预先生成的字典中收集与当前的编码片段相对应的一组候选已知文字的步骤包括:
[0015]利用BK树查找方法,在形成的所述BK树中查找到至少一个目标节点;其中,目标节点表征的编码片段与所述当前的编码片段之间的编辑距离不大于所述容差限制;
[0016]得到至少一个目标节点表征的至少一个目标编码片段;
[0017]将至少一个目标编码片段所对应的各已知文字,作为与当前的编码片段相对应的一组候选已知文字。
[0018]其中,所述在对应所有编码片段的各组候选已知文字之间求交集,根据该交集得到所述待识别文字所对应的所述字典中的目标已知文字,包括:
[0019]对于从待识别文字对应的笔顺编码中所拆分出的各个编码片段,如果其中的至少两个连续编码片段对应同一个已知文字,且局部最长匹配序列的长度不小于待识别文字对应的笔顺编码的长度乘以预先设置的占比阈值,则将该至少两个连续编码片段所对应的该同一个已知文字作为所述待识别文字所对应的所述字典中的目标已知文字。
[0020]其中,所述从该笔顺编码中拆分出至少一个编码片段包括:
[0021]i=1;
[0022]将该笔顺编码中从第i个编码开始的连续N个编码划分为一个编码片段;其中,N为预先设定的单元片段长度;
[0023]i=i+L;其中,L为预先设定的滑动窗口的步长;
[0024]返回执行步骤“将所述笔顺编码中从第i个编码开始的连续N个编码划分为一个编码片段”,直至已经将该笔顺编码中最后一个编码划分在一个编码片段中。
[0025]其中,所述文字为中文汉字或其他语言的具有书写笔顺的文字;
[0026]和/或,
[0027]所述字典包括:名单库中各个名单记录中所包括的所有文字。
[0028]根据第二方面,提供了名单扫描方法,其中,该方法包括:
[0029]得到待扫描的主体对象;其中,待扫描的主体对象包括一个以上的文字;
[0030]将待扫描的主题对象中的每一个文字按顺序依次作为待识别文字,执行:利用本说明书实施例中任一一种文字识别方法,得到当前待识别文字对应的字典中的目标已知文字;其中,所述字典包括:名单库中各个名单记录中所包括的所有文字;在名单库中查找对应当前待识别文字的且包括该目标已知文字的候选名单记录;
[0031]根据查找到的所有候选名单记录,确定是否存在待扫描的主体对象所命中的名单记录。
[0032]其中,该方法进一步包括:
[0033]针对所述名单库中的每一个名单记录,均执行:针对当前名单记录中的每一个文字,均建立该文字与该当前名单记录的对应关系,从而得到该文字的倒排索引;
[0034]所述在名单库中查找对应当前待识别文字的且包括该目标已知文字的候选名单记录,包括:
[0035]根据该目标已知文字的倒排索引,在名单库中查找与该目标已知文字对应的候选名单记录。
[0036]其中,所述倒排索引中进一步包括:该文字与该文字在当前名单记录中的字段位置的对应关系;
[0037]所述根据查找到的所有候选名单记录确定是否存在待扫描的主体对象所命中的名单记录,包括:
[0038]将待扫描的主题对象中的不同文字所对应的不同候选名单记录求交集,从而得到
备选名单记录;
[0039]根据待扫描的主题对象包括的所有文字与每一个备选名单记录中每一个文字的字段位置处的字段的相似性,进行全局打分;
[0040]如果分数大于预定阈值,则认为待扫描的主题对象命中该备选名单记录。
[0041]根据第三方面,提供了文字识别装置,其中,该装置包括:
[0042]输入模块,配置为得到待识别文字;
[0043]笔顺编码获取模块,配置为根据预先设定的笔顺编码规则以及所述待识别文字的书写笔顺,得到待识别文字对应的笔顺编码;
[0044]编码片段获取模块,配置为从该笔顺编码中拆分出至少一个编码片段;
[0045]识别处理模块,配置为针对每一个编码片段均执行:根据预先设置的容差限制,在预先生成的字典中收集与当前的编码片段相对应的一组候选已知文字;其中,所述字典中包括多个已知文字;在对应各个编码片段的各组候选已知文字之间求交集,根据该交集得到所述待识别文字所对应的所述字典中的目标已知文字。
[0046]根据第四方面,提供了名单扫描装置,其中,该装置包括:
[0047]待扫描对象获取模块,配置为得到待扫描的主体对象;其中,待扫描的主体对象包括一个以上的文字;
[0048]候选名单记录获取模块,配置为将待扫描的主题对象中的每一个文字按顺序依次作为待识别文字,执行:得到当前待识别文字对应的字典中的目标已知文字;其中,所述字典包括本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.文字识别方法,其中,该方法包括:得到待识别文字;根据预先设定的笔顺编码规则以及所述待识别文字的书写笔顺,得到待识别文字对应的笔顺编码;从该笔顺编码中拆分出至少一个编码片段;针对每一个编码片段均执行:根据预先设置的容差限制,在预先生成的字典中收集与当前的编码片段相对应的一组候选已知文字;其中,所述字典中包括多个已知文字;在对应各个编码片段的各组候选已知文字之间求交集,根据该交集得到所述待识别文字所对应的所述字典中的目标已知文字。2.根据权利要求1所述的方法,其中,该方法进一步包括:针对所述字典中的每一个已知文字均执行:根据预先设定的笔顺编码规则以及当前已知文字的书写笔顺,得到当前已知文字对应的笔顺编码;从该笔顺编码中拆分出至少一个编码片段;建立当前已知文字与从该当前已知文字中拆分出的每一个编码片段之间的对应关系;以及利用从各个已知文字中拆分出的所有编码片段形成为BK树;其中,BK树上的每一个节点表征一个编码片段;相应地,所述根据预先设置的容差限制在预先生成的字典中收集与当前的编码片段相对应的一组候选已知文字的步骤包括:利用BK树查找方法,在形成的所述BK树中查找到至少一个目标节点;其中,目标节点表征的编码片段与所述当前的编码片段之间的编辑距离不大于所述容差限制;得到至少一个目标节点表征的至少一个目标编码片段;将至少一个目标编码片段所对应的各已知文字,作为与当前的编码片段相对应的一组候选已知文字。3.根据权利要求2所述的方法,其中,所述在对应所有编码片段的各组候选已知文字之间求交集,根据该交集得到所述待识别文字所对应的所述字典中的目标已知文字,包括:对于从待识别文字对应的笔顺编码中所拆分出的各个编码片段,如果其中的至少两个连续编码片段对应同一个已知文字,且局部最长匹配序列的长度不小于待识别文字对应的笔顺编码的长度乘以预先设置的占比阈值,则将该至少两个连续编码片段所对应的该同一个已知文字作为所述待识别文字所对应的所述字典中的目标已知文字。4.根据权利要求1或2所述的方法,其中,所述从该笔顺编码中拆分出至少一个编码片段包括:i=1;将该笔顺编码中从第i个编码开始的连续N个编码划分为一个编码片段;其中,N为预先设定的单元片段长度;i=i+L;其中,L为预先设定的滑动窗口的步长;返回执行步骤“将所述笔顺编码中从第i个编码开始的连续N个编码划分为一个编码片段”,直至已经将该笔顺编码中最后一个编码划分在一个编码片段中。5.根据权利要求1所述的方法,其中,所述文字为中文汉字或其他语言的具有书写笔顺的文字;
和/或,所述字典包括:名单库中各个名单记录中所包括的所有文字。6.名单扫描方法,其中,该方法包括:得到待扫描的主体对象;其中,待扫描的主体对象包括一个以上的文字;将待扫描的主题对象中的每一个文字按顺...

【专利技术属性】
技术研发人员:陈阳孙清清何茂林邹泊滔
申请(专利权)人:支付宝杭州信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1