【技术实现步骤摘要】
文字识别方法、名单扫描方法和装置
[0001]本说明书一个或多个实施例涉及计算机技术,尤其涉及文字识别方法、名单扫描方法和装置。
技术介绍
[0002]在很多业务场景中,需要对文字进行识别,从而确定待识别的文字是哪一个文字,进而进行相应的处理。比如,在名单扫描业务场景中,需要对输入的主体比如人名、企业名、地址中包括的文字进行识别,从而确定该主体比如人名是否在一个异常名单中,进而采取不同的风控手段。再如,在OCR(光学字符识别,Optical Character Recognition)技术中,由于OCR识别存在一定的误差,可能会出现形近字的误识别,因此可以对OCR识别出的文字进行纠错识别,找到该误识别出的错误文字所对应的正确文字。
[0003]因此,需要一种有效的文字识别方法。
技术实现思路
[0004]本说明书一个或多个实施例描述了文字识别方法和装置以及名单扫描方法和装置,能够更为有效地识别出输入的文字。
[0005]根据第一方面,提供了一种文字识别方法,其中,该方法包括:
[0006]得到待识别文字;
[0007]根据预先设定的笔顺编码规则以及所述待识别文字的书写笔顺,得到待识别文字对应的笔顺编码;
[0008]从该笔顺编码中拆分出至少一个编码片段;
[0009]针对每一个编码片段均执行:根据预先设置的容差限制,在预先生成的字典中收集与当前的编码片段相对应的一组候选已知文字;其中,所述字典中包括多个已知文字;
[0010]在对应各个编码片段的 ...
【技术保护点】
【技术特征摘要】
1.文字识别方法,其中,该方法包括:得到待识别文字;根据预先设定的笔顺编码规则以及所述待识别文字的书写笔顺,得到待识别文字对应的笔顺编码;从该笔顺编码中拆分出至少一个编码片段;针对每一个编码片段均执行:根据预先设置的容差限制,在预先生成的字典中收集与当前的编码片段相对应的一组候选已知文字;其中,所述字典中包括多个已知文字;在对应各个编码片段的各组候选已知文字之间求交集,根据该交集得到所述待识别文字所对应的所述字典中的目标已知文字。2.根据权利要求1所述的方法,其中,该方法进一步包括:针对所述字典中的每一个已知文字均执行:根据预先设定的笔顺编码规则以及当前已知文字的书写笔顺,得到当前已知文字对应的笔顺编码;从该笔顺编码中拆分出至少一个编码片段;建立当前已知文字与从该当前已知文字中拆分出的每一个编码片段之间的对应关系;以及利用从各个已知文字中拆分出的所有编码片段形成为BK树;其中,BK树上的每一个节点表征一个编码片段;相应地,所述根据预先设置的容差限制在预先生成的字典中收集与当前的编码片段相对应的一组候选已知文字的步骤包括:利用BK树查找方法,在形成的所述BK树中查找到至少一个目标节点;其中,目标节点表征的编码片段与所述当前的编码片段之间的编辑距离不大于所述容差限制;得到至少一个目标节点表征的至少一个目标编码片段;将至少一个目标编码片段所对应的各已知文字,作为与当前的编码片段相对应的一组候选已知文字。3.根据权利要求2所述的方法,其中,所述在对应所有编码片段的各组候选已知文字之间求交集,根据该交集得到所述待识别文字所对应的所述字典中的目标已知文字,包括:对于从待识别文字对应的笔顺编码中所拆分出的各个编码片段,如果其中的至少两个连续编码片段对应同一个已知文字,且局部最长匹配序列的长度不小于待识别文字对应的笔顺编码的长度乘以预先设置的占比阈值,则将该至少两个连续编码片段所对应的该同一个已知文字作为所述待识别文字所对应的所述字典中的目标已知文字。4.根据权利要求1或2所述的方法,其中,所述从该笔顺编码中拆分出至少一个编码片段包括:i=1;将该笔顺编码中从第i个编码开始的连续N个编码划分为一个编码片段;其中,N为预先设定的单元片段长度;i=i+L;其中,L为预先设定的滑动窗口的步长;返回执行步骤“将所述笔顺编码中从第i个编码开始的连续N个编码划分为一个编码片段”,直至已经将该笔顺编码中最后一个编码划分在一个编码片段中。5.根据权利要求1所述的方法,其中,所述文字为中文汉字或其他语言的具有书写笔顺的文字;
和/或,所述字典包括:名单库中各个名单记录中所包括的所有文字。6.名单扫描方法,其中,该方法包括:得到待扫描的主体对象;其中,待扫描的主体对象包括一个以上的文字;将待扫描的主题对象中的每一个文字按顺...
【专利技术属性】
技术研发人员:陈阳,孙清清,何茂林,邹泊滔,
申请(专利权)人:支付宝杭州信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。