基于银行回单的关键信息提取方法、装置、设备及介质制造方法及图纸

技术编号:28421754 阅读:17 留言:0更新日期:2021-05-11 18:29
本发明专利技术公开了一种基于银行回单的关键信息提取方法,包括:识别银行回单的初始文字字段;对初始文字字段执行清洗操作,得到目标文字字段;对相邻的目标文字字段间建立动态链接,生成文字字段组合;识别每个文字字段组合的类型,并通过机器学习模型从每个文字字段组合中提取所述银行回单的关键信息。可见,在本方案中,识别银行回单的初始文字字段后,通过对初始文字字段清洗的方式,可避免提取的关键信息出现字段错误、不完整等问题,通过建立文字字段组合的方式,可提高字段间的关联度,从而提高关键信息的完整性和准确性;本发明专利技术还公开了一种基于银行回单的关键信息提取装置、设备及介质,同样能实现上述技术效果。

【技术实现步骤摘要】
基于银行回单的关键信息提取方法、装置、设备及介质
本专利技术涉及信息识别
,更具体地说,涉及一种基于银行回单的关键信息提取方法、装置、设备及介质。
技术介绍
近年来,基于深度学习的文字识别落地应用已经非常成熟,在银行回单识别领域中,相关的识别算法是对基于深度学习的文字识别结果进行相关优化工作,优化工作的中心思想是基于关键字模板匹配的方式,来获取银行回单中的关键信息字段,但由于基于深度学习的文字识别在识别银行回单相关任务中,会出现识别的字段分开的问题,导致识别出的银行回单关键信息字段缺失等问题,识别性能不够鲁棒。因此,如何提高银行回单中关键信息的完整性及准确性,是本领域技术人员需要解决的问题。
技术实现思路
本专利技术的目的在于提供一种基于银行回单的关键信息提取方法、装置、设备及介质,以提高银行回单中关键信息的完整性及准确性。为实现上述目的,本专利技术提供一种基于银行回单的关键信息提取方法,包括:识别银行回单的初始文字字段;对所述初始文字字段执行清洗操作,得到目标文字字段;对相邻的目标文字字段间建立动态链接,生成文字字段组合;识别每个文字字段组合的类型,并通过机器学习模型从每个文字字段组合中提取所述银行回单的关键信息。其中,所述对所述初始文字字段执行清洗操作,包括:识别所述初始文字字段中的停用词,并删除。其中,所述对所述初始文字字段执行清洗操作,包括:识别所述初始文字字段中非标准文字字段,并通过预先存储的常用词库对非标准文字字段进行更改。其中,所述通过预先存储的常用词库对非标准文字字段进行更改,包括:通过预先存储的公司名词词库对非标准文字字段进行更改;和/或,通过通过预先存储的格式正则规则对非标准文字字段进行更改。其中,所述识别每个文字字段组合的类型,包括:通过关键词分类算法、分词分类算法、特定模板分类算法中的任意一者,确定每个文字字段组合的类型。其中,若通过所述关键词分类算法、分词分类算法、模板分类算法均不能确定文字字段组合的类型,则所述关键信息提取方法还包括:通过语言分类模型确定文字字段组合的类型。其中,所述对相邻的目标文字字段间建立动态链接,包括:确定各个目标文字字段的位置;对属于同一水平方向的、且位置相邻的目标文字字段间建立动态链接,和/或,对属于同一垂直方向的、且位置相邻的目标文字字段间建立动态链接,和/或,对不属于同一水平方向和垂直方向的、且位置相邻的目标文字字段间建立动态链接。为实现上述目的,本专利技术进一步提供一种基于银行回单的关键信息提取装置,包括:识别模块,用于识别银行回单的初始文字字段;字段清洗模块,用于对所述初始文字字段执行清洗操作,得到目标文字字段;链接建立模块,用于对相邻的目标文字字段间建立动态链接,生成文字字段组合;类型识别模块,用于识别每个文字字段组合的类型;提取模块,用于通过机器学习模型从每个文字字段组合中提取所述银行回单的关键信息。为实现上述目的,本专利技术进一步提供一种电子设备,包括:存储器,用于存储计算机程序;处理器,用于执行所述计算机程序时实现上述基于银行回单的关键信息提取方法的步骤。为实现上述目的,本专利技术进一步提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述基于银行回单的关键信息提取方法的步骤。通过以上方案可知,本专利技术实施例提供的一种基于银行回单的关键信息提取方法,包括:识别银行回单的初始文字字段;对初始文字字段执行清洗操作,得到目标文字字段;对相邻的目标文字字段间建立动态链接,生成文字字段组合;识别每个文字字段组合的类型,并通过机器学习模型从每个文字字段组合中提取所述银行回单的关键信息。可见,在本方案中,识别银行回单的初始文字字段后,通过对初始文字字段清洗的方式,可避免提取的关键信息出现字段错误、不完整等问题,通过建立文字字段组合的方式,可提高字段间的关联度,从而提高关键信息的完整性和准确性;本专利技术还公开了一种基于银行回单的关键信息提取装置、设备及介质,同样能实现上述技术效果。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例公开的一种基于银行回单的关键信息提取方法流程示意图;图2为本专利技术实施例公开的一种基于银行回单的关键信息提取装置结构示意图;图3为本专利技术实施例公开的一种电子设备结构示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。本专利技术实施例公开了一种基于银行回单的关键信息提取方法、装置、设备及介质,以提高银行回单中关键信息的完整性及准确性。参见图1,本专利技术实施例提供的一种基于银行回单的关键信息提取方法流程示意图;该方法包括:S101、识别银行回单的初始文字字段;在本方案中,首先需要识别银行回单中的文字字段,在本方案中,将识别出来的未执行清洗操作的文字字段作为初始文字字段;并且,在识别初始文字字段时,可通过基于深度学习的文字识别方法识别初始文字字段。在银行回单中,文字字段可以为:收款方、公司名称、账号、银行卡号等等。S102、对初始文字字段执行清洗操作,得到目标文字字段;需要说明的是,在本方案中,为了避免提取的关键信息出现不准确、不完整等情况,识别出初始文字字段后,需要对该初始文字字段执行清洗操作,将清洗后的文字字段称为目标文字字段。具体来说,本方案对初始文字字段执行清洗操作包括:识别初始文字字段中的停用词,并删除。如:预先设置停用词库,该停用词库中的停用词为已经停止使用的词,如果在初始文字字段中检测出停用词,则直接删除,实现对初始文字字段中停用词的清理。进一步,本方案对初始文字字段执行清洗操作还包括:识别所述初始文字字段中非标准文字字段,并通过预先存储的常用词库对非标准文字字段进行更改。其中,本方案中的非标准文字字段包括:识别错误、不完整等字段,如果检测出该非标准文字字段,则通过预先存储的常用词库对非标准文字字段进行更改。该常用词库中包括:公司名称词库,格式正则规则,因此在更改时,可通过预先存储的公司名词词库对非标准文字字段进行更改,和/或,通过通过预先存储的格式正则规则对非标准文字字段进行更改。例如:若识别的非标准文字字段为:“浙工XX网络”,则通过公司名词词库将“浙工XX网络”更改为“浙江XX网络”,然后再通过本文档来自技高网...

【技术保护点】
1.一种基于银行回单的关键信息提取方法,其特征在于,包括:/n识别银行回单的初始文字字段;/n对所述初始文字字段执行清洗操作,得到目标文字字段;/n对相邻的目标文字字段间建立动态链接,生成文字字段组合;/n识别每个文字字段组合的类型,并通过机器学习模型从每个文字字段组合中提取所述银行回单的关键信息。/n

【技术特征摘要】
1.一种基于银行回单的关键信息提取方法,其特征在于,包括:
识别银行回单的初始文字字段;
对所述初始文字字段执行清洗操作,得到目标文字字段;
对相邻的目标文字字段间建立动态链接,生成文字字段组合;
识别每个文字字段组合的类型,并通过机器学习模型从每个文字字段组合中提取所述银行回单的关键信息。


2.根据权利要求1所述的关键信息提取方法,其特征在于,所述对所述初始文字字段执行清洗操作,包括:
识别所述初始文字字段中的停用词,并删除。


3.根据权利要求1所述的关键信息提取方法,其特征在于,所述对所述初始文字字段执行清洗操作,包括:
识别所述初始文字字段中非标准文字字段,并通过预先存储的常用词库对非标准文字字段进行更改。


4.根据权利要求3所述的关键信息提取方法,其特征在于,所述通过预先存储的常用词库对非标准文字字段进行更改,包括:
通过预先存储的公司名词词库对非标准文字字段进行更改;和/或,通过通过预先存储的格式正则规则对非标准文字字段进行更改。


5.根据权利要求1所述的关键信息提取方法,其特征在于,所述识别每个文字字段组合的类型,包括:
通过关键词分类算法、分词分类算法、特定模板分类算法中的任意一者,确定每个文字字段组合的类型。


6.根据权利要求5所述的关键信息提取方法,其特征在于,若通过所述关键词分类算法、分词分类算法、模板分类算法均不能确定文字字段...

【专利技术属性】
技术研发人员:何依伦
申请(专利权)人:浙江诺诺网络科技有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1