自动审核方法、装置、电子设备及存储介质制造方法及图纸

技术编号:37705380 阅读:16 留言:0更新日期:2023-06-01 23:53
本申请公开了一种自动审核方法、装置、电子设备及存储介质,属于数据处理技术领域。所述方法包括:从待审核图像的文本信息中识别多个字段;根据所述文本信息对应的业务记录,计算各个所述字段的匹配分数和匹配次数;将所述字段的匹配分数输入到至少一个第一决策树中,筛选与所述业务记录关联的目标待审核图像;将所述目标待审核图像中的字段的匹配分数和匹配次数输入到第二决策树中,在所述第二决策树的输出结果表示所述文本信息满足审核规则的情况下,所述业务记录通过审核。所述业务记录通过审核。所述业务记录通过审核。

【技术实现步骤摘要】
自动审核方法、装置、电子设备及存储介质


[0001]本申请属于数据处理
,具体涉及一种自动审核方法、装置、电子设备及存储介质。

技术介绍

[0002]随着信息化的发展,大量数据被存储在计算机系统中。但仍有许多场景需要通过纸质化文件来核对计算机系统中数据的真实性和有效性。
[0003]多数企业采用人工审核的方式,成本较高。相关的自动审核方法使用光学字符识别(Optical Character Recognition,OCR)对纸质文件的影像进行文本识别,将文本结构化解析后存储到数据库,再由计算机系统进行核对。但这种方法对无边框的文本或模糊文本的识别效果差,并且无法识别不同纸质文件的类型,进而无法判断纸质文件中的信息是否有效,导致审核的准确度较低。

技术实现思路

[0004]本申请实施例的目的是提供一种自动审核方法、装置、电子设备及存储介质,能够在降低审核成本的同时,提高自动审核的准确度。
[0005]为了解决上述技术问题,本申请是这样实现的:
[0006]第一方面,本申请实施例提供了一种自动审核的方法,该方法包括:从待审核图像的文本信息中识别多个字段;根据所述文本信息对应的业务记录,计算各个所述字段的匹配分数和匹配次数;将所述字段的匹配分数输入到至少一个第一决策树中,筛选与所述业务记录关联的目标待审核图像;将所述目标待审核图像中的字段的匹配分数和匹配次数输入到第二决策树中,在所述第二决策树的输出结果表示所述文本信息满足审核规则的情况下,所述业务记录通过审核。
[0007]第二方面,本申请实施例提供了一种自动审核装置,该装置包括识别模块,用于从待审核图像的文本信息中识别多个字段;计算模块,用于根据所述文本信息对应的业务记录,计算各个所述字段的匹配分数和匹配次数;筛选模块,用于将所述字段的匹配分数输入到至少一个第一决策树中,筛选与所述业务记录关联的目标待审核图像;审核模块,用于将所述目标待审核图像中的字段的匹配分数和匹配次数输入到第二决策树中,在所述第二决策树的输出结果表示所述文本信息满足审核规则的情况下,所述业务记录通过审核。
[0008]第三方面,本申请实施例提供了一种电子设备,该电子设备包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如第一方面所述的自动审核方法的步骤。
[0009]第四方面,本申请实施例提供了一种可读存储介质,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如第一方面所述的自动审核方法的步骤。
[0010]在本申请实施例中,通过从待审核图像的文本信息中识别多个字段;根据所述文本信息对应的业务记录,计算各个所述字段的匹配分数和匹配次数;将所述字段的匹配分
数输入到至少一个第一决策树中,筛选与所述业务记录关联的目标待审核图像;将所述目标待审核图像中的字段的匹配分数和匹配次数输入到第二决策树中,在所述第二决策树的输出结果表示所述文本信息满足审核规则的情况下,所述业务记录通过审核,能够在降低审核成本的同时,提高自动审核的准确度。
附图说明
[0011]为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0012]图1示出本申请实施例提供的自动审核方法的一种流程示意图;
[0013]图2示出本申请实施例提供的自动审核方法的另一种流程示意图;
[0014]图3示出本申请实施例提供的构造决策树的一种流程示意图;
[0015]图4示出本申请实施例提供的自动审核装置的结构示意图;
[0016]图5示出执行本申请实施例提供的一种电子设备的硬件结构示意图。
具体实施方式
[0017]下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员获得的所有其他实施例,都属于本申请保护的范围。
[0018]本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施,且“第一”、“第二”等所区分的对象通常为一类,并不限定对象的个数,例如第一对象可以是一个,也可以是多个。此外,说明书以及权利要求中“和/或”表示所连接对象的至少其中之一,字符“/”,一般表示前后关联对象是一种“或”的关系。
[0019]下面结合附图,通过具体的实施例及其应用场景对本申请实施例提供的自动审核方法进行详细地说明。
[0020]图1是本申请实施例提供的自动审核方法的一种流程示意图,该方法可以由电子设备执行,例如终端设备或服务端设备。换言之,所述方法可以由安装在终端设备或服务端设备的软件或硬件来执行。所述服务端包括但不限于:单台服务器、服务器集群、云端服务器或云端服务器集群等。如图所示,该方法可以包括以下步骤。
[0021]S101:从待审核图像的文本信息中识别多个字段。
[0022]其中,所述待审核图像可以是身份证、银行卡等证件图像,也可以是票据、清单或者报告等具有文本信息的图像。
[0023]具体的,待审核图像的文本信息可以使用通用文本接口进行提取和识别,再通过数据挖掘的方式获得该文本信息中的关键字段。例如身份证图像,经过数据挖掘后可以将身份证图像中的姓名、民族、性别、出生年月、身份证号、住址等属性字段对应的信息单独提取至文档中。可选的,对上述文本信息中的特殊字符,例如星号、冒号等进行数据过滤,避免
由特殊字符导致后续步骤中的匹配错误。
[0024]S102:根据所述文本信息对应的业务记录,计算各个所述字段的匹配分数和匹配次数。
[0025]具体的,所述业务记录包括但不限于报销申请、理赔申请或休假记录等数据记录。所述业务记录中具有多个字段的信息,根据所述业务记录的字段可以在待审核图像的文本信息中匹配到零个、一个或者多个对应的字段。可选的,1表示匹配到对应的字段,0表示未匹配到对应的字段。每匹配到一次对应的字段,匹配次数加一。例如,业务记录中的姓名字段可以在5张待审核图像的文本信息中匹配到,所述姓名字段的匹配次数和匹配分数为(5,1)。
[0026]S103:将所述字段的匹配分数输入到至少一个第一决策树中,筛选与所述业务记录关联的目标待审核图像。
[0027]具体的,每个所述第一决策树具有一种图像类型的字段的筛选规则。根据所述筛选规则可以批量处理待审核图像,将不符合业务记录的待审核图像删除。例如,业务记录中记录了用户A的住院数据,包括用户A的身份信息、出入院时间和用药记录。若待审核图像本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种自动审核方法,其特征在于,包括:从待审核图像的文本信息中识别多个字段;根据所述文本信息对应的业务记录,计算各个所述字段的匹配分数和匹配次数;将所述字段的匹配分数输入到至少一个第一决策树中,筛选与所述业务记录关联的目标待审核图像;将所述目标待审核图像中的字段的匹配分数和匹配次数输入到第二决策树中,在所述第二决策树的输出结果表示所述文本信息满足审核规则的情况下,所述业务记录通过审核。2.根据权利要求1所述的自动审核方法,其特征在于,所述根据所述文本信息对应的业务记录,计算各个所述字段的匹配分数和匹配次数包括:在所述文本信息中查找与所述业务记录中的数值字段相同的数值字段,在查找到相同的数值字段的情况下,将匹配分数设置为1,匹配次数设置为1;在所述文本信息中查找与所述业务记录中的文本字段所对应的文本字段,在查找到相同的文本字段的情况下,将匹配分数设置为1,匹配次数设置为1。3.根据权利要求2所述的自动审核方法,其特征在于,所述根据所述文本信息对应的业务记录,计算各个所述字段的匹配分数和匹配次数还包括:在无法查找到相同的文本字段的情况下,将所述业务记录中的文本字段拆分为至少一个单词,在所述文本信息中查找与所述单词具有相似度的文本字段,在所述相似度大于预设阈值的情况下,将匹配分数设置为最高的相似度,匹配次数设置为1。4.根据权利要求1所述的自动审核方法,其特征在于,在所述根据所述文本信息对应的业务记录,计算各个所述字段的匹配分数和匹配次数之前,还包括:提取所述文本信息中的任意一个身份标识信息;匹配与所述身份标识信息对应的业务记录。5.根据权利要求1所述的自动审核方法,其特征在于,所述将所述目标待审核图像中的字段的匹配分数和匹配次数输入到第二决策树中,在所述第二决策树的输出结果表示所述文本信息满足审核规则的情况下,所述业务记录通过审核包括:根据各个所述字段的匹配分数和匹配次数计算各个所述字段的综合分数;将所述综合分数输入到第二决策树中,在所述第二决策树的输出结果表示所述综合分数满足审核规则的情况下,所述业务记录通过审核。6....

【专利技术属性】
技术研发人员:冯雨肖潇张郡李宁曾勇胜
申请(专利权)人:中国人民财产保险股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1