文档信息的处理方法、装置及电子设备制造方法及图纸

技术编号:38152634 阅读:14 留言:0更新日期:2023-07-13 09:18
本发明专利技术公开了一种文档信息的处理方法、装置及电子设备,涉及人工智能技术领域。其中,该方法包括:获取目标文档的文本信息,其中,文本信息表征信贷业务审批过程中产生的审批信息;基于目标匹配模型对文本信息中与目标对象的需求相对应的关键语句信息进行提取,得到目标语句信息;根据至少一个短文本语句信息的上下文对目标语句信息进行分类处理,得到目标语句信息对应的多个分类类别的概率值;根据概率值,从多个分类类别中确定目标语句信息所对应的目标类别。本发明专利技术解决了现有技术中采用神经网络模型对文档信息中的长文本进行语义识别,存在识别准确率低的技术问题。存在识别准确率低的技术问题。存在识别准确率低的技术问题。

【技术实现步骤摘要】
文档信息的处理方法、装置及电子设备


[0001]本专利技术涉及人工智能
,具体而言,涉及一种文档信息的处理方法、装置及电子设备。

技术介绍

[0002]信贷审批是银行等金融机构经营管理的一项重要工作,是对信贷客户信用状态全面判断和信贷资产风险全面把控的最后一道关口。传统的信贷审批流程主要包括贷前调查、贷中审查、贷后管理三个方面,每笔信贷业务的审批流程都可以体现在一份信贷审批书中。
[0003]近年来,随着数据资产的不断增长,信贷审批书的数量也日益增多。随着人工智能技术的迅速发展,相关技术中逐渐利用机器学习、深度学习技术来定位用户所关注的信息,以代替传统的采用人工读取信贷审批书获取语义信息的方式。
[0004]然而,通过机器学习技术进行语义识别只能识别出长文本中部分重点信息的语义,并且语义识别效果取决于对数据的处理程度和特征工程的好坏;通过深度学习技术进行语义识别也是将整个长文本作为神经网络的输入,得到的语义识别效果有限,存在识别准确率低的问题。
[0005]针对上述的问题,目前尚未提出有效的解决方案。

技术实现思路

[0006]本专利技术实施例提供了一种文档信息的处理方法、装置及电子设备,以至少解决现有技术中采用神经网络模型对文档信息中的长文本进行语义识别,存在识别准确率低的技术问题。
[0007]根据本专利技术实施例的一个方面,提供了一种文档信息的处理方法,包括:获取目标文档的文本信息,其中,文本信息表征信贷业务审批过程中产生的审批信息;基于目标匹配模型对文本信息中与目标对象的需求相对应的关键语句信息进行提取,得到目标语句信息,其中,目标匹配模型是根据多个匹配规则构建的,多个匹配规则至少包括第一匹配规则和第二匹配规则,目标语句信息由至少一个短文本语句信息构成;根据至少一个短文本语句信息的上下文对目标语句信息进行分类处理,得到目标语句信息对应的多个分类类别的概率值;根据概率值,从多个分类类别中确定目标语句信息所对应的目标类别,其中,目标类别与信贷业务审批过程中的目标审批流程相对应。
[0008]进一步地,文档信息的处理方法还包括:从至少一个解析器中确定与目标文档的文档类型对应的目标解析器;基于目标解析器,对文本信息按照第一匹配规则进行信息提取,得到第一语句信息;基于目标解析器,对第一语句信息按照第二匹配规则进行信息提取,得到目标语句信息,其中,第一匹配规则与第二匹配规则为父子层级结构的规则。
[0009]进一步地,文档信息的处理方法还包括:根据至少一个短文本语句信息的上下文,确定目标语句信息对应的多个词向量,其中,每个词向量与目标语句信息中的每个字相对
应;对多个词向量进行平均计算,得到目标语句信息对应的目标向量;将目标向量输入目标分类器进行分类处理,输出概率值。
[0010]进一步地,文档信息的处理方法还包括:确定多个分类类别中最大概率值所对应的分类类别为目标类别。
[0011]进一步地,文档信息的处理方法还包括:对目标文档的第一文本区域构建第一正则表达式,得到第一匹配规则,其中,第一文本区域为目标对象关注的文本区域;对第一文本区域的目标区域构建第二正则表达式,得到第二匹配规则,其中,目标区域为包含目标语句信息的文本区域。
[0012]进一步地,文档信息的处理方法还包括:基于目标对象的需求,配置多个分类类别。
[0013]进一步地,文档信息的处理方法还包括:基于目标类别,从目标文档中筛选目标语句信息。
[0014]根据本专利技术实施例的另一方面,还提供了一种文档信息的处理装置,包括:获取模块,用于获取目标文档的文本信息,其中,文本信息表征信贷业务审批过程中产生的审批信息;第一处理模块,用于基于目标匹配模型对文本信息中与目标对象的需求相对应的关键语句信息进行提取,得到目标语句信息,其中,目标匹配模型是根据多个匹配规则构建的,多个匹配规则至少包括第一匹配规则和第二匹配规则,目标语句信息由至少一个短文本语句信息构成;第二处理模块,用于根据至少一个短文本语句信息的上下文对目标语句信息进行分类处理,得到目标语句信息对应的多个分类类别的概率值;确定模块,用于根据概率值,从多个分类类别中确定目标语句信息所对应的目标类别,其中,目标类别与信贷业务审批过程中的目标审批流程相对应。
[0015]根据本专利技术实施例的另一方面,还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有计算机程序,其中,计算机程序被设置为运行时执行上述的文档信息的处理方法。
[0016]根据本专利技术实施例的另一方面,还提供了一种电子设备,该电子设备包括一个或多个处理器;存储器,用于存储一个或多个程序,当一个或多个程序被一个或多个处理器执行时,使得一个或多个处理器实现用于运行程序,其中,程序被设置为运行时执行上述的文档信息的处理方法。
[0017]在本专利技术实施例中,采用通过目标匹配模型提取出目标语句信息,并对目标语句信息进行分类处理的方式,首先获取目标文档的文本信息,然后基于目标匹配模型对文本信息中与目标对象的需求相对应的关键语句信息进行提取,得到目标语句信息,然后根据至少一个短文本语句信息的上下文对目标语句信息进行分类处理,得到目标语句信息对应的多个分类类别的概率值,然后根据概率值,从多个分类类别中确定目标语句信息所对应的目标类别。其中,目标类别与信贷业务审批过程中的目标审批流程相对应,文本信息表征信贷业务审批过程中产生的审批信息,目标匹配模型是根据多个匹配规则构建的,多个匹配规则至少包括第一匹配规则和第二匹配规则,目标语句信息由至少一个短文本语句信息构成。
[0018]在上述过程中,通过获取目标文档的文本信息,为后续提取关键语句信息提供了数据基础;通过目标匹配模型可以将目标对象关注的关键语句信息提取出来,实现了对目
标语句信息的高效识别、快速提取;根据至少一个短文本语句信息的上下文对目标语句信息进行分类处理,与现有技术中对长文本进行语义识别相比,准确率更高,显著提高了语义识别效果。并且,减少了人工读取目标文档的工作量,从而节省了人工成本和时间成本,进而提高了对目标文档的处理效率。
[0019]由此可见,通过本专利技术的技术方案,达到了提高对目标文档的处理效率的目的,从而实现了提高对目标对象关注的关键语句信息的语义识别准确率的技术效果,进而解决了现有技术中采用神经网络模型对文档信息中的长文本进行语义识别,存在识别准确率低的技术问题。
附图说明
[0020]此处所说明的附图用来提供对本专利技术的进一步理解,构成本申请的一部分,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中:
[0021]图1是根据本专利技术实施例的一种可选的文档信息的处理方法的流程图;
[0022]图2是根据本专利技术实施例的一种可选的文档信息的语义分析的流程图;
[0023]图3是根据本专利技术实施例的一种可选的信贷审批书的示意图;
[0024]图4是根据本专利技术实施例的一种可选的关键信息提取的流程图;
[0本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文档信息的处理方法,其特征在于,包括:获取目标文档的文本信息,其中,所述文本信息表征信贷业务审批过程中产生的审批信息;基于目标匹配模型对所述文本信息中与目标对象的需求相对应的关键语句信息进行提取,得到目标语句信息,其中,所述目标匹配模型是根据多个匹配规则构建的,所述多个匹配规则至少包括第一匹配规则和第二匹配规则,所述目标语句信息由至少一个短文本语句信息构成;根据所述至少一个短文本语句信息的上下文对所述目标语句信息进行分类处理,得到所述目标语句信息对应的多个分类类别的概率值;根据所述概率值,从所述多个分类类别中确定所述目标语句信息所对应的目标类别,其中,所述目标类别与所述信贷业务审批过程中的目标审批流程相对应。2.根据权利要求1所述的方法,其特征在于,所述目标匹配模型包括至少一个解析器,基于目标匹配模型对所述文本信息中与目标对象的需求相对应的关键语句信息进行提取,得到目标语句信息,包括:从所述至少一个解析器中确定与所述目标文档的文档类型对应的目标解析器;基于所述目标解析器,对所述文本信息按照所述第一匹配规则进行信息提取,得到第一语句信息;基于所述目标解析器,对所述第一语句信息按照所述第二匹配规则进行信息提取,得到所述目标语句信息,其中,所述第一匹配规则与所述第二匹配规则为父子层级结构的规则。3.根据权利要求1所述的方法,其特征在于,根据所述至少一个短文本语句信息的上下文对所述目标语句信息进行分类处理,得到所述目标语句信息对应的多个分类类别的概率值,包括:根据所述至少一个短文本语句信息的上下文,确定所述目标语句信息对应的多个词向量,其中,每个词向量与所述目标语句信息中的每个字相对应;对所述多个词向量进行平均计算,得到所述目标语句信息对应的目标向量;将所述目标向量输入目标分类器进行分类处理,输出所述概率值。4.根据权利要求3所述的方法,其特征在于,根据所述概率值,从所述多个分类类别中确定所述目标语句信息所对应的目标类别,包括:确定所述多个分类类别中最大概率值所对应的分类类别为所述目标类别。5.根据权利要求1所述的方法,其特征在于,在基于目标匹配模型对所述文本信息中与目标对象的需求相对应的关键语句信息进行提取,得到目标语句...

【专利技术属性】
技术研发人员:翁兆琦裴凯洋
申请(专利权)人:中国工商银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1