识别模型训练方法及装置制造方法及图纸

技术编号:29963825 阅读:20 留言:0更新日期:2021-09-08 09:27
本申请提供识别模型训练方法及装置,其中,所述方法包括获取多个目标样本文档,并将每个目标样本文档输入解析模型,获得每个目标样本文档的多个目标文本以及每个目标文本的实体类型;基于每个目标文本的实体类型,以及每个目标文本与其他目标文本之间的距离,确定每个目标文本与其他目标文本之间的关联关系;将所述目标文本作为目标样本文本,将所述目标文本与其他目标文本之间的关联关系作为所述目标样本文本的目标样本标签;基于所述目标样本文本以及所述目标样本文本对应的目标样本标签对识别模型进行训练,以获得训练后的所述识别模型。识别模型。识别模型。

【技术实现步骤摘要】
识别模型训练方法及装置


[0001]本申请涉及计算机
,特别涉及一种识别模型训练方法。本申请同时涉及一种识别模型训练装置,一种文档识别方法,一种文档识别装置,一种计算设备,以及一种计算机可读存储介质。

技术介绍

[0002]目前的合同信息抽取,一般采用的是传统的NER(实体识别)方法,识别预先定义好的实体类型,比如预先定义人名、组织名等实体类型,通过大量数据训练BRET网络,预测实体BIO标签与文本的关系;但是当合同中出现新的感兴趣的实体类型时,之前的BRET网络就需要重新训练,BRET网络的推广性较差,用户体验不好。

技术实现思路

[0003]有鉴于此,本申请实施例提供了一种识别模型训练方法。本申请同时涉及一种识别模型训练装置,一种文档识别方法,一种文档识别装置,一种计算设备,以及一种计算机可读存储介质,以解决现有技术中存在的网络的推广性较差,用户体验不好的技术问题。
[0004]根据本申请实施例的第一方面,提供了一种识别模型训练方法,包括:
[0005]对获取的目标样本文档进行解析,获得每个目标样本文档的多个目标文本以及每个目标文本的实体类型;
[0006]基于每个目标文本的实体类型,以及每个目标文本与其他目标文本之间的距离,确定每个目标文本与其他目标文本之间的关联关系;
[0007]将所述目标文本作为目标样本文本,将所述目标文本与其他目标文本之间的关联关系作为所述目标样本文本的目标样本标签;
[0008]基于所述目标样本文本以及所述目标样本文本对应的目标样本标签对识别模型进行训练,以获得训练后的所述识别模型。
[0009]根据本申请实施例的第二方面,提供了一种文档识别方法,包括:
[0010]接收携带有目标文档的文档识别请求,将所述目标文档输入解析模型,获得所述目标文档的多个目标文本以及每个目标文本的实体类型;
[0011]将所述多个目标文本以及每个目标文本的实体类型输入识别模型,获得所述目标文本的每个目标文本以及与所述每个目标文本对应的关联目标文本。
[0012]根据本申请实施例的第三方面,提供了一种识别模型训练装置,包括:
[0013]目标样本文档获取模块,被配置为对获取的目标样本文档进行解析,获得每个目标样本文档的多个目标文本以及每个目标文本的实体类型;
[0014]关联关系确定模块,被配置为基于每个目标文本的实体类型,以及每个目标文本与其他目标文本之间的距离,确定每个目标文本与其他目标文本之间的关联关系;
[0015]训练样本数据构建模块,被配置为将所述目标文本作为目标样本文本,将所述目标文本与其他目标文本之间的关联关系作为所述目标样本文本的目标样本标签;
[0016]识别模型训练模块,被配置为基于所述目标样本文本以及所述目标样本文本对应的目标样本标签对识别模型进行训练,以获得训练后的所述识别模型。
[0017]根据本申请实施例的第四方面,提供了一种文档识别装置,包括:
[0018]文档接收模块,被配置为接收携带有目标文档的文档识别请求,将所述目标文档输入解析模型,获得所述目标文档的多个目标文本以及每个目标文本的实体类型;
[0019]目标文本识别模块,被配置为将所述多个目标文本以及每个目标文本的实体类型输入识别模型,获得所述目标文本的每个目标文本以及与所述每个目标文本对应的关联目标文本。
[0020]根据本申请实施例的第五方面,提供了一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,所述处理器执行所述指令时实现所述识别模型训练方法或所述文档识别方法的步骤。
[0021]根据本申请实施例的第六方面,提供了一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时实现所述识别模型训练方法或所述文档识别方法的步骤。
[0022]本申请提供的一种识别模型训练方法及装置,其中,所述方法包括对获取的目标样本文档进行解析,获得每个目标样本文档的多个目标文本以及每个目标文本的实体类型;基于每个目标文本的实体类型,以及每个目标文本与其他目标文本之间的距离,确定每个目标文本与其他目标文本之间的关联关系;将所述目标文本作为目标样本文本,将所述目标文本与其他目标文本之间的关联关系作为所述目标样本文本的目标样本标签;基于所述目标样本文本以及所述目标样本文本对应的目标样本标签对识别模型进行训练,以获得训练后的所述识别模型。具体的,所述方法可以基于解析模型获得每个目标样本文档的多个目标文本以及每个目标文本的抽象实体类型,结合目标文本之间的距离信息,构造训练样本数据,通过构造的训练样本数据实现对识别模型的训练,使得后续识别模型在具体应用时可以不限定实体类型,当出现新的实体时,可以迅速训练网络进行识别,使得训练获得的识别模型可以识别不同实体间的关系,极大的提高了识别模型的适用范围,提升用户体验。
附图说明
[0023]图1是本申请一实施例提供的一种识别模型训练方法的流程图;
[0024]图2是本申请一实施例提供的一种识别模型训练方法中初始样本文档的示意图;
[0025]图3是本申请一实施例提供的一种文档识别方法的的流程图;
[0026]图4是本申请一实施例提供的一种所述文档识别方法在对合同信息识别的示意图;
[0027]图5是本申请一实施例提供的一种识别模型训练装置的结构示意图;
[0028]图6是本申请一实施例提供的一种文档识别装置的结构示意图;
[0029]图7是本申请一实施例提供的一种计算设备的结构框图。
具体实施方式
[0030]在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况
下做类似推广,因此本申请不受下面公开的具体实施的限制。
[0031]在本申请一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请一个或多个实施例。在本申请一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本申请一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
[0032]应当理解,尽管在本申请一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。取决于语境,如在此所使用的词语“如果”可以被解释成为“在
……
时”或“当
……
时”或“响应于确定”。
[0033]首先,对本申请一个或多个实施例涉及的名词术语进行解释。
[0034]NER:实体识别,全称Named Entity Recognition本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种识别模型训练方法,其特征在于,包括:对获取的目标样本文档进行解析,获得每个目标样本文档的多个目标文本以及每个目标文本的实体类型;基于每个目标文本的实体类型,以及每个目标文本与其他目标文本之间的距离,确定每个目标文本与其他目标文本之间的关联关系;将所述目标文本作为目标样本文本,将所述目标文本与其他目标文本之间的关联关系作为所述目标样本文本的目标样本标签;基于所述目标样本文本以及所述目标样本文本对应的目标样本标签对识别模型进行训练,以获得训练后的所述识别模型。2.根据权利要求1所述的识别模型训练方法,其特征在于,所述对获取的目标样本文档进行解析,获得每个目标样本文档的多个目标文本以及每个目标文本的实体类型,包括:将获取的多个目标样本文档输入解析模型,获得每个目标样本文档的多个目标文本以及每个目标文本的实体类型。3.根据权利要求2所述的识别模型训练方法,其特征在于,所述解析模型通过以下步骤训练:获取多个初始样本文档,并确定每个初始样本文档中的目标文本以及所述目标文本的实体类型;将所述目标文本作为初始样本文本,将所述目标文本的实体类型作为初始样本标签;基于所述初始样本文本以及所述初始样本文本对应的初始样本标签对解析模型进行训练,以获得训练后的所述解析模型。4.根据权利要求3所述的识别模型训练方法,其特征在于,所述确定每个初始样本文档中的目标文本以及所述目标文本的实体类型,包括:通过BIO标注确定每个初始样本文档中的目标文本,且为所述目标文本设置对应的实体类型。5.根据权利要求3所述的识别模型训练方法,其特征在于,所述确定每个初始样本文档中的目标文本以及所述目标文本的实体类型,包括:对每个初始样本文档进行分区获得多个初始文本,将每个初始文本输入实体识别模型,获得包含实体的初始文本;将包含实体的初始文本作为目标文本,且为所述目标文本设置对应的实体类型。6.根据权利要求1

5任意一项所述的识别模型训练方法,其特征在于,所述基于每个目标文本的实体类型,以及每个目标文本与其他目标文本之间的距离,确定每个目标文本与其他目标文本之间的关联关系,包括:确定与每个目标文本的实体类型对应的关联实体类型,并确定所述关联实体类型对应的其他目标文本;确定所述目标文本与所述关联实体类型对应的每个其他目标文本之间的编辑距离;将编辑距离最小的所述其他目标文本作为所述目标文本的关联目标文本。7.根据权利要求6所述的识别模型训练方法,其特征在于,所述将所述目标文本作为目标样本文本,将所述目标文本与其...

【专利技术属性】
技术研发人员:王安李长亮
申请(专利权)人:北京金山数字娱乐科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1