识别模型训练方法及装置制造方法及图纸

技术编号：29963825 阅读：20 留言：0更新日期：2021-09-08 09:27

本申请提供识别模型训练方法及装置，其中，所述方法包括获取多个目标样本文档，并将每个目标样本文档输入解析模型，获得每个目标样本文档的多个目标文本以及每个目标文本的实体类型；基于每个目标文本的实体类型，以及每个目标文本与其他目标文本之间的距离，确定每个目标文本与其他目标文本之间的关联关系；将所述目标文本作为目标样本文本，将所述目标文本与其他目标文本之间的关联关系作为所述目标样本文本的目标样本标签；基于所述目标样本文本以及所述目标样本文本对应的目标样本标签对识别模型进行训练，以获得训练后的所述识别模型。识别模型。识别模型。

全部详细技术资料下载

【技术实现步骤摘要】
识别模型训练方法及装置

[0001]本申请涉及计算机
，特别涉及一种识别模型训练方法。本申请同时涉及一种识别模型训练装置，一种文档识别方法，一种文档识别装置，一种计算设备，以及一种计算机可读存储介质。

技术介绍

[0002]目前的合同信息抽取，一般采用的是传统的NER(实体识别)方法，识别预先定义好的实体类型，比如预先定义人名、组织名等实体类型，通过大量数据训练BRET网络，预测实体BIO标签与文本的关系；但是当合同中出现新的感兴趣的实体类型时，之前的BRET网络就需要重新训练，BRET网络的推广性较差，用户体验不好。

技术实现思路

[0003]有鉴于此，本申请实施例提供了一种识别模型训练方法。本申请同时涉及一种识别模型训练装置，一种文档识别方法，一种文档识别装置，一种计算设备，以及一种计算机可读存储介质，以解决现有技术中存在的网络的推广性较差，用户体验不好的技术问题。
[0004]根据本申请实施例的第一方面，提供了一种识别模型训练方法，包括：
[0005]对获取的目标样本文档进行解析，获得每个目标样本文档的多个目标文本以及每个目标文本的实体类型；
[0006]基于每个目标文本的实体类型，以及每个目标文本与其他目标文本之间的距离，确定每个目标文本与其他目标文本之间的关联关系；
[0007]将所述目标文本作为目标样本文本，将所述目标文本与其他目标文本之间的关联关系作为所述目标样本文本的目标样本标签；
[0008]基于所述目标样本文本以及所述目标样本文本对应的...

【技术保护点】

【技术特征摘要】
1.一种识别模型训练方法，其特征在于，包括：对获取的目标样本文档进行解析，获得每个目标样本文档的多个目标文本以及每个目标文本的实体类型；基于每个目标文本的实体类型，以及每个目标文本与其他目标文本之间的距离，确定每个目标文本与其他目标文本之间的关联关系；将所述目标文本作为目标样本文本，将所述目标文本与其他目标文本之间的关联关系作为所述目标样本文本的目标样本标签；基于所述目标样本文本以及所述目标样本文本对应的目标样本标签对识别模型进行训练，以获得训练后的所述识别模型。2.根据权利要求1所述的识别模型训练方法，其特征在于，所述对获取的目标样本文档进行解析，获得每个目标样本文档的多个目标文本以及每个目标文本的实体类型，包括：将获取的多个目标样本文档输入解析模型，获得每个目标样本文档的多个目标文本以及每个目标文本的实体类型。3.根据权利要求2所述的识别模型训练方法，其特征在于，所述解析模型通过以下步骤训练：获取多个初始样本文档，并确定每个初始样本文档中的目标文本以及所述目标文本的实体类型；将所述目标文本作为初始样本文本，将所述目标文本的实体类型作为初始样本标签；基于所述初始样本文本以及所述初始样本文本对应的初始样本标签对解析模型进行训练，以获得训练后的所述解析模型。4.根据权利要求3所述的识别模型训练方法，其特征在于，所述确定每个初始样本文档中的目标文本以及所述目标文本的实体类型，包括：通过BIO标注确定每个初始样本文档中的目标文本，且为所述目标文本设置对应的实体类型。5.根据权利要求3所述的识别模型训练方法，其特征在于，所述确定每个初始样本文档中的目标文本以及所述目标文本的实体类型，包括：对每个初始样本文档进行分区获得多个初始文本，将每个初始文本输入实体识别模型，获得包含实体的初始文本；将包含实体的初始文本作为目标文本，且为所述目标文本设置对应的实体类型。6.根据权利要求1
‑
5任意一项所述的识别模型训练方法，其特征在于，所述基于每个目标文本的实体类型，以及每个目标文本与其他目标文本之间的距离，确定每个目标文本与其他目标文本之间的关联关系，包括：确定与每个目标文本的实体类型对应的关联实体类型，并确定所述关联实体类型对应的其他目标文本；确定所述目标文本与所述关联实体类型对应的每个其他目标文本之间的编辑距离；将编辑距离最小的所述其他目标文本作为所述目标文本的关联目标文本。7.根据权利要求6所述的识别模型训练方法，其特征在于，所述将所述目标文本作为目标样本文本，将所述目标文本与其...

【专利技术属性】
技术研发人员：王安，李长亮，
申请(专利权)人：北京金山数字娱乐科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人