基于类增量学习的模型训练方法及装置制造方法及图纸

技术编号:39839224 阅读:7 留言:0更新日期:2023-12-29 16:25
本申请实施例公开了一种基于类增量学习的模型训练方法及装置

【技术实现步骤摘要】
基于类增量学习的模型训练方法及装置、设备、存储介质


[0001]本申请实施例涉及命名实体识别
,涉及但不限于一种基于类增量学习的模型训练方法及装置

设备

存储介质


技术介绍

[0002]命名实体识别
(Named Entity Recognition

NER)
是自然语言处理中重要的应用,适用于问答系统

机器翻译

句法分析和知识图谱等任务

命名实体识别通过从非结构化文本中提取出命名实体,并将其分类为预定义的实体类别

命名实体是指具有特殊意义的实体,如人名

地名

机构名

物品名等

[0003]在命名实体识别应用中,可能需要修改

新增或删除实体类别,一种简单方法是对所有实体类别进行重新训练,但暂用资源多效率差

可以使用增量学习方法,在原有模型的基础上学习新的实体类型,这样可以节省资源且效率更高

然而,相关技术中基于知识蒸馏的增量学习方法,命名实体识别模型通过神经网络参数来存储知识,在训练新实体类型时,会对原有模型的参数产生影响,从而影响原有模型的分类能力,此外还可能会将原有模型中的错误信息迁移到新模型中,并随着增量训练次数的增加而累积,导致灾难性遗忘

[0004]因此,命名实体识别方法中对新实体类别进行训练而导致的灾难性遗忘,是一个亟待解决的问题


技术实现思路

[0005]有鉴于此,本申请实施例提供的基于类增量学习的模型训练方法及装置

设备

存储介质,能够缓解命名实体识别模型训练过程中的灾难性遗忘情况,即避免延续旧模型分类错误和提高训练后对旧样本分类准确性,并且无需存储旧样本数据集

本申请实施例提供的基于类增量学习的模型训练方法及装置

设备

存储介质是这样实现的:
[0006]本申请实施例提供的基于类增量学习的模型训练方法,包括:
[0007]根据样本数据生成器以及旧命名实体模型,获取目标伪样本数据集,所述目标伪样本数据集中包括目标伪样本数据以及与所述目标伪样本数据对应的目标样本标签,所述目标样本标签是通过所述旧命名实体模型对所述目标伪样本数据进行识别得到的,所述目标伪样本数据集中包括由样本数据生成器生成的多个初始伪样本数据中被所述旧命名实体模型正确识别的伪样本数据;
[0008]根据所述目标伪样本数据集以及增量样本数据集,得到目标样本数据集;所述目标样本数据集包括的样本类型多于所述目标伪样本数据集包括的样本类型;
[0009]使用所述目标样本数据集对新命名实体模型进行训练,得到训练后的新命名实体模型

[0010]在一些实施例中,所述根据样本数据生成器以及旧命名实体模型,获取目标伪样本数据集,包括:
[0011]使用所述样本数据生成器生成多个初始伪样本数据;
[0012]使用所述旧命名实体模型对所述多个初始伪样本数据进行识别,得到所述多个初始伪样本数据对应的样本标签;
[0013]根据每个初始伪样本数据对应的样本标签,使用样本数据选择器从所述多个初始伪样本数据中筛选被所述旧命名实体模型正确识别且不重复的目标伪样本数据;
[0014]根据所述目标伪样本数据以及对应的目标样本标签,获取所述目标伪样本数据集

[0015]在一些实施例中,所述根据每个初始伪样本数据对应的样本标签,使用样本数据选择器从所述多个初始伪样本数据中筛选被所述旧命名实体模型正确识别且不重复的目标伪样本数据,包括:
[0016]根据每个初始伪样本数据对应的样本标签,计算不同样本标签对应的多个被所述旧命名实体模型正确识别且不重复的初始伪样本数据的特征,并求均值,从而得到不同样本标签对应的类特征均值;
[0017]计算不同样本标签对应的多个初始伪样本数据的特征与对应类特征均值的距离,得到最小距离和最大距离;
[0018]在不同样本标签对应的新生成的初始伪样本数据中,选取特征与对应类特征均值之间的距离在所述最小距离和所述最大距离组成的区间内的初始伪样本数据作为目标伪样本数据

[0019]在一些实施例中,所述使用所述目标样本数据集对新命名实体模型进行训练,得到训练后的新命名实体模型,包括:
[0020]根据基于余弦正则化的知识蒸馏算法,对所述新命名实体模型的权重参数进行调参处理,进行调参处理后的所述新命名实体模型对增量样本数据的分类权重小于进行所述调参处理前所述新命名实体模型对增量样本数据的分类权重;
[0021]根据所述旧命名实体模型与所述新命名实体模型分别对应的权重参数和特征向量,计算知识蒸馏损失;
[0022]根据所述知识蒸馏损失对所述新命名实体模型进行训练,得到训练后的新命名实体模型

[0023]在一些实施例中,根据所述知识蒸馏损失对所述新命名实体模型进行训练,得到训练后的新命名实体模型,包括:
[0024]根据的所述增量样本数据集对应的不同样本标签的数目,对所述新命名实体模型的标签空间进行扩展处理;
[0025]根据所述旧命名实体模型与所述新命名实体模型分别对应的分类层的输出结果,计算最小化交叉熵损失;
[0026]根据预设的平衡系数,对所述知识蒸馏损失和所述最小化交叉熵损失进行加权相加,得到所述新命名实体模型在训练过程中的总损失系数;
[0027]根据所述总损失系数对所述新命名实体模型进行训练,得到训练后的新命名实体模型

[0028]在一些实施例中,在所述根据所述目标伪样本数据集以及增量样本数据集,得到目标样本数据集后,所述方法还包括:
[0029]根据所述目标样本数据集对所述样本数据生成器进行训练,更新所述样本数据生
成器的参数,根据更新后的样本数据生成器,获取新目标样本数据集;所述新目标样本数据集包括的样本类型多于所述目标样本数据集包括的样本类型;
[0030]所述使用所述目标样本数据集对新命名实体模型进行训练,得到训练后的新命名实体模型,包括:
[0031]使用所述新目标样本数据集对新命名实体模型进行训练,得到训练后的新命名实体模型

[0032]在一些实施例中,所述样本数据生成器包含编码器和解码器,所述根据样本数据生成器以及旧命名实体模型,获取目标伪样本数据集,包括:
[0033]通过所述编码器提取旧命名实体模型对应的旧类别数据的类别特征;
[0034]通过所述解码器根据所述类别特征生成所述伪样本数据

[0035]本申请实施例提供的基于类增量学习的模型训练方法装置,包括:
[0036]生成模块本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种基于类增量学习的模型训练方法,其特征在于,所述方法包括:根据样本数据生成器以及旧命名实体模型,获取目标伪样本数据集,所述目标伪样本数据集中包括目标伪样本数据以及与所述目标伪样本数据对应的目标样本标签,所述目标样本标签是通过所述旧命名实体模型对所述目标伪样本数据进行识别得到的,所述目标伪样本数据集中包括由样本数据生成器生成的多个初始伪样本数据中被所述旧命名实体模型正确识别的伪样本数据;根据所述目标伪样本数据集以及增量样本数据集,得到目标样本数据集;所述目标样本数据集包括的样本类型多于所述目标伪样本数据集包括的样本类型;使用所述目标样本数据集对新命名实体模型进行训练,得到训练后的新命名实体模型
。2.
根据权利要求1所述的方法,其特征在于,所述根据样本数据生成器以及旧命名实体模型,获取目标伪样本数据集,包括:使用所述样本数据生成器生成多个初始伪样本数据;使用所述旧命名实体模型对所述多个初始伪样本数据进行识别,得到所述多个初始伪样本数据对应的样本标签;根据每个初始伪样本数据对应的样本标签,使用样本数据选择器从所述多个初始伪样本数据中筛选被所述旧命名实体模型正确识别且不重复的目标伪样本数据;根据所述目标伪样本数据以及对应的目标样本标签,获取所述目标伪样本数据集
。3.
根据权利要求2所述的方法,其特征在于,所述根据每个初始伪样本数据对应的样本标签,使用样本数据选择器从所述多个初始伪样本数据中筛选被所述旧命名实体模型正确识别且不重复的目标伪样本数据,包括:根据每个初始伪样本数据对应的样本标签,计算不同样本标签对应的多个被所述旧命名实体模型正确识别且不重复的初始伪样本数据的特征,并求均值,从而得到不同样本标签对应的类特征均值;计算不同样本标签对应的多个初始伪样本数据的特征与对应类特征均值的距离,得到最小距离和最大距离;在不同样本标签对应的新生成的初始伪样本数据中,选取特征与对应类特征均值之间的距离在所述最小距离和所述最大距离组成的区间内的初始伪样本数据作为目标伪样本数据
。4.
根据权利要求1所述的方法,其特征在于,所述使用所述目标样本数据集对新命名实体模型进行训练,得到训练后的新命名实体模型,包括:根据基于余弦正则化的知识蒸馏算法,对所述新命名实体模型的权重参数进行调参处理,进行调参处理后的所述新命名实体模型对增量样本数据的分类权重小于进行所述调参处理前所述新命名实体模型对增量样本数据的分类权重;根据所述旧命名实体模型与所述新命名实体模型分别对应的权重参数和特征向量,计算知识蒸馏损失;根据所述知识蒸馏损失对所述新命名实体模型进行训练,得到训练后的新命名实体模型
。5.
根据权利要求4所述的方法,其特...

【专利技术属性】
技术研发人员:肖清许程冲杜量黄莉梅马志豪赵文博吕召彪
申请(专利权)人:联通广东产业互联网有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1