基于类增量学习的模型训练方法及装置制造方法及图纸

技术编号：39839224 阅读：7 留言：0更新日期：2023-12-29 16:25

本申请实施例公开了一种基于类增量学习的模型训练方法及装置

全部详细技术资料下载

【技术实现步骤摘要】
基于类增量学习的模型训练方法及装置、设备、存储介质

[0001]本申请实施例涉及命名实体识别
，涉及但不限于一种基于类增量学习的模型训练方法及装置
、
设备
、
存储介质
。

技术介绍

[0002]命名实体识别
(Named Entity Recognition
，
NER)
是自然语言处理中重要的应用，适用于问答系统
、
机器翻译
、
句法分析和知识图谱等任务
。
命名实体识别通过从非结构化文本中提取出命名实体，并将其分类为预定义的实体类别
。
命名实体是指具有特殊意义的实体，如人名
、
地名
、
机构名
、
物品名等
。
[0003]在命名实体识别应用中，可能需要修改
、
新增或删除实体类别，一种简单方法是对所有实体类别进行重新训练，但暂用资源多效率差
。
可以使用增量学习方法，在原有模型的基础上学习新的实体类型，这样可以节省资源且效率更高
。
然而，相关技术中基于知识蒸馏的增量学习方法，命名实体识别模型通过神经网络参数来存储知识，在训练新实体类型时，会对原有模型的参数产生影响，从而影响原有模型的分类能力，此外还可能会将原有模型中的错误信息迁移到新模型中，并随着增量训练次数的增加而累积，导致灾难性遗忘
。
[0004]因此，命名实体识别方法中对新实...

【技术保护点】

【技术特征摘要】
1.
一种基于类增量学习的模型训练方法，其特征在于，所述方法包括：根据样本数据生成器以及旧命名实体模型，获取目标伪样本数据集，所述目标伪样本数据集中包括目标伪样本数据以及与所述目标伪样本数据对应的目标样本标签，所述目标样本标签是通过所述旧命名实体模型对所述目标伪样本数据进行识别得到的，所述目标伪样本数据集中包括由样本数据生成器生成的多个初始伪样本数据中被所述旧命名实体模型正确识别的伪样本数据；根据所述目标伪样本数据集以及增量样本数据集，得到目标样本数据集；所述目标样本数据集包括的样本类型多于所述目标伪样本数据集包括的样本类型；使用所述目标样本数据集对新命名实体模型进行训练，得到训练后的新命名实体模型
。2.
根据权利要求1所述的方法，其特征在于，所述根据样本数据生成器以及旧命名实体模型，获取目标伪样本数据集，包括：使用所述样本数据生成器生成多个初始伪样本数据；使用所述旧命名实体模型对所述多个初始伪样本数据进行识别，得到所述多个初始伪样本数据对应的样本标签；根据每个初始伪样本数据对应的样本标签，使用样本数据选择器从所述多个初始伪样本数据中筛选被所述旧命名实体模型正确识别且不重复的目标伪样本数据；根据所述目标伪样本数据以及对应的目标样本标签，获取所述目标伪样本数据集
。3.
根据权利要求2所述的方法，其特征在于，所述根据每个初始伪样本数据对应的样本标签，使用样本数据选择器从所述多个初始伪样本数据中筛选被所述旧命名实体模型正确识别且不重复的目标伪样本数据，包括：根据每个初始伪样本数据对应的样本标签，计算不同样本标签对应的多个被所述旧命名实体模型正确识别且不重复的初始伪样本数据的特征，并求均值，从而得到不同样本标签对应的类特征均值；计算不同样本标签对应的多个初始伪样本数据的特征与对应类特征均值的距离，得到最小距离和最大距离；在不同样本标签对应的新生成的初始伪样本数据中，选取特征与对应类特征均值之间的距离在所述最小距离和所述最大距离组成的区间内的初始伪样本数据作为目标伪样本数据
。4.
根据权利要求1所述的方法，其特征在于，所述使用所述目标样本数据集对新命名实体模型进行训练，得到训练后的新命名实体模型，包括：根据基于余弦正则化的知识蒸馏算法，对所述新命名实体模型的权重参数进行调参处理，进行调参处理后的所述新命名实体模型对增量样本数据的分类权重小于进行所述调参处理前所述新命名实体模型对增量样本数据的分类权重；根据所述旧命名实体模型与所述新命名实体模型分别对应的权重参数和特征向量，计算知识蒸馏损失；根据所述知识蒸馏损失对所述新命名实体模型进行训练，得到训练后的新命名实体模型
。5.
根据权利要求4所述的方法，其特...

【专利技术属性】
技术研发人员：肖清，许程冲，杜量，黄莉梅，马志豪，赵文博，吕召彪，
申请(专利权)人：联通广东产业互联网有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人