模型训练方法、装置、电子设备和存储介质制造方法及图纸

技术编号：38223998 阅读：9 留言：0更新日期：2023-07-25 17:55

本申请公开了一种模型训练方法、装置、电子设备和存储介质；本申请可以获取预训练模型和目标模型；获取无标注样本组和标注样本组，以及无标注概率和标注概率；基于无标注概率和标注概率，分别对无标注样本组和标注样本组进行线性组合，得到无标注样本组对应的无标注扩增样本和标注样本组对应的标注扩增样本；基于无标注扩增样本和预训练模型，对目标模型进行初步训练；基于标注扩增样本和预训练模型，对初步训练后的目标模型进行再次训练，得到训练好的目标模型。在本申请中，通过对无标注样本和标注样本进行扩增并结合预训练模型来训练目标模型，可以提升目标模型的泛化性和鲁棒性。由此，本方案可以提升目标模型的性能。本方案可以提升目标模型的性能。本方案可以提升目标模型的性能。

全部详细技术资料下载

【技术实现步骤摘要】
模型训练方法、装置、电子设备和存储介质

[0001]本申请涉及人工智能
，具体涉及一种模型训练方法、装置、电子设备和存储介质。

技术介绍

[0002]为了从数据量越来越大且信息冗余度高的数据集中提取出有效信息，需要的深度学习模型的规模也越来越大，甚至可能需要将多个深度学习模型集成。但是大规模的预训练模型的推断速度慢、对部署的资源要求高(例如，容量更大的内存、性能更高的显存等)，使得大规模的预训练模型不利于部署在具体的任务中。
[0003]因此，目前提出了知识蒸馏，即一种模型压缩的方法，知识蒸馏可以将大规模的预训练模型学习到的知识迁移到目标模型中，使得目标模型可以完成大规模的预训练模型原本能实现的任务。
[0004]然而，目前知识迁移后的目标模型的性能较差。

技术实现思路

[0005]本申请提供一种模型训练方法、装置、电子设备和存储介质，可以提升目标模型的性能。
[0006]本申请提供一种模型训练方法，包括：
[0007]获取预训练模型和目标模型；
[0008]获取无标注样本组和标注样本组，以及无标注概率和标注概率，无标注样本组中包括至少两个无标注样本，标注样本组中包括至少两个标注样本；
[0009]基于无标注概率和标注概率，分别对无标注样本组和标注样本组进行线性组合，得到无标注样本组对应的无标注扩增样本和标注样本组对应的标注扩增样本；
[0010]基于无标注扩增样本和预训练模型，对目标模型进行初步训练，得到初步训练后...

【技术保护点】

【技术特征摘要】
1.一种模型训练方法，其特征在于，包括：获取预训练模型和目标模型；获取无标注样本组和标注样本组，以及无标注概率和标注概率，所述无标注样本组中包括至少两个无标注样本，所述标注样本组中包括至少两个标注样本；基于所述无标注概率和所述标注概率，分别对所述无标注样本组和所述标注样本组进行线性组合，得到所述无标注样本组对应的无标注扩增样本和所述标注样本组对应的标注扩增样本；基于所述无标注扩增样本和所述预训练模型，对所述目标模型进行初步训练，得到初步训练后的目标模型；基于所述标注扩增样本和所述预训练模型，对所述初步训练后的目标模型进行再次训练，得到训练好的目标模型。2.如权利要求1所述的模型训练方法，其特征在于，所述预训练模型包括多个网络模块，所述目标模型包括多个网络层，所述网络模块与所述网络层一一对应，所述标注扩增样本包括标签；所述基于所述标注扩增样本和所述预训练模型，对所述初步训练后的目标模型进行再次训练，包括：将所述标注扩增样本输入所述预训练模型，得到目标网络模块的第一输出结果，所述目标网络模块为所述多个网络模块中的任一网络模块；将所述标注扩增样本输入所述初步训练后的目标模型，得到目标网络层的第二输出结果，所述目标网络层为所述多个网络层中与所述目标网络模块对应的网络层；基于所述第一输出结果、所述第二输出结果以及所述标签，对所述目标模型的参数进行再次更新。3.如权利要求2所述的模型训练方法，其特征在于，所述基于所述第一输出结果、所述第二输出结果以及所述标签，对所述目标模型的参数进行再次更新，包括：根据所述第一输出结果和所述第二输出结果，对所述目标网络层进行损失计算，得到网络层损失值；基于所述网络层损失值，对所述目标模型中输入层至所述目标网络层的参数进行更新；根据所述第二输出结果和所述标签，对所述目标模型进行损失计算，得到输出损失值；基于所述输出损失值，对所述目标模型的参数进行再次更新。4.如权利要求3所述的模型训练方法，其特征在于，所述标签包括第一标签和第二标签，所述根据所述第二输出结果和所述标签，对所述目标模型进行损失计算，得到输出损失值，包括：根据所述第一标签和所述第二输出结果，对所述目标模型进行损失计算，得到第一输出损失值；根据所述第二标签和所述第二输出结果，对所述目标模型进行损失计算，得到第二输出损失值；对所述第一输出损失值和所述第二输出损失值进行损失融合，得到输出损失值。5.如权利要求4所述的模型训练方法，其特征在于，所述标注概率包括第一标注概率和
第二标注概率，所述对所述第一输出损失值和所述第二输出损失值进行损失融合，得到输出损失值，包括：采用所述第一标注概率，对所述第一输出损失值进行加权处理，得到第一加权损失值；采用所述第二标注概率，对所述第二输出损失值进行加权处理，得到第二加权损失值；基于所述第一加权损失值和所述第二加权损失值，得到输出损失值。6.如权利要求3所述的模型训练方法，其特征在于，所述网络层损失值包括特征提取损失值，所述第一输出结果包括第一特征，所述第二输出结果包括第二特征；所述根据所述第一输出结果和所述第二输出结果，对所述目标网络层进行损失计算，得到网络层损失值，包括：当所述第一特征与所述第二特征的维度不一致时，对所述第一特征进行空间转换，得到转换后的第一特征；计算所述第二特征的特征值与所述转换后的第一特征的特征值之间的特征二范数；基于所述特征二范数，确定所述特征提取损失值。7.如权利要求3所述的模型训练方法，其特征在于，所述网络层损失值包括注意力损失值，所述第一输出结果包括第一注意力概率分布，所述第二输出结果包括第二注意力概率分布；所述根据所述第一输出结果和所述第二输出结果，对所述目标网络层进行损失计算，得到网络层损失值，包括：计算所述第一注意力概率分布和所述第二注意力概率分布之间的注意力相对熵；基于所述注意力相对熵，确定所述注意力损失值。8.如权利要求3所述的模型训练方法，其特征在于，所述网络层损失值包括分类损失值，所述第一输出结果包括...

【专利技术属性】
技术研发人员：周洁，田乐，周霄，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人