模型训练方法、装置、计算机可读存储介质及计算机设备制造方法及图纸

技术编号：34838713 阅读：26 留言：0更新日期：2022-09-08 07:34

本发明专利技术公开了一种模型训练方法、装置、计算机可读存储介质及计算机设备。其中，该方法包括：获取初始任务模型，其中，初始任务模型包括预训练模型以及一组前缀参数，前缀参数为初始任务模型的超参数，用于使初始任务模型适配不同任务；基于训练样本数据对初始任务模型进行训练，得到初始任务模型中与前缀参数对应的目标权重，其中，训练样本数据与目标任务对应；基于目标权重及初始任务模型，确定目标任务模型。本发明专利技术解决了添加前缀的预训练模型由于前缀过长或者过短导致模型出现过拟合或者欠拟合的技术问题。合的技术问题。合的技术问题。

全部详细技术资料下载

【技术实现步骤摘要】
模型训练方法、装置、计算机可读存储介质及计算机设备

[0001]本专利技术涉及人工智能领域，具体而言，涉及一种模型训练方法、装置、计算机可读存储介质及计算机设备。

技术介绍

[0002]为了将预训练模型应用到下游任务，传统的微调方法通常需要微调模型所有参数。对于不同下游任务，往往需要保存多个不同微调模型。随着大规模预训练模型的流行以及下游任务的多样性，微调的训练难度和参数保存难度也随之增加。Lightweight fine
‑
tuning中的Prefix
‑
tuning通常冻结预训练模型，仅利用少量额外任务进行训练得到前缀参数，以适应下游任务，不仅避免了预训练模型先验知识的遗忘，也提高了训练的时间效率和参数存储的空间效率。然而，由于前缀参数是人为设置的且个数固定，因此采用这样的前缀来微调模型无法完全适配不同任务。
[0003]针对上述的问题，目前尚未提出有效的解决方案。

技术实现思路

[0004]本专利技术实施例提供了一种模型训练方法、装置、计算机可读存储介质及计算机设备，以至少解决添加前缀的预训练模型由于前缀过长或者过短导致模型出现过拟合或者欠拟合的技术问题。
[0005]根据本专利技术实施例的一个方面，提供了一种模型训练方法，包括：获取初始任务模型，其中，所述初始任务模型包括预训练模型以及一组前缀参数，所述前缀参数为所述初始任务模型的超参数，用于使所述初始任务模型适配不同任务；基于训练样本数据对所述初始任务模型进行训练，得到所述初始任务模型中与所...

【技术保护点】

【技术特征摘要】
1.一种模型训练方法，其特征在于，包括：获取初始任务模型，其中，所述初始任务模型包括预训练模型以及一组前缀参数，所述前缀参数为所述初始任务模型的超参数，用于使所述初始任务模型适配不同任务；基于训练样本数据对所述初始任务模型进行训练，得到所述初始任务模型中与所述前缀参数对应的目标权重，其中，所述训练样本数据与目标任务对应；基于所述目标权重及所述初始任务模型，确定目标任务模型。2.根据权利要求1所述的方法，其特征在于，所述基于训练样本数据对所述初始任务模型进行训练，得到所述初始任务模型中与所述前缀参数对应的目标权重，包括：基于所述预训练模型，确定与所述前缀参数对应的待定权重；基于所述训练样本数据对所述初始任务模型的所述待定权重以及所述前缀参数进行优化训练，得到目标前缀参数以及与所述目标前缀参数对应的目标权重。3.根据权利要求2所述的方法，其特征在于，所述基于所述预训练模型，确定与所述前缀参数对应的待定权重，包括：在所述预训练模型包括多个网络层的情况下，所述待定权重包括：层内待定权重；确定所述前缀参数中任意一个前缀参数对应的层内待定权重，包括：确定所述任意一个前缀参数对应的目标网络层，其中，所述目标网络层为所述预训练模型包括的多个网络层之一；获取所述预训练模型中位于所述目标网络层的上一网络层的模型参数；基于所述上一网络层的模型参数确定所述层内待定权重。4.根据权利要求3所述的方法，其特征在于，所述基于所述上一网络层的模型参数确定所述层内待定权重，包括：根据所述上一网络层的模型参数，获取所述上一网络层的学习特征；根据所述学习特征，构建所述层内待定权重。5.根据权利要求4所述的方法，其特征在于，所述根据所述学习特征，构建所述层内待定权重，包括：生成待定因数；通过逻辑斯蒂函数将待定因数与所述学习特征转换到概率值区间，得到所述层内待定权重。6.根据权利要求2所述的方法，其特征在于，所述基于所述预训练模型，确定与所述前缀参数对应的待定权重，包括：在所述预训练模型包括多个网络层的情况下，所述待定权重包括：层间待定权重；确定所述前缀参数中任意一个前缀参数对应的层间待定权重，包括：确定所述多个网络层中任意一个网络层对应的层间待定权重；确定所述前缀参数中任意一个前缀参数对应的目标网络层，其中，所述目标网络层为所述多个网络层之一；将所述目标网络层对应的层间待定权重确定为所述任意一个前缀参数对应的层间待定权重。7.根据权利要求1所述的方法，其特征在于，还包括：发送所述目标权重及所述前...

【专利技术属性】
技术研发人员：张珍茹，徐海洋，谭传奇，黄松芳，
申请(专利权)人：阿里巴巴中国有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人