模型训练方法、装置、计算机可读存储介质及计算机设备制造方法及图纸

技术编号:34838713 阅读:26 留言:0更新日期:2022-09-08 07:34
本发明专利技术公开了一种模型训练方法、装置、计算机可读存储介质及计算机设备。其中,该方法包括:获取初始任务模型,其中,初始任务模型包括预训练模型以及一组前缀参数,前缀参数为初始任务模型的超参数,用于使初始任务模型适配不同任务;基于训练样本数据对初始任务模型进行训练,得到初始任务模型中与前缀参数对应的目标权重,其中,训练样本数据与目标任务对应;基于目标权重及初始任务模型,确定目标任务模型。本发明专利技术解决了添加前缀的预训练模型由于前缀过长或者过短导致模型出现过拟合或者欠拟合的技术问题。合的技术问题。合的技术问题。

【技术实现步骤摘要】
模型训练方法、装置、计算机可读存储介质及计算机设备


[0001]本专利技术涉及人工智能领域,具体而言,涉及一种模型训练方法、装置、计算机可读存储介质及计算机设备。

技术介绍

[0002]为了将预训练模型应用到下游任务,传统的微调方法通常需要微调模型所有参数。对于不同下游任务,往往需要保存多个不同微调模型。随着大规模预训练模型的流行以及下游任务的多样性,微调的训练难度和参数保存难度也随之增加。Lightweight fine

tuning中的Prefix

tuning通常冻结预训练模型,仅利用少量额外任务进行训练得到前缀参数,以适应下游任务,不仅避免了预训练模型先验知识的遗忘,也提高了训练的时间效率和参数存储的空间效率。然而,由于前缀参数是人为设置的且个数固定,因此采用这样的前缀来微调模型无法完全适配不同任务。
[0003]针对上述的问题,目前尚未提出有效的解决方案。

技术实现思路

[0004]本专利技术实施例提供了一种模型训练方法、装置、计算机可读存储介质及计算机设备,以至少解决添加前缀的预训练模型由于前缀过长或者过短导致模型出现过拟合或者欠拟合的技术问题。
[0005]根据本专利技术实施例的一个方面,提供了一种模型训练方法,包括:获取初始任务模型,其中,所述初始任务模型包括预训练模型以及一组前缀参数,所述前缀参数为所述初始任务模型的超参数,用于使所述初始任务模型适配不同任务;基于训练样本数据对所述初始任务模型进行训练,得到所述初始任务模型中与所述前缀参数对应的目标权重,其中,所述训练样本数据与目标任务对应;基于所述目标权重及所述初始任务模型,确定目标任务模型。
[0006]可选地,所述基于训练样本数据对所述初始任务模型进行训练,得到所述初始任务模型中与所述前缀参数对应的目标权重,包括:基于所述预训练模型,确定与所述前缀参数对应的待定权重;基于所述训练样本数据对所述初始任务模型的所述待定权重以及所述前缀参数进行优化训练,得到目标前缀参数以及与所述目标前缀参数对应的目标权重。
[0007]可选地,所述基于所述预训练模型,确定与所述前缀参数对应的待定权重,包括:在所述预训练模型包括多个网络层的情况下,所述待定权重包括:层内待定权重;确定所述前缀参数中任意一个前缀参数对应的层内待定权重,包括:确定所述任意一个前缀参数对应的目标网络层,其中,所述目标网络层为所述预训练模型包括的多个网络层之一;获取所述预训练模型中位于所述目标网络层的上一网络层的模型参数;基于所述上一网络层的模型参数确定所述层内待定权重。
[0008]可选地,所述基于所述上一网络层的模型参数确定所述层内待定权重,包括:根据所述上一网络层的模型参数,获取所述上一网络层的学习特征;根据所述学习特征,构建所
述层内待定权重。
[0009]可选地,所述根据所述学习特征,构建所述层内待定权重,包括:生成待定因数;通过逻辑斯蒂函数将待定因数与所述学习特征转换到概率值区间,得到所述层内待定权重。
[0010]可选地,所述基于所述预训练模型,确定与所述前缀参数对应的待定权重,包括:在所述预训练模型包括多个网络层的情况下,所述待定权重包括:层间待定权重;确定所述前缀参数中任意一个前缀参数对应的层间待定权重,包括:确定所述多个网络层中任意一个网络层对应的层间待定权重;确定所述前缀参数中任意一个前缀参数对应的目标网络层,其中,所述目标网络层为所述多个网络层之一;将所述目标网络层对应的层间待定权重确定为所述任意一个前缀参数对应的层间待定权重。
[0011]可选地,上述方法还包括:发送所述目标权重及所述前缀参数至存储有所述预训练模型的第一目标设备,其中,所述第一目标设备用于根据所述目标权重、所述前缀参数以及所述预训练模型生成所述目标任务模型。
[0012]可选地,所述预训练模型包括以下任意之一:预训练语言模型,预训练图像识别模型。
[0013]根据本专利技术实施例的另一方面,还提供了一种模型训练方法,包括:发送训练样本数据至第二目标设备,其中,所述训练样本数据与目标任务对应;接收第二目标设备返回的目标权重以及前缀参数,其中,所述前缀参数为初始任务模型的一组超参数,用于使所述初始任务模型适配不同任务,所述目标权重为基于训练样本数据对所述初始任务模型进行训练得到的与所述前缀参数对应的权重;基于所述目标权重、所述前缀参数以及预存在本地的预训练模型,确定目标任务模型,其中,所述预训练模型与所述初始任务模型中的预训练模型相同。
[0014]根据本专利技术实施例的另一方面,还提供了一种模型训练装置,包括:获取模块,用于获取初始任务模型,其中,所述初始任务模型包括预训练模型以及一组前缀参数,所述前缀参数为所述初始任务模型的超参数,用于使所述初始任务模型适配不同任务;训练模块,用于基于训练样本数据对所述初始任务模型进行训练,得到所述初始任务模型中与所述前缀参数对应的目标权重,其中,所述训练样本数据与目标任务对应;第一确定模块,用于基于所述目标权重及所述初始任务模型,确定目标任务模型。
[0015]根据本专利技术实施例的另一方面,还提供了一种模型训练装置,包括:发送模块,用于发送训练样本数据至第二目标设备,其中,所述训练样本数据与目标任务对应;接收模块,用于接收第二目标设备返回的目标权重以及前缀参数,其中,所述前缀参数为初始任务模型的一组超参数,用于使所述初始任务模型适配不同任务,所述目标权重为基于训练样本数据对所述初始任务模型进行训练得到的与所述前缀参数对应的权重;第二确定模块,用于基于所述目标权重、所述前缀参数以及预存在本地的预训练模型,确定目标任务模型,其中,所述预训练模型与所述初始任务模型中的预训练模型相同。
[0016]根据本专利技术实施例的另一方面,还提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的程序,其中,在所述程序运行时控制所述计算机可读存储介质所在设备执行上述任意一项所述的模型训练方法。
[0017]根据本专利技术实施例的另一方面,还提供了一种计算机设备,包括:存储器和处理器,所述存储器存储有计算机程序;所述处理器,用于执行所述存储器中存储的计算机程
序,所述计算机程序运行时使得所述处理器执行上述任意一项所述的模型训练方法。
[0018]在本专利技术实施例中,采用为初始任务模型中的前缀参数匹配权重的方式,通过模型训练为不同的前缀参数匹配不同的目标权重值,适当地将每一个前缀参数对模型的影响进行放缩,达到了动态调整预训练模型的前缀参数的“长度”的目的,从而实现了改进初始任务模型以提高其处理特定任务时的性能的技术效果,进而解决了添加前缀的预训练模型由于前缀过长或者过短导致模型出现过拟合或者欠拟合的技术问题。
附图说明
[0019]此处所说明的附图用来提供对本专利技术的进一步理解,构成本申请的一部分,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中:
[0020]图1示出了一种用于实现模型训练方法的计算机本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种模型训练方法,其特征在于,包括:获取初始任务模型,其中,所述初始任务模型包括预训练模型以及一组前缀参数,所述前缀参数为所述初始任务模型的超参数,用于使所述初始任务模型适配不同任务;基于训练样本数据对所述初始任务模型进行训练,得到所述初始任务模型中与所述前缀参数对应的目标权重,其中,所述训练样本数据与目标任务对应;基于所述目标权重及所述初始任务模型,确定目标任务模型。2.根据权利要求1所述的方法,其特征在于,所述基于训练样本数据对所述初始任务模型进行训练,得到所述初始任务模型中与所述前缀参数对应的目标权重,包括:基于所述预训练模型,确定与所述前缀参数对应的待定权重;基于所述训练样本数据对所述初始任务模型的所述待定权重以及所述前缀参数进行优化训练,得到目标前缀参数以及与所述目标前缀参数对应的目标权重。3.根据权利要求2所述的方法,其特征在于,所述基于所述预训练模型,确定与所述前缀参数对应的待定权重,包括:在所述预训练模型包括多个网络层的情况下,所述待定权重包括:层内待定权重;确定所述前缀参数中任意一个前缀参数对应的层内待定权重,包括:确定所述任意一个前缀参数对应的目标网络层,其中,所述目标网络层为所述预训练模型包括的多个网络层之一;获取所述预训练模型中位于所述目标网络层的上一网络层的模型参数;基于所述上一网络层的模型参数确定所述层内待定权重。4.根据权利要求3所述的方法,其特征在于,所述基于所述上一网络层的模型参数确定所述层内待定权重,包括:根据所述上一网络层的模型参数,获取所述上一网络层的学习特征;根据所述学习特征,构建所述层内待定权重。5.根据权利要求4所述的方法,其特征在于,所述根据所述学习特征,构建所述层内待定权重,包括:生成待定因数;通过逻辑斯蒂函数将待定因数与所述学习特征转换到概率值区间,得到所述层内待定权重。6.根据权利要求2所述的方法,其特征在于,所述基于所述预训练模型,确定与所述前缀参数对应的待定权重,包括:在所述预训练模型包括多个网络层的情况下,所述待定权重包括:层间待定权重;确定所述前缀参数中任意一个前缀参数对应的层间待定权重,包括:确定所述多个网络层中任意一个网络层对应的层间待定权重;确定所述前缀参数中任意一个前缀参数对应的目标网络层,其中,所述目标网络层为所述多个网络层之一;将所述目标网络层对应的层间待定权重确定为所述任意一个前缀参数对应的层间待定权重。7.根据权利要求1所述的方法,其特征在于,还包括:发送所述目标权重及所述前...

【专利技术属性】
技术研发人员:张珍茹徐海洋谭传奇黄松芳
申请(专利权)人:阿里巴巴中国有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1