System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种模型更新方法、装置、设备及可读存储介质制造方法及图纸_技高网

一种模型更新方法、装置、设备及可读存储介质制造方法及图纸

技术编号:41457002 阅读:14 留言:0更新日期:2024-05-28 20:43
本申请公开了计算机技术领域内的一种模型更新方法、装置、设备及可读存储介质。本申请能够使大型模型同时针对多个任务进行训练,可实现大型模型的高效微调,提高了大模型微调的训练效率,仅更新模型中适配器的参数,并使模型中除适配器的其他结构的参数保持不变,减少了大模型训练过程中的计算资源与存储资源的消耗,可加快基础大模型对特定多任务的处理和优化。

【技术实现步骤摘要】

本申请涉及计算机,特别涉及一种模型更新方法、装置、设备及可读存储介质


技术介绍

1、目前进行大模型的参数微调时,需要针对不同任务设置不同适配器,一个任务对应一个适配器,当任务数量较多时,会带来巨大的额外参数,微调过程中的资源消耗也会更多。同时,大模型在对不同的任务进行微调过程中,为了达到更好的效果会涉及到一些超参数的调试与分配,一个任务对应一个适配器的微调方案会导致需要频繁进行参数调试,带来了重复性的工作消耗和巨大的资源浪费。

2、因此,如何降低大模型参数微调过程中的资源消耗,是本领域技术人员需要解决的问题。


技术实现思路

1、有鉴于此,本申请的目的在于提供一种模型更新方法、装置、设备及可读存储介质,以降低大模型参数微调过程中的资源消耗。其具体方案如下:

2、第一方面,本申请提供了一种模型更新方法,包括:

3、从混合数据集中获取目标数据;所述混合数据集包括:多个任务的训练数据;

4、在初始模型中选择与所述混合数据集对应的至少一个目标层,并在所述至少一个目标层中部署适配器,得到目标模型;所述初始模型为:能够处理所述多个任务的模型;

5、将所述目标数据输入所述目标模型,以使所述目标模型处理所述目标数据得到处理结果;

6、确定所述处理结果的目标损失;

7、若所述目标损失不符合预设收敛条件,则利用所述目标损失更新所述适配器的参数,并使所述目标模型中除所述适配器的其他结构的参数保持不变,以得到更新模型,将所述更新模型作为所述目标模型后,执行所述从混合数据集中获取目标数据的步骤;

8、若所述目标损失符合预设收敛条件,则将当前目标模型中的适配器的参数合并至当前目标模型中的目标层,并删除当前目标模型中的适配器,得到更新完成的模型。

9、另一方面,在初始模型中选择与所述混合数据集对应的至少一个目标层,包括:

10、计算多个预设数据集与所述混合数据集之间的相似程度;

11、将相似程度最高的预设数据集的标识信息作为搜索关键词;

12、在预设文件中查询与所述搜索关键词具有映射关系的层作为所述至少一个目标层。

13、另一方面,计算多个预设数据集与所述混合数据集之间的相似程度,包括:

14、将各个预设数据集与所述混合数据集构建为一个数据集对;

15、计算各个数据集对中的预设数据集和所述混合数据集之间的相似度。

16、另一方面,计算各个数据集对中的预设数据集和所述混合数据集之间的相似度,包括:

17、针对任意数据集对,计算当前数据集对中的预设数据集和所述混合数据集中的数据两两之间的余弦相似性,取所有余弦相似性的均值作为所述相似度。

18、另一方面,将当前目标模型中的适配器的参数合并至当前目标模型中的目标层,包括:

19、使当前目标模型中的适配器的参数与当前目标模型中的目标层的参数相加,用相加得到的新的目标层替换当前目标模型中的目标层。

20、另一方面,所述混合数据集的生成过程包括:

21、获取所述多个任务分别对应的原始训练数据;

22、合并所述原始训练数据,得到合并数据集;

23、对所述合并数据集进行数据去重,并使去重后的合并数据集中的数据随机分布,得到所述混合数据集。

24、另一方面,将所述目标数据输入所述目标模型之前,还包括:

25、利用预设的提示模板使所述目标数据具有统一表达格式。

26、另一方面,部署有所述适配器的任一个目标层的输出结果用公式表示为:yj=w0×x+(b×a×scaling)×x;yj为所述输出结果,w0为目标层j的权重参数,x为目标层j和所述适配器的输入数据,a为所述适配器中的第一矩阵,b为所述适配器中的第二矩阵,scaling为预设系数。

27、另一方面,所述预设系数的取值为目标值与所述第一矩阵或所述第二矩阵的秩的比值,或所述预设系数的取值为1。

28、另一方面,若部署有所述适配器的任一个目标层在所述初始模型中的位置大于预设阈值,则使所述预设系数大于预设数值;否则,使所述预设系数小于预设数值。

29、另一方面,利用所述目标损失更新所述适配器的参数,包括:

30、利用所述目标损失更新所述适配器中的第一矩阵和第二矩阵。

31、另一方面,还包括:

32、将更新完成的模型部署于目标系统中,并利用更新完成的模型处理所述多个任务。

33、另一方面,本申请提供了一种模型更新装置,包括:

34、获取模块,用于从混合数据集中获取目标数据;所述混合数据集包括:多个任务的训练数据;

35、部署模块,用于在初始模型中选择与所述混合数据集对应的至少一个目标层,并在所述至少一个目标层中部署适配器,得到目标模型;所述初始模型为:能够处理所述多个任务的模型;

36、更新模块,用于将所述目标数据输入所述目标模型,以使所述目标模型处理所述目标数据得到处理结果;确定所述处理结果的目标损失;若所述目标损失不符合预设收敛条件,则利用所述目标损失更新所述适配器的参数,并使所述目标模型中除所述适配器的其他结构的参数保持不变,以得到更新模型,将所述更新模型作为所述目标模型后,执行所述从混合数据集中获取目标数据的步骤;若所述目标损失符合预设收敛条件,则将当前目标模型中的适配器的参数合并至当前目标模型中的目标层,并删除当前目标模型中的适配器,得到更新完成的模型。

37、另一方面,本申请提供了一种电子设备,包括:

38、存储器,用于存储计算机程序;

39、处理器,用于执行所述计算机程序,以实现前述公开的模型更新方法。

40、另一方面,本申请提供了一种可读存储介质,用于保存计算机程序,其中,所述计算机程序被处理器执行时实现前述公开的模型更新方法。

41、通过以上方案可知,本申请提供了一种模型更新方法,包括:从混合数据集中获取目标数据;所述混合数据集包括:多个任务的训练数据;在初始模型中选择与所述混合数据集对应的至少一个目标层,并在所述至少一个目标层中部署适配器,得到目标模型;所述初始模型为:能够处理所述多个任务的模型;将所述目标数据输入所述目标模型,以使所述目标模型处理所述目标数据得到处理结果;确定所述处理结果的目标损失;若所述目标损失不符合预设收敛条件,则利用所述目标损失更新所述适配器的参数,并使所述目标模型中除所述适配器的其他结构的参数保持不变,以得到更新模型,将所述更新模型作为所述目标模型后,执行所述从混合数据集中获取目标数据的步骤;若所述目标损失符合预设收敛条件,则将当前目标模型中的适配器的参数合并至当前目标模型中的目标层,并删除当前目标模型中的适配器,得到更新完成的模型。

42、可见,本申请的有益效果为:能够使大型模型同时针对多个任务进行训练,可实现大型模型的本文档来自技高网...

【技术保护点】

1.一种模型更新方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,在初始模型中选择与所述混合数据集对应的至少一个目标层,包括:

3.根据权利要求2所述的方法,其特征在于,计算多个预设数据集与所述混合数据集之间的相似程度,包括:

4.根据权利要求3所述的方法,其特征在于,计算各个数据集对中的预设数据集和所述混合数据集之间的相似度,包括:

5.根据权利要求1所述的方法,其特征在于,将当前目标模型中的适配器的参数合并至当前目标模型中的目标层,包括:

6.根据权利要求1所述的方法,其特征在于,所述混合数据集的生成过程包括:

7.根据权利要求1所述的方法,其特征在于,将所述目标数据输入所述目标模型之前,还包括:

8.根据权利要求1至7任一项所述的方法,其特征在于,部署有所述适配器的任一个目标层的输出结果用公式表示为:yj=W0×x+(B×A×scaling)×x;yj为所述输出结果,W0为目标层j的权重参数,x为目标层j和所述适配器的输入数据,A为所述适配器中的第一矩阵,B为所述适配器中的第二矩阵,scaling为预设系数。

9.根据权利要求8所述的方法,其特征在于,所述预设系数的取值为目标值与所述第一矩阵或所述第二矩阵的秩的比值,或所述预设系数的取值为1。

10.根据权利要求8所述的方法,其特征在于,若部署有所述适配器的任一个目标层在所述初始模型中的位置大于预设阈值,则使所述预设系数大于预设数值;否则,使所述预设系数小于预设数值。

11.根据权利要求8所述的方法,其特征在于,利用所述目标损失更新所述适配器的参数,包括:

12.根据权利要求1至7任一项所述的方法,其特征在于,还包括:

13.一种模型更新装置,其特征在于,包括:

14.一种电子设备,其特征在于,包括:

15.一种可读存储介质,其特征在于,用于保存计算机程序,其中,所述计算机程序被处理器执行时实现如权利要求1至12任一项所述的方法。

...

【技术特征摘要】

1.一种模型更新方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,在初始模型中选择与所述混合数据集对应的至少一个目标层,包括:

3.根据权利要求2所述的方法,其特征在于,计算多个预设数据集与所述混合数据集之间的相似程度,包括:

4.根据权利要求3所述的方法,其特征在于,计算各个数据集对中的预设数据集和所述混合数据集之间的相似度,包括:

5.根据权利要求1所述的方法,其特征在于,将当前目标模型中的适配器的参数合并至当前目标模型中的目标层,包括:

6.根据权利要求1所述的方法,其特征在于,所述混合数据集的生成过程包括:

7.根据权利要求1所述的方法,其特征在于,将所述目标数据输入所述目标模型之前,还包括:

8.根据权利要求1至7任一项所述的方法,其特征在于,部署有所述适配器的任一个目标层的输出结果用公式表示为:yj=w0×x+(b×a×scaling)×x;yj为所述输出结果,w0为目标层j...

【专利技术属性】
技术研发人员:刘姝吴韶华
申请(专利权)人:浪潮电子信息产业股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1