System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 模型训练方法、装置、电子设备、存储介质和计算机程序产品制造方法及图纸_技高网

模型训练方法、装置、电子设备、存储介质和计算机程序产品制造方法及图纸

技术编号:42068881 阅读:4 留言:0更新日期:2024-07-19 16:51
本发明专利技术提供一种模型训练方法、装置、电子设备、存储介质和计算机程序产品,所述方法包括:基于模型的上一权重参数矩阵以及新增权重参数矩阵,确定当前权重参数矩阵,新增权重参数矩阵的维度基于模型的目标维度、模型的初始维度以及总训练步长确定;基于当前固定权重参数矩阵,从当前权重参数矩阵中确定当前训练参数矩阵,当前固定权重参数矩阵为当前权重参数矩阵中靠近上一训练步长的参数矩阵;对当前训练参数矩阵进行当前训练步长下的训练。本发明专利技术在固定硬件资源的情况下,可以灵活控制不同训练步长下的可训练参数的规模,从而能够减小训练计算和储存需求,并且能够保证模型的预测效果。

【技术实现步骤摘要】

本专利技术涉及人工智能,尤其涉及一种模型训练方法、装置、电子设备、存储介质和计算机程序产品


技术介绍

1、神经网络模型通常拥有海量模型参数(上百亿、千亿甚至更高),以大语言模型为例,其具有非常强的语言理解能力和生成能力,并已经广泛应用于文本分类、机器翻译、问答系统、文本生成等任务。其通过预训练(pre-training)学习到丰富的语言知识,从而具有很好的语言理解和文字生成能力。

2、大语言模型的核心思想是自回归语言模型,即给定一个自然语言序列,模型需要预测下一个单词(token)。通过大量的文本数据进行无监督预训练,大语言模型可以学习到语言的统计规律和语义信息,从而具有很好的泛化能力。

3、然而,在预训练大语言模型时,虽然参数规模小的模型需要的计算和存储资源较低,但会面临预训练得到的模型预测效果不佳的问题。参数规模大的模型虽然拥有更好的预测效果,但其预训练需要的计算和存储资源也非常之高,并且会面临模型权重参数需要切分在不同设备的问题,减少了数据并行的数量,因此极大增加了整体训练时长。


技术实现思路

1、本专利技术提供一种模型训练方法、装置、电子设备、存储介质和计算机程序产品,用以解决现有技术中小规模模型训练资源需求低但预测效果欠佳,大规模模型预测效果好但计算和储存资源需要高的缺陷。

2、本专利技术提供一种模型训练方法,包括:

3、基于模型的上一权重参数矩阵以及新增权重参数矩阵,确定当前权重参数矩阵,所述新增权重参数矩阵的维度基于所述模型的目标维度、所述模型的初始维度以及总训练步长确定;

4、基于当前固定权重参数矩阵,从所述当前权重参数矩阵中确定当前训练参数矩阵,所述当前固定权重参数矩阵为所述当前权重参数矩阵中靠近上一训练步长的参数矩阵;

5、对所述当前训练参数矩阵进行当前训练步长下的训练。

6、根据本专利技术提供的一种模型训练方法,在对所述模型的嵌入层或其它向量层进行训练时,所述当前固定权重参数矩阵为所述当前权重参数矩阵的最左侧矩阵,所述当前固定权重参数矩阵的行维度与所述当前权重参数矩阵的行维度相同,所述上一权重参数矩阵的行维度与所述当前权重参数矩阵的行维度相同,所述其它向量层指所述模型中除线性层和所述嵌入层之外的向量层。

7、根据本专利技术提供的一种模型训练方法,所述新增权重参数矩阵的维度基于如下步骤确定:

8、确定所述目标维度与所述初始维度之间的维度差值;

9、基于所述总训练步长,均分所述维度差值,得到所述新增权重参数矩阵的列维度;

10、以所述上一权重参数矩阵的行维度作为所述新增权重参数矩阵的行维度。

11、根据本专利技术提供的一种模型训练方法,在对所述模型的线性层进行训练时,所述新增权重参数矩阵包括第一新增矩阵和第二新增矩阵,所述第一新增矩阵为所述当前权重参数矩阵的最右侧矩阵,所述第二新增矩阵为所述当前权重参数矩阵的最下方矩阵。

12、根据本专利技术提供的一种模型训练方法,所述目标维度包括目标行维度和目标列维度,所述初始维度包括初始行维度和初始列维度;

13、所述第一新增矩阵的维度基于如下步骤确定:

14、确定所述目标列维度与所述初始列维度之间的列维度差值;

15、基于所述总训练步长,均分所述列维度差值,得到所述第一新增矩阵的列维度;

16、以所述上一权重参数矩阵的行维度作为所述第一新增矩阵的行维度。

17、根据本专利技术提供的一种模型训练方法,所述第二新增矩阵的维度基于如下步骤确定:

18、确定所述目标行维度与所述初始行维度之间的行维度差值;

19、基于所述总训练步长,均分所述行维度差值,得到所述第一新增矩阵的行维度;

20、以所述上一权重参数矩阵的列维度与所述第一新增矩阵的列维度之和作为所述第二新增矩阵的列维度。

21、本专利技术还提供一种模型训练装置,包括:

22、第一确定单元,用于基于模型的上一权重参数矩阵以及新增权重参数矩阵,确定当前权重参数矩阵,所述新增权重参数矩阵的维度基于所述模型的目标维度、所述模型的初始维度以及总训练步长确定;

23、第二确定单元,用于基于当前固定权重参数矩阵,从所述当前权重参数矩阵中确定当前训练参数矩阵,所述当前固定权重参数矩阵为所述当前权重参数矩阵中靠近上一训练步长的参数矩阵;

24、模型训练单元,用于对所述当前训练参数矩阵进行当前训练步长下的训练。

25、本专利技术还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述任一种所述模型训练方法。

26、本专利技术还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述模型训练方法。

27、本专利技术还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述模型训练方法。

28、本专利技术提供的模型训练方法、装置、电子设备、存储介质和计算机程序产品,在固定硬件资源的情况下,可以灵活控制不同训练步长下的可训练参数的规模,从而能够减小训练计算和储存需求。此外,本专利技术通过将对模型效果影响较小的当前固定权重参数矩阵固定,对当前训练参数矩阵进行训练,能够保证最终训练得到的模型具有较大的参数量,进而保证模型的预测效果。

本文档来自技高网...

【技术保护点】

1.一种模型训练方法,其特征在于,包括:

2.根据权利要求1所述的模型训练方法,其特征在于,在对所述模型的嵌入层或其它向量层进行训练时,所述当前固定权重参数矩阵为所述当前权重参数矩阵的最左侧矩阵,所述当前固定权重参数矩阵的行维度与所述当前权重参数矩阵的行维度相同,所述上一权重参数矩阵的行维度与所述当前权重参数矩阵的行维度相同,所述其它向量层指所述模型中除线性层和所述嵌入层之外的向量层。

3.根据权利要求2所述的模型训练方法,其特征在于,所述新增权重参数矩阵的维度基于如下步骤确定:

4.根据权利要求1所述的模型训练方法,其特征在于,在对所述模型的线性层进行训练时,所述新增权重参数矩阵包括第一新增矩阵和第二新增矩阵,所述第一新增矩阵为所述当前权重参数矩阵的最右侧矩阵,所述第二新增矩阵为所述当前权重参数矩阵的最下方矩阵。

5.根据权利要求4所述的模型训练方法,其特征在于,所述目标维度包括目标行维度和目标列维度,所述初始维度包括初始行维度和初始列维度;

6.根据权利要求5所述的模型训练方法,其特征在于,所述第二新增矩阵的维度基于如下步骤确定:

7.一种模型训练装置,其特征在于,包括:

8.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述模型训练方法。

9.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述模型训练方法。

10.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述模型训练方法。

...

【技术特征摘要】

1.一种模型训练方法,其特征在于,包括:

2.根据权利要求1所述的模型训练方法,其特征在于,在对所述模型的嵌入层或其它向量层进行训练时,所述当前固定权重参数矩阵为所述当前权重参数矩阵的最左侧矩阵,所述当前固定权重参数矩阵的行维度与所述当前权重参数矩阵的行维度相同,所述上一权重参数矩阵的行维度与所述当前权重参数矩阵的行维度相同,所述其它向量层指所述模型中除线性层和所述嵌入层之外的向量层。

3.根据权利要求2所述的模型训练方法,其特征在于,所述新增权重参数矩阵的维度基于如下步骤确定:

4.根据权利要求1所述的模型训练方法,其特征在于,在对所述模型的线性层进行训练时,所述新增权重参数矩阵包括第一新增矩阵和第二新增矩阵,所述第一新增矩阵为所述当前权重参数矩阵的最右侧矩阵,所述第二新增矩阵为所述当前权重参数矩阵的最下方矩阵。

...

【专利技术属性】
技术研发人员:请求不公布姓名请求不公布姓名
申请(专利权)人:上海壁仞科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1