System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种生成式大模型微调方法、装置、电子设备和存储介质制造方法及图纸_技高网

一种生成式大模型微调方法、装置、电子设备和存储介质制造方法及图纸

技术编号:40815573 阅读:18 留言:0更新日期:2024-03-28 19:35
本发明专利技术涉及一种生成式大模型微调方法、装置、电子设备和存储介质,该方法包括:在预设的序列长度下,加入多组指令数据;根据多组指令数据中的至少一个问题和答案对预测当前问题的答案信息;根据多组指令数据中的至少一个问题和答案对预测当前问题的答案信息,包括:通过当前问题以及当前问题前面的多个问题和答案对来更新模型参数。本发明专利技术将不同长度的指令数据拼接在一个序列中,通过位置信息区分,减少了无效填充空间占用,达到了更高效的训练效率,通过将多个问题和答案对中每个的问题都作为损失学习的部分,通过注意力遮掩信息,屏蔽了当前问题和答案之后的信息,起到了高效利用了多个问题和答案对的信息的作用。

【技术实现步骤摘要】

本专利技术涉及模型微调,具体涉及一种生成式大模型微调方法、装置、电子设备和存储介质


技术介绍

1、生成式大模型是指通过生成的方式,利用模型完成某类特定的自然语言处理任务,一般是以对话形态存在。一个生成式大模型需要经过预训练、微调和对齐三个阶段。在微调阶段,主要是利用预训练完后的基座模型,经过指令微调激活模型的对话能力。指令微调数据主要由单轮或者多轮的问题和答案对组成。

2、user1:你好,你是谁?

3、assistant1:您好,我是人工助手,有什么可以帮您的吗?

4、user2:今天天气怎么样?

5、assistant2:厦门今天天气晴,气温32度。

6、其中,“user1:你好,你是谁?assistant1:您好,我是人工助手,有什么可以帮您的吗?”就组成一个完整的指令微调数据。

7、现有传统方法指令微调将每一组指令数据单做一个单一的样本来训练,存在以下两个问题。

8、因为每组指令对话数据长短不一,比如说“生成1000字作文”和“写一首七言绝句”两类指令,长度就差接近千字,如果按序排列,则组成batch后,会存在大量无意义的填充部分,导致训练资源的浪费。

9、对多轮对话数据只对最后一轮的答案的信息来更新模型参数,而前面几轮的信息只作为上文,浪费了前几轮对话的信息。


技术实现思路

1、本专利技术提供一种生成式大模型微调方法、装置、电子设备和存储介质,能够解决上述技术问题。

<p>2、第一方面,本专利技术实施例提供一种生成式大模型微调方法,包括:

3、在预设的序列长度下,加入多组指令数据;

4、根据多组指令数据中的至少一个问题和答案对预测当前问题的答案信息;

5、根据多组指令数据中的至少一个问题和答案对预测当前问题的答案信息,包括:通过当前问题以及当前问题前面的多个问题和答案对来更新模型参数;

6、其中,多组指令数据中的每组指令数据包括:至少一个问题和答案对;在预设的序列长度下,加入多组指令数据的原则为每个序列的填充最小。

7、进一步地,上述一种生成式大模型微调方法中,在预设的序列长度下,加入多组指令数据,包括:

8、根据每组指令数据的长度将每组指令数据的位置信息编码;

9、根据每组指令数据的位置信息编码确定序列的位置信息编码。

10、进一步地,上述一种生成式大模型微调方法中,通过当前问题以及前面的多个问题和答案对来更新模型参数,包括:

11、引入注意力遮掩信息,使得每个预测项只依赖当前问题以及前面的多个问题和答案对信息,屏蔽当前问题后面的信息。

12、进一步地,上述一种生成式大模型微调方法,还包括:

13、判断一组指令数据中的问题和答案对的数量是否大于1;

14、若判断结果为一组指令数据中的问题和答案对的数量大于1,对指令数据中的问题和答案对进行横向拼接;

15、并行计算指令数据中每个答案部分的损失,损失参与权重更新。

16、第二方面,本专利技术实施例还提供一种生成式大模型微调装置,包括:

17、加入模块:用于在预设的序列长度下,加入多组指令数据;

18、预测模块:用于根据所述多组指令数据中的至少一个问题和答案对预测当前问题的答案信息;

19、更新模块:用于通过当前问题以及当前问题前面的多个问题和答案对来更新模型参数;

20、其中,所述多组指令数据中的每组指令数据包括:至少一个问题和答案对;所述在预设的序列长度下,加入多组指令数据的原则为每个序列的填充最小。

21、进一步地,上述一种生成式大模型微调装置中,加入模块:用于在预设的序列长度下,加入多组指令数据,包括:

22、根据每组指令数据的长度将每组指令数据的位置信息编码;

23、根据每组指令数据的位置信息编码确定序列的位置信息编码。

24、进一步地,上述一种生成式大模型微调装置中,更新模块:通过当前问题以及前面的多个问题和答案对来更新模型参数,包括:

25、引入注意力遮掩信息,使得每个预测项只依赖当前问题以及前面的多个问题和答案对信息,屏蔽当前问题后面的信息。

26、进一步地,上述一种生成式大模型微调装置,还包括:判断模块,判断模块用于判断一组指令数据中的问题和答案对的数量是否大于1;

27、若判断结果为一组指令数据中的问题和答案对的数量大于1,对指令数据中的问题和答案对进行横向拼接;

28、并行计算指令数据中每个答案部分的损失,损失参与权重更新。

29、第三方面,本专利技术实施例还提供了一种电子设备,包括:处理器和存储器;

30、处理器通过调用存储器存储的程序或指令,用于执行如上任一项一种生成式大模型微调方法。

31、第四方面,本专利技术实施例还提供了一种计算机可读存储介质,计算机可读存储介质存储程序或指令,程序或指令使计算机执行如上任一项一种生成式大模型微调方法。

32、本专利技术的有益效果是:本专利技术通过在预设的序列长度下,加入多组指令数据;根据多组指令数据中的至少一个问题和答案对预测当前问题的答案信息;根据多组指令数据中的至少一个问题和答案对预测当前问题的答案信息,包括:通过当前问题以及当前问题前面的多个问题和答案对来更新模型参数;其中,多组指令数据中的每组指令数据包括:至少一个问题和答案对;在预设的序列长度下,加入多组指令数据的原则为每个序列的填充最小。本专利技术将不同长度的指令数据拼接在一个序列中,通过位置信息区分,减少了无效填充空间占用,达到了更高效的训练效率,通过将多个问题和答案对中每个的问题都作为损失学习的部分,通过注意力遮掩信息,屏蔽了当前问题和答案之后的信息,起到了高效利用了多个问题和答案对的信息的作用。

本文档来自技高网
...

【技术保护点】

1.一种生成式大模型微调方法,其特征在于,包括:

2.根据权利要求1所述的一种生成式大模型微调方法,其特征在于,所述在预设的序列长度下,加入多组指令数据,包括:

3.根据权利要求1所述的一种生成式大模型微调方法,其特征在于,所述通过当前问题以及前面的多个问题和答案对来更新模型参数,包括:

4.根据权利要求1所述的一种生成式大模型微调方法,其特征在于,所述方法还包括:

5.一种生成式大模型微调装置,其特征在于,包括:

6.根据权利要求1所述的一种生成式大模型微调装置,其特征在于,所述加入模块:用于在预设的序列长度下,加入多组指令数据,包括:

7.根据权利要求5所述的一种生成式大模型微调装置,其特征在于,所述更新模块:通过当前问题以及前面的多个问题和答案对来更新模型参数,包括:

8.根据权利要求5所述的一种生成式大模型微调装置,其特征在于,还包括:判断模块,

9.一种电子设备,其特征在于,包括:处理器和存储器;

10.一种计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质存储程序或指令,所述程序或指令使计算机执行如权利要求1至4任一项所述一种生成式大模型微调方法。

...

【技术特征摘要】

1.一种生成式大模型微调方法,其特征在于,包括:

2.根据权利要求1所述的一种生成式大模型微调方法,其特征在于,所述在预设的序列长度下,加入多组指令数据,包括:

3.根据权利要求1所述的一种生成式大模型微调方法,其特征在于,所述通过当前问题以及前面的多个问题和答案对来更新模型参数,包括:

4.根据权利要求1所述的一种生成式大模型微调方法,其特征在于,所述方法还包括:

5.一种生成式大模型微调装置,其特征在于,包括:

6.根据权利要求1所述的一种生成式大模型微调装置,其特征在于,所述...

【专利技术属性】
技术研发人员:丘德来刘升平梁家恩
申请(专利权)人:厦门云知芯智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1