一种生成式大模型微调方法、装置、电子设备和存储介质制造方法及图纸

技术编号：40815573 阅读：26 留言：0更新日期：2024-03-28 19:35

本发明专利技术涉及一种生成式大模型微调方法、装置、电子设备和存储介质，该方法包括：在预设的序列长度下，加入多组指令数据；根据多组指令数据中的至少一个问题和答案对预测当前问题的答案信息；根据多组指令数据中的至少一个问题和答案对预测当前问题的答案信息，包括：通过当前问题以及当前问题前面的多个问题和答案对来更新模型参数。本发明专利技术将不同长度的指令数据拼接在一个序列中，通过位置信息区分，减少了无效填充空间占用，达到了更高效的训练效率，通过将多个问题和答案对中每个的问题都作为损失学习的部分，通过注意力遮掩信息，屏蔽了当前问题和答案之后的信息，起到了高效利用了多个问题和答案对的信息的作用。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及模型微调，具体涉及一种生成式大模型微调方法、装置、电子设备和存储介质。

技术介绍

1、生成式大模型是指通过生成的方式，利用模型完成某类特定的自然语言处理任务，一般是以对话形态存在。一个生成式大模型需要经过预训练、微调和对齐三个阶段。在微调阶段，主要是利用预训练完后的基座模型，经过指令微调激活模型的对话能力。指令微调数据主要由单轮或者多轮的问题和答案对组成。

2、user1：你好，你是谁？

3、assistant1：您好，我是人工助手，有什么可以帮您的吗？

4、user2：今天天气怎么样？

5、assistant2：厦门今天天气晴，气温32度。

6、其中，“user1：你好，你是谁？assistant1：您好，我是人工助手，有什么可以帮您的吗？”就组成一个完整的指令微调数据。

7、现有传统方法指令微调将每一组指令数据单做一个单一的样本来训练，存在以下两个问题。

8、因为每组指令对话数据长短不一，比如说“生成1000字作文”和“写一首七言绝句”两类指令，长度就差接近千字，如果按序排列，则组成batch后，会存在大量无意义的填充部分，导致训练资源的浪费。

9、对多轮对话数据只对最后一轮的答案的信息来更新模型参数，而前面几轮的信息只作为上文，浪费了前几轮对话的信息。

技术实现思路

1、本专利技术提供一种生成式大模型微调方法、装置、电子设备和存储介质，能够解决上述技术问题。

<...

【技术保护点】

1.一种生成式大模型微调方法，其特征在于，包括：

2.根据权利要求1所述的一种生成式大模型微调方法，其特征在于，所述在预设的序列长度下，加入多组指令数据，包括：

3.根据权利要求1所述的一种生成式大模型微调方法，其特征在于，所述通过当前问题以及前面的多个问题和答案对来更新模型参数，包括：

4.根据权利要求1所述的一种生成式大模型微调方法，其特征在于，所述方法还包括：

5.一种生成式大模型微调装置，其特征在于，包括：

6.根据权利要求1所述的一种生成式大模型微调装置，其特征在于，所述加入模块：用于在预设的序列长度下，加入多组指令数据，包括：

7.根据权利要求5所述的一种生成式大模型微调装置，其特征在于，所述更新模块：通过当前问题以及前面的多个问题和答案对来更新模型参数，包括：

8.根据权利要求5所述的一种生成式大模型微调装置，其特征在于，还包括：判断模块，

9.一种电子设备，其特征在于，包括：处理器和存储器；

10.一种计算机可读存储介质，其特征在于，所述非暂态计算机可读存储

...

【技术特征摘要】

1.一种生成式大模型微调方法，其特征在于，包括：

2.根据权利要求1所述的一种生成式大模型微调方法，其特征在于，所述在预设的序列长度下，加入多组指令数据，包括：

3.根据权利要求1所述的一种生成式大模型微调方法，其特征在于，所述通过当前问题以及前面的多个问题和答案对来更新模型参数，包括：

4.根据权利要求1所述的一种生成式大模型微调方法，其特征在于，所述方法还包括：

5.一种生成式大模型微调装置，其特征在于，包括：

6.根据权利要求1所述的一种生成式大模型微调装置，其特征在于，所述...

【专利技术属性】
技术研发人员：丘德来，刘升平，梁家恩，
申请(专利权)人：厦门云知芯智能科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人