一种模型的处理方法及装置制造方法及图纸

技术编号：43869687 阅读：20 留言：0更新日期：2024-12-31 18:55

本说明书一个或多个实施例公开了一种模型的处理方法及装置，该方法首先确定预训练语言模型，并在预训练语言模型的初始权重矩阵旁路上设置低秩适配矩阵，得到第一预训练语言模型，然后获取当前业务场景下多个历史任务信息、每个历史任务信息对应的用于表示用户请求的历史请求数据、以及每个历史请求数据对应的历史响应标签，最后以历史任务信息和每个历史任务信息对应的历史请求数据为输入数据，基于输入数据对应的第一预训练语言模型的输出结果和每个历史请求数据对应的历史响应标签，保持第一预训练语言模型的预训练权重不变，通过预设的损失函数对低秩适配矩阵对应的增量权重进行训练，得到训练后的目标大语言模型。

全部详细技术资料下载

【技术实现步骤摘要】

本文件涉及大语言模型的微调，尤其涉及一种模型的处理方法及装置。

技术介绍

1、在深度学习领域，有两种常见的对大模型进行模型训练的方式：模型微调和重新训练。以大语言模型为例，由于自然语言处理技术的迅速发展，基于预训练语言模型进行微调的模型训练方式得到越来越广泛的应用。

2、相关技术中，在面对需要模型精确理解指令以及遵循复杂指令完成任务的情况下，基于预训练语言模型进行全量微调是常见的模型训练方式，例如：随着人们对自己的隐私数据越来越重视，在风险防控业务中，对用户输入的风险评估指令进行响应，或者，在查询业务中，对指定账户的历史交易记录进行查询的用户查询指令进行响应等。然而，在训练资源（模型训练的硬件训练资源，如：显存、内存、处理器等）有限的情况下，基于预训练语言模型进行全量微调训练并不容易实现，而且在训练资源有限的情况下，基于预训练语言模型进行全量微调训练所得到的大语言模型并不能满足用户需求。因此，需要提供一种适应于训练资源有限、指令复杂、多任务情况下对预训练语言模型进行微调处理的模型训练方法。

技术实现思路

1、一方面，本说明书一个或多个实施例提供一种模型的处理方法，包括：确定预训练语言模型，并在所述预训练语言模型的初始权重矩阵旁路上设置用于描述模型微调过程中所产生的增量权重的低秩适配矩阵，得到第一预训练语言模型，所述低秩适配矩阵的秩大于预设的秩，所述预设的秩是能够使得所述第一预训练语言模型的学习容量大于预设的学习容量的秩；获取当前业务场景下多个历史任务信息、每个历史任务信

2、另一方面，本说明书一个或多个实施例提供一种模型的处理装置，包括：第一预训练语言模型确定模块，确定预训练语言模型，并在所述预训练语言模型的初始权重矩阵旁路上设置用于描述模型微调过程中所产生的增量权重的低秩适配矩阵，得到第一预训练语言模型，所述低秩适配矩阵的秩大于预设的秩，所述预设的秩是能够使得所述第一预训练语言模型的学习容量大于预设的学习容量的秩；信息获取模块，通获取当前业务场景下多个历史任务信息、每个历史任务信息对应的用于表示用户请求的历史请求数据、以及每个历史请求数据对应的历史响应标签，所述历史响应标签是基于历史任务信息下用户的期望输出信息所确定的样本标签；训练模块，以所述历史任务信息和每个历史任务信息对应的历史请求数据为输入数据，基于所述输入数据对应的所述第一预训练语言模型的输出结果和所述每个历史请求数据对应的历史响应标签，保持所述第一预训练语言模型的预训练权重不变，通过预设的损失函数对所述低秩适配矩阵对应的增量权重进行训练，得到训练后的目标大语言模型。

3、再一方面，本说明书一个或多个实施例提供一种电子设备，包括：处理器；以及被安排成存储计算机可执行指令的存储器，在所述可执行指令被执行时，能够使得所述处理器：确定预训练语言模型，并在所述预训练语言模型的初始权重矩阵旁路上设置用于描述模型微调过程中所产生的增量权重的低秩适配矩阵，得到第一预训练语言模型，所述低秩适配矩阵的秩大于预设的秩，所述预设的秩是能够使得所述第一预训练语言模型的学习容量大于预设的学习容量的秩；获取当前业务场景下多个历史任务信息、每个历史任务信息对应的用于表示用户请求的历史请求数据、以及每个历史请求数据对应的历史响应标签，所述历史响应标签是基于历史任务信息下用户的期望输出信息所确定的样本标签；以所述历史任务信息和每个历史任务信息对应的历史请求数据为输入数据，基于所述输入数据对应的所述第一预训练语言模型的输出结果和所述每个历史请求数据对应的历史响应标签，保持所述第一预训练语言模型的预训练权重不变，通过预设的损失函数对所述低秩适配矩阵对应的增量权重进行训练，得到训练后的目标大语言模型。

4、再一方面，本说明书一个或多个实施例提供存储介质，用于存储计算机程序，所述计算机程序能够被处理器执行以实现以下流程：确定预训练语言模型，并在所述预训练语言模型的初始权重矩阵旁路上设置用于描述模型微调过程中所产生的增量权重的低秩适配矩阵，得到第一预训练语言模型，所述低秩适配矩阵的秩大于预设的秩，所述预设的秩是能够使得所述第一预训练语言模型的学习容量大于预设的学习容量的秩；获取当前业务场景下多个历史任务信息、每个历史任务信息对应的用于表示用户请求的历史请求数据、以及每个历史请求数据对应的历史响应标签，所述历史响应标签是基于历史任务信息下用户的期望输出信息所确定的样本标签；以所述历史任务信息和每个历史任务信息对应的历史请求数据为输入数据，基于所述输入数据对应的所述第一预训练语言模型的输出结果和所述每个历史请求数据对应的历史响应标签，保持所述第一预训练语言模型的预训练权重不变，通过预设的损失函数对所述低秩适配矩阵对应的增量权重进行训练，得到训练后的目标大语言模型。

5、再一方面，本说明书一个或多个实施例还提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现以下流程：确定预训练语言模型，并在所述预训练语言模型的初始权重矩阵旁路上设置用于描述模型微调过程中所产生的增量权重的低秩适配矩阵，得到第一预训练语言模型，所述低秩适配矩阵的秩大于预设的秩，所述预设的秩是能够使得所述第一预训练语言模型的学习容量大于预设的学习容量的秩；获取当前业务场景下多个历史任务信息、每个历史任务信息对应的用于表示用户请求的历史请求数据、以及每个历史请求数据对应的历史响应标签，所述历史响应标签是基于历史任务信息下用户的期望输出信息所确定的样本标签；以所述历史任务信息和每个历史任务信息对应的历史请求数据为输入数据，基于所述输入数据对应的所述第一预训练语言模型的输出结果和所述每个历史请求数据对应的历史响应标签，保持所述第一预训练语言模型的预训练权重不变，通过预设的损失函数对所述低秩适配矩阵对应的增量权重进行训练，得到训练后的目标大语言模型。

本文档来自技高网...

【技术保护点】

1.一种模型的处理方法，包括：

2.根据权利要求1所述的方法，所述在所述预训练语言模型的初始权重矩阵旁路上设置用于描述模型微调过程中所产生的增量权重的低秩适配矩阵，得到第一预训练语言模型，包括：

3.根据权利要求1所述的方法，还包括：

4.根据权利要求1所述的方法，得到训练后的目标大语言模型之后，所述方法还包括：

5.根据权利要求1所述的方法，所述预训练语言模型基于Transformer神经网络构建，所述损失函数包括交叉熵损失函数。

6.根据权利要求1所述的方法，所述第一预训练语言模型的学习容量包括所述第一预训练语言模型的可训练模型参数比例，所述第一预训练语言模型的学习容量根据所述当前业务场景确定，所述低秩适配矩阵的秩根据所述当前业务场景确定。

7.根据权利要求1所述的方法，所述预设的矩阵的秩取值为64，所述低秩适配矩阵的秩取值为512。

8.根据权利要求1所述的方法，所述当前业务场景对应的预设业务包括：风险防控业务、查询业务、推荐业务或客服业务。

9.一种模型的处理装置，包括：>

10.一种电子设备，包括：

...

【技术特征摘要】

1.一种模型的处理方法，包括：

3.根据权利要求1所述的方法，还包括：

4.根据权利要求1所述的方法，得到训练后的目标大语言模型之后，所述方法还包括：

5.根据权利要求1所述的方法，所述预训练语言模型基于transformer神经网络构建，所述损失函数包括交叉熵损失函数。

6.根据权利要求...

【专利技术属性】
技术研发人员：辛春蕾，周书恒，祝慧佳，陆垚杰，
申请(专利权)人：中国科学院软件研究所，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人