基于强化学习训练语言模型的方法及装置制造方法及图纸

技术编号：44532282 阅读：3 留言：0更新日期：2025-03-07 13:22

本说明书实施例涉及基于强化学习训练语言模型的方法及装置，方法包括多轮更新，其中任意一轮更新包括：首先，将目标输入文本输入到目标语言模型中，得到目标输出序列。然后，根据所述目标输入文本和目标输出序列，使用预训练的多个奖励模型确定当前轮次的多个奖励分数。接下来，根据所述多个奖励分数以及所述多个奖励模型在上一轮次中各自的先前权重值，确定多个奖励模型在当前轮次中各自的当前权重值。然后，根据所述当前权重值对所述多个奖励分数进行加权求和，根据加权求和结果，确定总奖励分数。最后，根据所述总奖励分数，更新所述目标语言模型的参数值。

全部详细技术资料下载

【技术实现步骤摘要】

本说明书一个或多个实施例涉及机器学习领域，尤其涉及基于强化学习训练语言模型的方法及装置。

技术介绍

1、近些年，预训练的语言模型(language models,lms)在自然语言处理领域取得了重大进展，这使得它们在会话代理、代码生成和机器翻译等下游应用中得到广泛使用。其中，基于人类反馈的强化学习(reinforcement learning from human feedback,rlhf)技术和基于人工智能反馈的强化学习(reinforcement learning from ai feedback,rlaif)技术在语言模型的发展过程中发挥着关键作用，它们增强了模型生成与人类偏好更契合的输出的能力，并大大增强了模型功能的多样性。

2、rlhf和rlaif利用来自人类或ai(artificial intelligence,人工智能)的反馈作为直接奖励(reward)，或用于构建引导语言模型优化的奖励模型(reward model)。在一些场景中，为了强化语言模型在多个方面的能力，可以使用多个奖励共同训练语言模型。然而，由于来自不同来源的奖励的特性各异，难以直接将其整合。因此，需要一种方法，有效地整合多个奖励，以提升语言模型的训练效果。

技术实现思路

1、本说明书一个或多个实施例描述了基于强化学习训练语言模型的方法及装置，通过对多个奖励进行加权求和得到的总奖励以训练语言模型，同时在每轮训练之前还会动态调整各个奖励模型的权重，以提升语言模型的训练效果。

2、

3、将目标输入文本输入到目标语言模型中，得到目标输出序列；

4、根据所述目标输入文本和目标输出序列，使用预训练的多个奖励模型确定当前轮次的多个奖励分数；

5、根据所述多个奖励分数以及所述多个奖励模型在上一轮次中各自的先前权重值，确定多个奖励模型在当前轮次中各自的当前权重值；

6、根据所述当前权重值对所述多个奖励分数进行加权求和，根据加权求和结果，确定总奖励分数；

7、根据所述总奖励分数，更新所述目标语言模型的参数值。

8、在一些可能的实施方式中，确定多个奖励模型在当前轮次中各自的当前权重值，包括：

9、根据任意的目标奖励模型输出的目标奖励分数确定其对应的缩放系数，将该目标奖励模型的先前权重值与缩放系数的乘积作为目标奖励模型的中间值；

10、基于所述目标奖励模型的中间值与所述多个奖励模型各自的中间值和值的比例，得到所述目标奖励模型的当前权重值。

11、在一些可能的实施方式中，所述缩放系数与所述目标奖励分数呈负相关。

12、在一些可能的实施方式中，根据任意的目标奖励模型输出的目标奖励分数确定其对应的缩放系数，包括：

13、根据所述目标奖励分数得到奖励指数，计算所述奖励指数的自然指数值作为所述缩放系数。

14、在一些可能的实施方式中，根据所述目标奖励分数得到奖励指数，包括：

15、将所述目标奖励分数的负值与预设的第一超参数相乘，得到奖励指数。

16、在一些可能的实施方式中，根据所述目标奖励分数得到奖励指数，包括：

17、对各个奖励分数组成的序列进行平滑处理，得到目标奖励分数对应的目标平滑奖励分数；

18、将所述目标平滑奖励分数的负值与预设的第一超参数相乘，将乘积与预设的第二目标超参数相加，得到奖励指数。

19、在一些可能的实施方式中，根据所述总奖励分数，更新所述目标语言模型的参数值，包括：

20、根据所述总奖励分数，基于策略梯度算法更新所述目标语言模型的参数值。

21、在一些可能的实施方式中，任意一轮更新还包括：根据目标语言模型和预训练的参考语言模型针对于目标输入文本各自的输出概率分布，确定kl散度项；

22、根据所述总奖励分数，更新所述目标语言模型的参数值，包括：

23、根据所述总奖励分数与kl散度项的差值所确定的调整奖励分数，更新所述目标语言模型的参数值。

24、在一些可能的实施方式中，根据所述总奖励分数与kl散度项的差值所确定的调整奖励分数，更新所述目标语言模型的参数值，包括：

25、根据所述调整奖励分数，基于策略梯度算法更新所述目标语言模型的参数值。

26、在一些可能的实施方式中，所述奖励模型至少包括以下之一：基于规则的奖励模型，基于人类偏好的奖励模型。

27、第二方面，提供了一种基于强化学习训练语言模型的装置，用于多轮更新，包括：

28、输出序列生成单元，配置为，将目标输入文本输入到目标语言模型中，得到目标输出序列；

29、奖励分数确定单元，配置为，根据所述目标输入文本和目标输出序列，使用预训练的多个奖励模型确定当前轮次的多个奖励分数；

30、权重更新单元，配置为，根据所述多个奖励分数以及所述多个奖励模型在上一轮次中各自的先前权重值，确定多个奖励模型在当前轮次中各自的当前权重值；

31、总奖励分数确定单元，配置为，根据所述当前权重值对所述多个奖励分数进行加权求和，根据加权求和结果，确定总奖励分数；

32、更新单元，配置为，根据所述总奖励分数，更新所述目标语言模型的参数值。

33、第三方面，提供了一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行第一方面的方法。

34、第四方面，提供了一种计算设备，包括存储器和处理器，其中，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现第一方面的方法。

35、本说明书实施例提出的基于强化学习训练语言模型的方法及装置，方法通过对多个奖励模型的奖励分数进行加权求和，得到总奖励分数以训练语言模型。同时在每轮训练加权求和之前，还会先根据各个奖励模型输出的奖励分数，动态调整各个奖励模型的权重，防止语言模型过度关注某一个单一来源的奖励而忽略其他奖励，提升了语言模型的综合训练效果。

本文档来自技高网...

【技术保护点】

1.一种基于强化学习训练语言模型的方法，包括多轮更新，其中任意一轮更新包括：

2.根据权利要求1所述的方法，其中，确定多个奖励模型在当前轮次中各自的当前权重值，包括：

3.根据权利要求2所述的方法，其中，所述缩放系数与所述目标奖励分数呈负相关。

4.根据权利要求3所述的方法，其中，根据任意的目标奖励模型输出的目标奖励分数确定其对应的缩放系数，包括：

5.根据权利要求4所述的方法，其中，根据所述目标奖励分数得到奖励指数，包括：

6.根据权利要求4所述的方法，其中，根据所述目标奖励分数得到奖励指数，包括：

7.根据权利要求1所述的方法，其中，根据所述总奖励分数，更新所述目标语言模型的参数值，包括：

8.根据权利要求1所述的方法，任意一轮更新还包括：根据目标语言模型和预训练的参考语言模型针对于目标输入文本各自的输出概率分布，确定KL散度项；

9.根据权利要求8所述的方法，其中，根据所述总奖励分数与KL散度项的差值所确定的调整奖励分数，更新所述目标语言模型的参数值，包括：

10.根

11.一种基于强化学习训练语言模型的装置，用于多轮更新，包括：

12.一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行权利要求1-10中任一项所述的方法。

13.一种计算设备，包括存储器和处理器，其中，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现权利要求1-10中任一项所述的方法。

...

【技术特征摘要】