一种分布式强化学习系统、数据处理方法及装置制造方法及图纸

技术编号：44460237 阅读：3 留言：0更新日期：2025-02-28 19:08

本发明专利技术实施例提供一种分布式强化学习系统、数据处理方法及装置，适用于并行处理多个训练任务；分布式强化学习系统中的主节点和各工作节点通过如下方式处理任一训练任务的任一轮：任一工作节点用于通过采集进程采集的经验数据并将经验数据发送至主节点；主节点用于在接收任一工作节点采集的经验数据后，调用训练任务在该轮对应的GPU对任一工作节点采集的经验数据进行计算；在通过计算得到训练任务在该轮的待更新参数后，释放训练任务在该轮对应的GPU并将训练任务在该轮的待更新参数发送至各工作节点；任一工作节点还用于根据训练任务在该轮的待更新参数更新自身存储的训练任务对应的模型参数。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及强化学习，尤其涉及一种分布式强化学习系统、数据处理方法及装置。

技术介绍

1、分布式强化学习训练是一种主节点通过将强化学习算法的训练过程分布到多个工作节点上，以加速训练和提高模型性能的方法。

2、现有的分布式强化学习训练中若同时训练多个训练任务，其中每个训练任务都需要长时间独占一个gpu，这会导致gpu计算资源使用率低，从而造成严重的gpu计算资源浪费。

3、综上，如何在同时训练多个训练任务的前提下，提高gpu计算资源使用率，是当前亟需解决的技术问题。

技术实现思路

1、本专利技术实施例提供一种分布式强化学习系统、数据处理方法及装置，用以解决现有技术中在同时训练多个训练任务的前提下，gpu计算资源使用率较低的问题。

2、第一方面，本专利技术实施例提供一种分布式强化学习系统，适用于并行处理多个训练任务；任一训练任务用于通过迭代多轮后生成对应模型的目标参数；所述分布式强化学习系统中的主节点和各工作节点通过如下方式处理任一训练任务的任一轮：任一工作节点用于通过采集进程采集的经验数据并将所述经验数据发送至所述主节点；所述主节点用于在接收任一工作节点采集的经验数据后，调用所述训练任务在该轮对应的gpu对任一工作节点采集的经验数据进行计算；在通过计算得到所述训练任务在该轮的待更新参数后，释放所述训练任务在该轮对应的gpu并将所述训练任务在该轮的待更新参数发送至各工作节点；任一工作节点还用于根据所述训练任务在该轮的待更新参数更新自身存储的所述训练任务对应的模型参数。

3、可选的，任一工作节点还用于在将所述经验数据发送至所述主节点之后，关闭所述采集进程；所述主节点还用于根据所述训练任务对应的历史轮次的历史迭代时间，对任一工作节点下发预热指令；所述预热指令用于指示任一工作节点根据预热时间启动下一轮的采集进程；所述预热时间为任一工作节点提前启动下一轮的采集进程的时间。

4、可选的，所述主节点还用于在接收到任一工作节点针对所述训练任务在该轮采集的经验数据后，判断所述训练任务在该轮是否有对应的gpu；若没有，则从gpu资源池中调用空闲gpu，作为所述训练任务在该轮的gpu；若有，则通过所述训练任务在该轮的gpu，对任一工作节点采集的经验数据进行计算。

5、第二方面，本专利技术实施例提供一种数据处理方法，适用于并行处理多个训练任务的分布式强化学习系统，任一训练任务用于通过迭代多轮后生成对应模型的目标参数，包括：

6、针对任一训练任务的任一轮，所述分布式强化学习系统中的主节点在接收任一工作节点采集的经验数据后，调用所述训练任务在该轮对应的gpu对任一工作节点采集的经验数据进行计算；在通过计算得到所述训练任务在该轮的待更新参数后，释放所述训练任务在该轮对应的gpu并将所述训练任务在该轮的待更新参数发送至各工作节点；所述训练任务在该轮的待更新参数用于更新所述各工作节点自身存储的所述训练任务对应的模型参数。

7、可选的，所述分布式强化学习系统中的主节点在接收任一工作节点采集的经验数据后，调用所述训练任务在该轮对应的gpu对任一工作节点采集的经验数据进行计算，包括：所述分布式强化学习系统中主节点在接收到任一工作节点针对所述训练任务在该轮采集的经验数据后，判断所述训练任务在该轮是否有对应的gpu；若没有，则从gpu资源池中调用空闲gpu，作为所述训练任务在该轮的gpu；若有，则通过所述训练任务在该轮的gpu，对任一工作节点采集的经验数据进行计算。

8、可选的，所述分布式强化学习系统中的主节点在接收任一工作节点采集的经验数据后，调用所述训练任务在该轮对应的gpu对任一工作节点采集的经验数据进行计算，包括：所述分布式强化学习系统中的主节点在接收到第i工作节点采集的经验数据后，确定对第j工作节点采集的经验数据的梯度计算是否结束；若尚未结束，则等待直至梯度计算结束后，调用所述训练任务在该轮对应的gpu对第i工作节点采集的经验数据进行梯度计算；所述第j工作节点向所述主节点发送采集的经验数据的时间早于所述第i工作节点向所述主节点发送采集的经验数据的时间；在各工作节点采集的经验数据均完成各自的梯度计算后，根据各工作节点的梯度计算结果确定所述训练任务在该轮的待更新参数。

9、可选的，所述分布式强化学习系统中的主节点接收任一工作节点采集的经验数据之前，还包括：所述分布式强化学习系统中的主节点根据所述训练任务对应的历史轮次的历史迭代时间，对任一工作节点下发预热指令；所述预热指令用于指示任一工作节点根据预热时间启动下一轮的采集进程；所述预热时间为任一工作节点提前启动下一轮的采集进程的时间。

10、可选的，确定预热时间可以通过如下方式：所述主节点从所述训练任务对应的多轮历史轮次的历史迭代时间中筛选出满足稳定性条件的目标历史迭代时间；根据所述目标历史迭代时间，确定所述各工作节点下一轮的启动时间；根据所述各工作节点下一轮的启动时间，确定所述各工作节点的预热时间。

11、第三方面，本专利技术实施例还提供一种数据处理装置，适用于并行处理多个训练任务的分布式强化学习系统，任一训练任务用于通过迭代多轮后生成对应模型的目标参数，包括：获取单元用于针对任一训练任务的任一轮，在接收任一各工作节点采集的经验数据后，调用所述训练任务在该轮对应的gpu对任一工作节点采集的所述经验数据进行计算；处理单元用于在通过计算得到所述训练任务在该轮的待更新参数后，释放所述训练任务在该轮对应的gpu并将所述训练任务在该轮的待更新参数发送至各工作节点；所述训练任务在该轮的待更新参数用于更新所述各工作节点自身存储的所述训练任务对应的模型参数。

12、可选的，获取单元具体用于：所述分布式强化学习系统中主节点在接收到任一工作节点针对所述训练任务在该轮采集的经验数据后，判断所述训练任务在该轮是否有对应的gpu；若没有，则从gpu资源池中调用空闲gpu，作为所述训练任务在该轮的gpu；若有，则通过所述训练任务在该轮的gpu，对任一工作节点采集的经验数据进行计算。

13、可选的，获取单元具体用于：所述分布式强化学习系统中的主节点在接收到第i工作节点采集的经验数据后，确定对第j工作节点采集的经验数据的梯度计算是否结束；若尚未结束，则等待直至梯度计算结束后，调用所述训练任务在该轮对应的gpu对第i工作节点采集的经验数据进行梯度计算；所述第j工作节点向所述主节点发送采集的经验数据的时间早于所述第i工作节点向所述主节点发送采集的经验数据的时间；在各工作节点采集的经验数据均完成各自的梯度计算后，根据各工作节点的梯度计算结果确定所述训练任务在该轮的待更新参数。

14、可选的，获取单元还用于：所述分布式强化学习系统中的主节点根据所述训练任务对应的历史轮次的历史迭代时间，对任一工作节点下发预热指令；所述预热指令用于指示任一工作节点根据预热时间启动下一轮的采集进程；所述预热时间为任一工作节点提前启动下一轮的采集进程的时间。

15、可选的，确定预热时间可以通本文档来自技高网...

【技术保护点】

1.一种分布式强化学习系统，其特征在于，适用于并行处理多个训练任务；任一训练任务用于通过迭代多轮后生成对应模型的目标参数；

2.如权利要求1所述的系统，其特征在于，任一工作节点还用于在将所述经验数据发送至所述主节点之后，关闭所述采集进程；

3.如权利要求1所述的系统，其特征在于，所述主节点还用于在接收到任一工作节点针对所述训练任务在该轮采集的经验数据后，判断所述训练任务在该轮是否有对应的GPU；若没有，则从GPU资源池中调用空闲GPU，作为所述训练任务在该轮的GPU；若有，则通过所述训练任务在该轮的GPU，对任一工作节点采集的经验数据进行计算。

4.一种数据处理方法，其特征在于，适用于并行处理多个训练任务的分布式强化学习系统，任一训练任务用于通过迭代多轮后生成对应模型的目标参数，包括：

5.如权利要求4所述的方法，其特征在于，所述分布式强化学习系统中的主节点在接收任一工作节点采集的经验数据后，调用所述训练任务在该轮对应的GPU对任一工作节点采集的经验数据进行计算，包括：

6.如权利要求4所述的方法，其特征在于，所述分布式

7.如权利要求4至6任一项所述的方法，其特征在于，所述分布式强化学习系统中的主节点接收任一工作节点采集的经验数据之前，还包括：

8.如权利要求7所述的方法，其特征在于，确定预热时间可以通过如下方式：

9.一种数据处理装置，其特征在于，适用于并行处理多个训练任务的分布式强化学习系统，任一训练任务用于通过迭代多轮后生成对应模型的目标参数，包括：

10.一种计算机设备，其特征在于，包括：

...

【技术特征摘要】

1.一种分布式强化学习系统，其特征在于，适用于并行处理多个训练任务；任一训练任务用于通过迭代多轮后生成对应模型的目标参数；

2.如权利要求1所述的系统，其特征在于，任一工作节点还用于在将所述经验数据发送至所述主节点之后，关闭所述采集进程；

3.如权利要求1所述的系统，其特征在于，所述主节点还用于在接收到任一工作节点针对所述训练任务在该轮采集的经验数据后，判断所述训练任务在该轮是否有对应的gpu；若没有，则从gpu资源池中调用空闲gpu，作为所述训练任务在该轮的gpu；若有，则通过所述训练任务在该轮的gpu，对任一工作节点采集的经验数据进行计算。

5.如权利要求4所述的方法，其特征在于...

【专利技术属性】
技术研发人员：赵予珩，李苏毅，王威，陈广镇，杨军，卢道和，罗锶，李成博，黄润良，李俊彬，
申请(专利权)人：深圳前海微众银行股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人