一种异构算力环境下的模型训练任务分配方法及系统技术方案

技术编号：44202326 阅读：17 留言：0更新日期：2025-02-06 18:37

本发明专利技术属于分布式训练领域，提供了一种异构算力环境下的模型训练任务分配方法及系统，构建一个分层的深度强化学习模型，用于在终端层、边缘层和云计算层之间进行优化拆分点的选择和资源分配，从而实现高效的计算任务分配和模型训练。通过设计多个子策略网络来应对不同算力需求的任务。结合了资源感知模块，以衡量每层的计算资源、网络带宽和延迟等状态。启发式算法用于初步估计拆分点范围，减少无关位置的探索，优化搜索效率。针对神经网络模型计算所需要的资源，以浮点运算的数量来衡量。在拆分点的选择中，主要采取深度强化学习的方法结合资源感知模块，通过结构优化寻找最优的拆分点，以实现模型的有效拆分，并在两端侧完成高效的联合训练。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于分布式训练，具体涉及一种异构算力环境下的模型训练任务分配方法及系统。

技术介绍

1、本部分的陈述仅仅是提供了与本专利技术相关的
技术介绍
信息，不必然构成在先技术。

2、大模型时代，模型参数与数据规模成指数级增长，尽管算力资源总量发展迅速，但各算力提供商所能提供的算力分布不均衡，在这种非均衡算力分布条件下如何更好的支撑大模型训练，充分发挥当前算力资源优势具有十分重要的研究意义和研究价值。

3、拆分计算是对大模型进行拆分并部署于分布式集群进行并行训练的一种新的计算模式，能够提高大模型训练效率并且充分利用碎片化计算资源，是当前面向分布式算力条件下大模型训练的技术发展趋势。但是现有的方法中对于拆分点的选择不一，使得计算资源分配不均，从而导致训练效率低下。

技术实现思路

1、为了解决上述问题，本专利技术提出了一种异构算力环境下的模型训练任务分配方法及系统，本专利技术建立了一个分层的深度强化学习（drl）模型，以终端-边缘层为例，不同的子策略网络分别针对不同的算力资源需求进行学习和优化、通过结合深度强化学习实现层级间的拆分点选择，实现总体串行，层间并行，在每个训练周期后更新全局策略，实现实时任务分配和优化。研究的关键是如何有效结合深度强化学习和资源感知模块，以优化终端、边缘层之间的拆分点选择和任务分配策略并实现整体最优。

2、根据一些实施例，本专利技术的第一方案提供了一种异构算力环境下的模型训练任务分配方法，采用如下技术方案：

3、一

4、在终端层-边缘层-云计算层组成的计算架构下，获取终端层的多个模型训练请求，根据模型训练请求的数据量与设定阈值之间的大小关系对多个终端进行分组；

5、基于边缘层的计算算力信息和模型训练请求的算力需求，利用综合评估函数在为每个终端寻找最佳的边缘匹配节点；

6、根据模型训练请求的分组情况在模型中确定拆分点的初步选择范围，在确定的初步选择范围内，基于在拆分点时终端和边缘匹配节点之间的延迟和能耗最小为目标，迭代循环寻找局部最优拆分点；

7、根据模型训练请求的分组情况在模型中确定拆分点的初步选择范围，在确定的初步选择范围内，基于在拆分点时边缘匹配节点和云计算层之间的延迟和能耗最小为目标，迭代循环寻找边缘-云最佳拆分点；

8、统筹局部最优拆分点和边缘-云最佳拆分点，实现对训练任务进行分配。

9、进一步地，所述综合评估函数，具体为：

10、；

11、其中，是边缘节点的计算资源，是当前终端任务对节点的计算需求，是终端到边缘节点的网络带宽，是网络延迟，是调节参数，用于平衡算力、带宽、延迟和能耗的权重，针对当前的用户请求，有其搜索范围内的边缘节点；负载平衡因子，是选择当前节点产生的能耗，节点选择频率；

12、综合评估函数的值越大，则终端和边缘节点之间匹配度越高。

13、进一步地，采用分层深度强化学习模型对迭代循环寻找的过程进行求解，其中，所述分层深度强化学习模型包括状态空间、动作空间以及总体奖励函数；

14、所述状态空间包括终端层的计算资源状态、网络带宽和延迟；边缘层的计算资源状态与云服务器的连接状态，以及云计算层的计算资源状态；

15、所述动作空间包括各种条件划分的相应的拆分方案；

16、所述总体奖励函数包括边缘与云计算层的奖励函数以及终端与边缘层的奖励函数。

17、进一步地，所述根据模型训练请求的数据量与设定阈值之间的大小关系对多个终端进行分组，具体为：

18、依次对每个终端的模型训练请求的数据量进行计算；

19、如果模型训练请求的数据量大于设定阈值，则为高算力需求级别任务，将其划分到高算力需求集合中；

20、如果模型训练请求的数据量小于设定阈值，则为低算力需求级别任务，将其划分到低算力需求集合中；

21、由此，对终端层中所有终端的模型训练请求划分为高算力需求集合和低算力需求集合两个组。

22、进一步地，所述根据模型训练请求的分组情况在模型中确定拆分点的初步选择范围，在确定的初步选择范围内，基于在拆分点时终端和边缘匹配节点之间的延迟和能耗最小为目标，迭代循环寻找局部最优拆分点，具体为：

23、如果模型训练请求的数据量小于设定阈值，则为低算力需求级别任务，在模型结构中间层的拆分点之后作为拆分点的初步选择范围；反之则为高算力需求级别任务，在模型结构中间层的拆分点之前作为拆分点的初步选择范围；

24、在初步选择范围内，以一个拆分点为例，计算当前拆分点时终端和边缘匹节点之间的延迟和能耗；

25、迭代循环初步选择范围内的所有拆分点，以基于在拆分点时终端和边缘匹配节点之间的延迟和能耗最小为目标，确定局部最优拆分点。

26、进一步地，所述根据模型训练请求的分组情况在模型中确定拆分点的初步选择范围，在确定的初步选择范围内，基于在拆分点时边缘匹配节点和云计算层之间的延迟和能耗最小为目标，迭代循环寻找边缘-云最佳拆分点，具体为：

27、如果模型训练请求的数据量小于设定阈值，则为低算力需求级别任务，在模型结构中间层的拆分点之后作为拆分点的初步选择范围；反之则为高算力需求级别任务，在模型结构中间层的拆分点之后作为拆分点的初步选择范围；

28、在初步选择范围内，以一个拆分点为例，计算当前拆分点时云计算层和边缘匹节点之间的延迟和能耗；

29、迭代循环初步选择范围内的所有拆分点，以基于在拆分点时边缘匹配节点和云计算层之间的延迟和能耗最小为目标，确定局部最优拆分点。

30、进一步地，所述统筹局部最优拆分点和边缘-云最佳拆分点，实现对训练任务进行分配，具体为：

31、基于局部最优拆分点，对模型的结构层的对应层间位置进行拆分；

32、基于边缘-云最佳拆分点，对模型的结构层的对应层间位置进行拆分；

33、将模型的结构层分成三个结构块，进而将同一模型训练请求任务拆分成三段任务并行训练，实现对训练任务进行分配。

34、根据一些实施例，本专利技术的第二方案提供了一种异构算力环境下的模型训练任务分配系统，采用如下技术方案：

35、一种异构算力环境下的模型训练任务分配系统，包括：

36、任务算力识别模块，被配置为在终端层-边缘层-云计算层组成的计算架构下，获取终端层的多个模型训练请求，并根据模型训练请求的数据量与设定阈值之间的大小关系对多个终端进行分组；

37、匹配节点确定模块，被配置为基于边缘层的计算算力信息和模型训练请求的算力需求，利用综合评估函数在为每个终端寻找最佳的边缘匹配节点；

38、终端-边缘拆分模块，被配置为根据模型训练请求的分组情况在模型中确定拆分点的初步选择范围，在确定的初步选择范围内，基本文档来自技高网...

【技术保护点】

1.一种异构算力环境下的模型训练任务分配方法，其特征在于，包括：

2.如权利要求1所述的一种异构算力环境下的模型训练任务分配方法，其特征在于，所述综合评估函数，具体为：

3.如权利要求1所述的一种异构算力环境下的模型训练任务分配方法，其特征在于，采用分层深度强化学习模型对迭代循环寻找的过程进行求解，其中，所述分层深度强化学习模型包括状态空间、动作空间以及总体奖励函数；

4.如权利要求1所述的一种异构算力环境下的模型训练任务分配方法，其特征在于，所述根据模型训练请求的数据量与设定阈值之间的大小关系对多个终端进行分组，具体为：

5.如权利要求1所述的一种异构算力环境下的模型训练任务分配方法，其特征在于，所述根据模型训练请求的分组情况在模型中确定拆分点的初步选择范围，在确定的初步选择范围内，基于在拆分点时终端和边缘匹配节点之间的延迟和能耗最小为目标，迭代循环寻找局部最优拆分点，具体为：

6.如权利要求1所述的一种异构算力环境下的模型训练任务分配方法，其特征在于，所述根据模型训练请求的分组情况在模型中确定拆分点的初步选择范围，在

7.如权利要求1所述的一种异构算力环境下的模型训练任务分配方法，其特征在于，所述统筹局部最优拆分点和边缘-云最佳拆分点，实现对训练任务进行分配，具体为：

8.一种异构算力环境下的模型训练任务分配系统，其特征在于，包括：

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-7中任一项所述的一种异构算力环境下的模型训练任务分配方法及中的步骤。

10.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-7中任一项所述的一种异构算力环境下的模型训练任务分配方法中的步骤。

...

【技术特征摘要】

1.一种异构算力环境下的模型训练任务分配方法，其特征在于，包括：

2.如权利要求1所述的一种异构算力环境下的模型训练任务分配方法，其特征在于，所述综合评估函数，具体为：

6.如权利要求1所述的一种异构算...

【专利技术属性】
技术研发人员：张玮，李杭伦，史慧玲，郝昊，丁伟，谭立状，王小龙，时文齐，
申请(专利权)人：齐鲁工业大学山东省科学院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人