System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于碳强度的GPU调度系统、方法和产品技术方案_技高网

一种基于碳强度的GPU调度系统、方法和产品技术方案

技术编号:40649290 阅读:15 留言:0更新日期:2024-03-13 21:27
本申请提供了一种基于碳强度的GPU调度系统、方法和产品,涉及GPU调度技术领域,该系统包括:碳强度获取模块,用于每隔预设时间段,获取当前时刻的碳强度,将所述碳强度发送给调度器;调度器包括:集群监测模块,用于实时接收来自GPU集群的集群状态信息;资源分配模块,用于根据所述碳强度和所述集群状态信息,生成对深度学习作业的最新GPU调度方案;作业放置模块,用于根据最新GPU调度方案,为每个深度学习作业分配所述GPU集群中的GPU;深度学习作业包括已经在执行中的深度学习作业和未执行的深度学习作业;GPU集群,用于按照所述最新GPU调度方案中的GPU频率执行所述深度学习作业。

【技术实现步骤摘要】

本申请涉及gpu调度,特别是一种基于碳强度的gpu调度系统、方法和产品。


技术介绍

1、深度学习已被广泛应用于日常使用的各种应用程序和服务,因此,训练深度学习模型已成为数据中心的一项重要负载,这种日益增长的计算需求导致能源需求同步提高,碳排放量增大。

2、然而,目前在gpu集群中调度深度学习作业的方法在调度过程中既不考虑能耗,也不考虑碳排放量。这样不仅在调度gpu的过程中缺乏灵活性,还容易产生不必要的碳排放。因此,有必要开发一种基于碳强度的gpu调度系统、方法和产品,以提高深度学习作业的碳排放效率,提高作业收益。


技术实现思路

1、鉴于上述问题,本申请实施例提供了一种基于碳强度的gpu调度系统、方法和产品,以便克服上述问题或者至少部分地解决上述问题。

2、本申请实施例的第一方面,提供了一种基于碳强度的gpu调度系统,包括:

3、碳强度获取模块,用于每隔预设时间段,获取当前时刻的碳强度,将所述碳强度发送给调度器;

4、所述调度器包括:集群监测模块、资源分配模块和作业放置模块;

5、所述集群监测模块,用于实时接收来自gpu集群的集群状态信息;

6、所述资源分配模块,用于根据所述碳强度和所述集群状态信息,生成对深度学习作业的最新gpu调度方案,使得执行所述最新gpu调度方案所产生的碳排放量小于或等于碳排放预算;所述最新gpu调度方案包括每个所述深度学习作业的gpu数量和gpu频率;

7、所述作业放置模块,用于根据所述最新gpu调度方案,为每个所述深度学习作业分配所述gpu集群中的gpu;所述深度学习作业包括已经在执行中的深度学习作业和未执行的深度学习作业;

8、所述gpu集群,用于按照所述最新gpu调度方案中的gpu频率执行所述深度学习作业。

9、在一种可能的实施方式中,所述根据所述碳强度和所述集群状态信息,生成对深度学习作业的最新gpu调度方案,包括:

10、根据所述碳强度和所述集群状态信息,确定执行每个所述深度学习作业的gpu数量;

11、根据所述碳强度、所述集群状态信息和执行每个所述深度学习作业的gpu数量,确定执行每个所述深度学习作业的gpu频率;

12、根据所述gpu数量和所述gpu频率,生成所述最新gpu调度方案。

13、在一种可能的实施方式中,所述根据所述碳强度和所述集群状态信息,确定执行每个所述深度学习作业的gpu数量,包括:

14、根据所述碳强度和所述集群状态信息,计算每个所述深度学习作业的第一边际收益;

15、按照所述第一边际收益,生成所述深度学习作业的第一优先级队列;

16、为所述第一优先级队列中,优先级最高的深度学习作业分配一块gpu;

17、重复执行上述步骤,直至达到第一终止条件,所述第一终止条件为:所述gpu集群中的所有gpu都被分配完成,和/或,所述gpu集群的第一集群碳排放量超过所述碳排放预算。

18、在一种可能的实施方式中,所述根据所述碳强度和所述集群状态信息,计算每个所述深度学习作业的第一边际收益,包括:

19、根据所述集群状态信息和所述深度学习作业已被分配的gpu数量,计算所述深度学习作业的第一作业完成时长和第二作业完成时长;其中,所述第一作业完成时长表示按照所述已被分配的gpu数量和初始gpu频率,执行完成所述深度学习作业的所需要的时长;所述第二作业完成时长表示按照增加一块gpu后的gpu数量和所述初始gpu频率,执行完成所述深度学习作业所需要的时长;

20、根据所述集群状态信息和每个所述深度学习作业已被分配的gpu数量,计算第一平均作业完成时长,所述第一平均作业完成时长表示,所有所述深度学习作业按照各自已被分配的gpu数量和所述初始gpu频率,执行完成所需要的平均时长;

21、根据所述集群状态信息、所述碳强度和所述深度学习作业已被分配的gpu数量,计算所述深度学习作业的第一作业碳排放量和第二作业碳排放量;其中,所述第一作业碳排放量表示,按照所述已被分配的gpu数量和所述初始gpu频率,,执行完成所述深度学习作业所产生的碳排放量;所述第二作业碳排放量表示,按照增加一块gpu后的gpu数量和所述初始gpu频率,执行完成所述深度学习作业所产生的碳排放量;

22、根据所述集群状态信息、所述碳强度和每个所述深度学习作业已被分配的gpu数量,计算得到所述第一集群碳排放量,所述第一集群碳排放量表示所有所述深度学习作业按照各自已被分配的gpu数量和所述初始gpu频率,执行完成所产生的总碳排放量;

23、根据所述第一作业完成时间、所述第二作业完成时间、所述第一平均作业完成时间、所述第一作业碳排放量、所述第二作业碳排放量和所述第一集群碳排放量,确定所述深度学习作业的第一边际收益。

24、在一种可能的实施方式中,所述根据所述碳强度、所述集群状态信息和执行每个所述深度学习作业的gpu数量,确定执行每个所述深度学习作业的gpu频率,包括:

25、根据所述碳强度、所述集群状态信息和执行每个所述深度学习作业的gpu数量,计算每个所述深度学习作业的第二边际收益;

26、按照所述第二边际收益,生成所述深度学习作业的第二优先级队列;

27、为所述第二优先级队列中优先级最高的深度学习作业,在已被分配的gpu频率的基础上增加δf;δf表示预设的频率定值;

28、重复执行上述步骤,直至达到第二终止条件,所述第二终止条件为:所述gpu集群中的所有gpu的频率达到最大频率值,和/或,所述gpu集群的第二集群碳排放量超过所述碳排放预算。

29、在一种可能的实施方式中,所述根据所述碳强度、所述集群状态信息和执行每个所述深度学习作业的gpu数量,计算每个所述深度学习作业的第二边际收益,包括:

30、根据所述集群状态信息、所述深度学习作业已被分配的gpu数量和所述深度学习作业已被分配的gpu频率,计算所述深度学习作业的第三作业完成时长和第四作业完成时长;其中,所述第三作业完成时长表示,按照所述已被分配的gpu数量和所述已被分配的gpu频率,执行完成所述深度学习作业的所需要的时长;所述第四作业完成时长表示,按照所述已被分配的gpu数量和增加δf后的gpu频率,执行完成所述深度学习作业所需要的时长;

31、根据所述集群状态信息、每个所述深度学习作业已被分配的gpu数量和每个所述深度学习作业已被分配的gpu频率,计算第二平均作业完成时间,所述第二平均作业完成时间表示,所有所述深度学习作业按照各自已被分配的gpu数量和已被分配的gpu频率,执行完成所需要的平均时长;

32、根据所述集群状态信息、所述碳强度、所述深度学习作业已被分配的gpu数量和所述深度学习作业已被分配的gpu频率,计算所述深度学习作业的第三作业碳排放量和第四作业碳排放量;其中,所述第三作业碳本文档来自技高网...

【技术保护点】

1.一种基于碳强度的GPU调度系统,其特征在于,所述系统包括:

2.根据权利要求1所述的基于碳强度的GPU调度系统,其特征在于,所述根据所述碳强度和所述集群状态信息,生成对深度学习作业的最新GPU调度方案,包括:

3.根据权利要求2所述的基于碳强度的GPU调度系统,其特征在于,所述根据所述碳强度和所述集群状态信息,确定执行每个所述深度学习作业的GPU数量,包括:

4.根据权利要求3所述的基于碳强度的GPU调度系统,其特征在于,所述根据所述碳强度和所述集群状态信息,计算每个所述深度学习作业的第一边际收益,包括:

5.根据权利要求2所述的基于碳强度的GPU调度系统,其特征在于,所述根据所述碳强度、所述集群状态信息和执行每个所述深度学习作业的GPU数量,确定执行每个所述深度学习作业的GPU频率,包括:

6.根据权利要求5所述的基于碳强度的GPU调度系统,其特征在于,所述根据所述碳强度、所述集群状态信息和执行每个所述深度学习作业的GPU数量,计算每个所述深度学习作业的第二边际收益,包括:

7.根据权利要求1所述的基于碳强度的GPU调度系统,其特征在于,所述GPU集群中的每个计算节点所拥有的GPU数量为2的幂;所述作业放置模块,还用于将每个所述深度学习作业的工作节点数量限制为2的幂,根据所述最新GPU调度方案,为每个所述深度学习作业分配所述计算节点。

8.一种基于碳强度的GPU调度方法,其特征在于,应用于权利要求1-7中任一项所述的GPU调度系统,所述方法包括:

9.一种电子设备,包括存储器、处理器及存储在所述存储器上的计算机程序,其特征在于,所述处理器执行所述计算机程序以实现权利要求8所述的基于碳强度的GPU调度方法。

10.一种计算机可读存储介质,其上存储有计算机程序/指令,该计算机程序/指令被处理器执行时实现权利要求8所述的基于碳强度的GPU调度方法。

...

【技术特征摘要】

1.一种基于碳强度的gpu调度系统,其特征在于,所述系统包括:

2.根据权利要求1所述的基于碳强度的gpu调度系统,其特征在于,所述根据所述碳强度和所述集群状态信息,生成对深度学习作业的最新gpu调度方案,包括:

3.根据权利要求2所述的基于碳强度的gpu调度系统,其特征在于,所述根据所述碳强度和所述集群状态信息,确定执行每个所述深度学习作业的gpu数量,包括:

4.根据权利要求3所述的基于碳强度的gpu调度系统,其特征在于,所述根据所述碳强度和所述集群状态信息,计算每个所述深度学习作业的第一边际收益,包括:

5.根据权利要求2所述的基于碳强度的gpu调度系统,其特征在于,所述根据所述碳强度、所述集群状态信息和执行每个所述深度学习作业的gpu数量,确定执行每个所述深度学习作业的gpu频率,包括:

6.根据权利要求5所述的基于碳强度的gpu调度系统,其特征在于,所述根据所述...

【专利技术属性】
技术研发人员:刘譞哲谷典典马郓金鑫
申请(专利权)人:北京泛睿云图科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1