一种GPU集群的任务分配方法、装置、电子设备和介质制造方法及图纸

技术编号:37442708 阅读:7 留言:0更新日期:2023-05-06 09:14
本发明专利技术实施例提供了一种GPU集群的任务分配方法、装置、电子设备和介质,该方法包括:获取目标图形处理器GPU计算任务;根据各GPU集群的当前状态信息,生成各GPU集群的当前任务调度评估值;根据各GPU集群的当前任务调度评估值,从多个GPU集群中,确定一目标GPU集群;将目标GPU计算任务分配给目标GPU集群进行处理。通过本发明专利技术实施例,实现了基于GPU集群自身因素考虑的基础上,引入算力网络组合策略,在多资源池GPU集群任务调度过程中,既避免了单集群任务过载而降低整体任务吞吐量,又要在集群算力网络空闲期自动感知算力网络利用率,充分利用该GPU集群资源,动态调整任务调度,提升整体GPU算力利用率。GPU算力利用率。GPU算力利用率。

【技术实现步骤摘要】
一种GPU集群的任务分配方法、装置、电子设备和介质


[0001]本专利技术涉及数据处理的
,特别是涉及一种GPU集群的任务分配方法、装置、电子设备和介质。

技术介绍

[0002]当下,全球各国都在加速人工智能布局,将其作为战略性技术之一,人工智能应用将渗透到各个行业中,GPU(Graphics Processing Unit,图形处理器)作为人工智能的算力基础设施,必然发挥关键决定性作用。随着人工智能算力需求不断增长,如何实现高效的GPU集群资源调度,是大规模GPU算力集群是急需突破的关键技术之一。

技术实现思路

[0003]鉴于上述问题,提出了以便提供克服上述问题或者至少部分地解决上述问题的一种GPU集群的任务分配方法、装置、电子设备和介质,包括:
[0004]一种GPU集群的任务分配方法,所述方法包括:
[0005]获取目标图形处理器GPU计算任务;
[0006]根据各GPU集群的当前状态信息,生成各GPU集群的当前任务调度评估值;
[0007]根据各GPU集群的当前任务调度评估值,从多个GPU集群中,确定一目标GPU集群;
[0008]将所述目标GPU计算任务分配给所述目标GPU集群进行处理。
[0009]可选地,所述根据各GPU集群的当前任务调度评估值,从多个GPU集群中,确定一目标GPU集群,包括:
[0010]从所述多个GPU集群中,确定一当前任务调度评估值最大的GPU集群;
[0011]将当前任务调度评估值最大的GPU集群作为所述目标GPU集群。
[0012]可选地,所述当前状态信息包括多个,所述根据各GPU集群的当前状态信息,生成各GPU集群的当前任务调度评估值,包括:
[0013]获取针对各当前状态信息的预设权重;
[0014]根据所述多个当前状态信息和对应的预设权重,计算各GPU集群的当前任务调度评估值。
[0015]可选地,所述当前状态信息包括集群算力利用率、算力网络利用率、算力网络时延和集群算力优先级。
[0016]可选地,所述方法还包括:
[0017]获取上一次采集的算力网络的第一流量,和当前采集的算力网络的第二流量;
[0018]获取算力网络的带宽;
[0019]根据所述第一流量、所述第二流量,以及所述算力网络的带宽,计算所述算力网络利用率。
[0020]可选地,所述方法还包括:
[0021]将所述目标GPU计算任务放入任务缓存队列中;
[0022]所述获取目标图形处理器GPU计算任务,包括:
[0023]从所述任务缓存队列中获取所述目标GPU计算任务。
[0024]可选地,所述方法还包括:
[0025]获取所述目标GPU计算任务的目标计算结果,并将所述目标计算结果存入所述入任务缓存队列中;
[0026]从所述任务缓存队列中获取所述目标计算结果,并输出所述目标计算结果。
[0027]本专利技术实施例还提供了一种GPU集群的任务分配装置,所述装置包括:
[0028]获取模块,用于获取目标图形处理器GPU计算任务;
[0029]评估模块,用于根据各GPU集群的当前状态信息,生成各GPU集群的当前任务调度评估值;
[0030]确定模块,用于根据各GPU集群的当前任务调度评估值,从多个GPU集群中,确定一目标GPU集群;
[0031]分配模块,用于将所述目标GPU计算任务分配给所述目标GPU集群进行处理。
[0032]可选地,所述确定模块,用于从所述多个GPU集群中,确定一当前任务调度评估值最大的GPU集群;将当前任务调度评估值最大的GPU集群作为所述目标GPU集群。
[0033]可选地,所述当前状态信息包括多个,所述评估模块,用于获取针对各当前状态信息的预设权重;根据所述多个当前状态信息和对应的预设权重,计算各GPU集群的当前任务调度评估值。
[0034]可选地,所述当前状态信息包括集群算力利用率、算力网络利用率、算力网络时延和集群算力优先级。
[0035]可选地,所述装置还包括:
[0036]计算模块,用于获取上一次采集的算力网络的第一流量,和当前采集的算力网络的第二流量;获取算力网络的带宽;根据所述第一流量、所述第二流量,以及所述算力网络的带宽,计算所述算力网络利用率。
[0037]可选地,所述装置还包括:
[0038]第一缓存模块,用于将所述目标GPU计算任务放入任务缓存队列中;
[0039]所述获取模块,用于从所述任务缓存队列中获取所述目标GPU计算任务。
[0040]可选地,所述装置还包括:
[0041]第二缓存模块,用于获取所述目标GPU计算任务的目标计算结果,并将所述目标计算结果存入所述入任务缓存队列中;
[0042]输出模块,用于从所述任务缓存队列中获取所述目标计算结果,并输出所述目标计算结果。
[0043]本专利技术实施例还提供了一种电子设备,包括处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如上的GPU集群的任务分配方法。
[0044]本专利技术实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如上的GPU集群的任务分配方法。
[0045]本专利技术实施例具有以下优点:
[0046]本专利技术实施例中,获取目标图形处理器GPU计算任务;根据各GPU集群的当前状态
信息,生成各GPU集群的当前任务调度评估值;根据各GPU集群的当前任务调度评估值,从多个GPU集群中,确定一目标GPU集群;将目标GPU计算任务分配给目标GPU集群进行处理。通过本专利技术实施例,实现了基于GPU集群自身因素考虑的基础上,引入算力网络组合策略,在多资源池GPU集群任务调度过程中,既避免了单集群任务过载而降低整体任务吞吐量,又要在集群算力网络空闲期自动感知算力网络利用率,充分利用该GPU集群资源,动态调整任务调度,提升整体GPU算力利用率,节省整体计算时间,从而提高整体GPU集群的利用率。
附图说明
[0047]为了更清楚地说明本专利技术的技术方案,下面将对本专利技术的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0048]图1是本专利技术实施例的一种GPU集群的任务分配方法的步骤流程图;
[0049]图2是本专利技术实施例的另一种GPU集群的任务分配方法的步骤流程图;
[0050]图3是本专利技术实施例的一种场景示意图;
[0051]图4是本专利技术实施例的一种任务分配的步骤流程图;
[0052]图5是本专利技术实施例的另一种任务分配的步骤流程图;
[0053]图6是本专利技术实施例的一种GPU集群的任务本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种GPU集群的任务分配方法,其特征在于,所述方法包括:获取目标图形处理器GPU计算任务;根据各GPU集群的当前状态信息,生成各GPU集群的当前任务调度评估值;根据各GPU集群的当前任务调度评估值,从多个GPU集群中,确定一目标GPU集群;将所述目标GPU计算任务分配给所述目标GPU集群进行处理。2.根据权利要求1所述的方法,其特征在于,所述根据各GPU集群的当前任务调度评估值,从多个GPU集群中,确定一目标GPU集群,包括:从所述多个GPU集群中,确定一当前任务调度评估值最大的GPU集群;将当前任务调度评估值最大的GPU集群作为所述目标GPU集群。3.根据权利要求1所述的方法,其特征在于,所述当前状态信息包括多个,所述根据各GPU集群的当前状态信息,生成各GPU集群的当前任务调度评估值,包括:获取针对各当前状态信息的预设权重;根据所述多个当前状态信息和对应的预设权重,计算各GPU集群的当前任务调度评估值。4.根据权利要求3所述的方法,其特征在于,所述当前状态信息包括集群算力利用率、算力网络利用率、算力网络时延和集群算力优先级。5.根据权利要求4所述的方法,其特征在于,所述方法还包括:获取上一次采集的算力网络的第一流量,和当前采集的算力网络的第二流量;获取算力网络的带宽;根据所述第一流量、所述第二流量,以及所述算力网络的带宽,计算所述算力网络...

【专利技术属性】
技术研发人员:徐玉清袁守正丁富强黄璜张子昊满雅文
申请(专利权)人:中国电信股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1