一种GPU集群的任务分配方法、装置、电子设备和介质制造方法及图纸

技术编号：37442708 阅读：7 留言：0更新日期：2023-05-06 09:14

本发明专利技术实施例提供了一种GPU集群的任务分配方法、装置、电子设备和介质，该方法包括：获取目标图形处理器GPU计算任务；根据各GPU集群的当前状态信息，生成各GPU集群的当前任务调度评估值；根据各GPU集群的当前任务调度评估值，从多个GPU集群中，确定一目标GPU集群；将目标GPU计算任务分配给目标GPU集群进行处理。通过本发明专利技术实施例，实现了基于GPU集群自身因素考虑的基础上，引入算力网络组合策略，在多资源池GPU集群任务调度过程中，既避免了单集群任务过载而降低整体任务吞吐量，又要在集群算力网络空闲期自动感知算力网络利用率，充分利用该GPU集群资源，动态调整任务调度，提升整体GPU算力利用率。GPU算力利用率。GPU算力利用率。

全部详细技术资料下载

【技术实现步骤摘要】
一种GPU集群的任务分配方法、装置、电子设备和介质

[0001]本专利技术涉及数据处理的
，特别是涉及一种GPU集群的任务分配方法、装置、电子设备和介质。

技术介绍

[0002]当下，全球各国都在加速人工智能布局，将其作为战略性技术之一，人工智能应用将渗透到各个行业中，GPU(Graphics Processing Unit，图形处理器)作为人工智能的算力基础设施，必然发挥关键决定性作用。随着人工智能算力需求不断增长，如何实现高效的GPU集群资源调度，是大规模GPU算力集群是急需突破的关键技术之一。

技术实现思路

[0003]鉴于上述问题，提出了以便提供克服上述问题或者至少部分地解决上述问题的一种GPU集群的任务分配方法、装置、电子设备和介质，包括：
[0004]一种GPU集群的任务分配方法，所述方法包括：
[0005]获取目标图形处理器GPU计算任务；
[0006]根据各GPU集群的当前状态信息，生成各GPU集群的当前任务调度评估值；
[0007]根据各GPU集群的当前任务调度评估值，从多个GPU集群中，确定一目标GPU集群；
[0008]将所述目标GPU计算任务分配给所述目标GPU集群进行处理。
[0009]可选地，所述根据各GPU集群的当前任务调度评估值，从多个GPU集群中，确定一目标GPU集群，包括：
[0010]从所述多个GPU集群中，确定一当前任务调度评估值最大的GPU集群；
[0011]将当前任务调度评估值最大的GPU...

【技术保护点】

【技术特征摘要】
1.一种GPU集群的任务分配方法，其特征在于，所述方法包括：获取目标图形处理器GPU计算任务；根据各GPU集群的当前状态信息，生成各GPU集群的当前任务调度评估值；根据各GPU集群的当前任务调度评估值，从多个GPU集群中，确定一目标GPU集群；将所述目标GPU计算任务分配给所述目标GPU集群进行处理。2.根据权利要求1所述的方法，其特征在于，所述根据各GPU集群的当前任务调度评估值，从多个GPU集群中，确定一目标GPU集群，包括：从所述多个GPU集群中，确定一当前任务调度评估值最大的GPU集群；将当前任务调度评估值最大的GPU集群作为所述目标GPU集群。3.根据权利要求1所述的方法，其特征在于，所述当前状态信息包括多个，所述根据各GPU集群的当前状态信息，生成各GPU集群的当前任务调度评估值，包括：获取针对各当前状态信息的预设权重；根据所述多个当前状态信息和对应的预设权重，计算各GPU集群的当前任务调度评估值。4.根据权利要求3所述的方法，其特征在于，所述当前状态信息包括集群算力利用率、算力网络利用率、算力网络时延和集群算力优先级。5.根据权利要求4所述的方法，其特征在于，所述方法还包括：获取上一次采集的算力网络的第一流量，和当前采集的算力网络的第二流量；获取算力网络的带宽；根据所述第一流量、所述第二流量，以及所述算力网络的带宽，计算所述算力网络...

【专利技术属性】
技术研发人员：徐玉清，袁守正，丁富强，黄璜，张子昊，满雅文，
申请(专利权)人：中国电信股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人