计算集群中GPU资源的调度方法、电子设备和存储介质技术

技术编号：41211060 阅读：16 留言：0更新日期：2024-05-09 23:33

本发明专利技术涉及计算集群中GPU资源的调度方法、电子设备和存储介质。该方法包括：获取计算集群中各个物理节点上的GPU信息；根据接收到的客户端的GPU资源请求，以及所述计算集群中各个物理节点的GPU信息，基于预定的GPU分配规则，为所述客户端分配所述计算集群中的GPU资源；所述GPU资源请求包括GPU资源调用请求和GPU资源释放请求。本发明专利技术既能够有效提高计算集群中GPU资源的利用率，降低GPU资源碎片化，使得用户被分配到的GPU资源更加集中，计算集群能够相应更多用户的GPU资源请求；又能够充分满足用户的保密需要。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算资源分配领域，具体涉及计算集群中gpu资源的调度方法、电子设备和存储介质。

技术介绍

1、近年来，由于模型复杂度增加、数据量增长、越来越多样化的应用场景、实时推理和边缘计算需求增加，人工智能（ai）算力需求呈现出快速增长的趋势，对大规模计算资源的需求也逐渐增长。因此，大集群应用在各个行业中变得越来越广泛，云计算平台和大规模集群技术的发展使得获取和使用大规模计算资源更加便捷和经济。各种云服务提供商纷纷推出高性能计算服务，使得大集群应用变得更为广泛。

2、现有技术中的集群gpu资源调度系统和方法（公开号cn102541640a）用以解决现有的单个gpu无法承载复杂计算任务，且现有的集群gpu资源调度方式效率不高、且集群中的gpu卡无法即插即用的问题。该专利技术提供的集群gpu资源调度系统和方法能够实现gpu资源的充分利用，使多个计算任务并行执行，此外，还能够实现集群中各子节点gpu的即插即用。然而该方案以用户提交的任务为核心进行任务调度，并不涉及基于用户直接远程请求gpu资源的调度与分配方法。

3、现有技术中的基于cuda的gpu资源调度系统和方法（公开号cn110471766a）针对不同类型的应用采用不同的gpu特性，提高整个系统中gpu的利用率，加速应用在gpu中的运行效率。该系统可以针对应用需求，动态切换gpu模式，根据应用需要选择最适合应用的gpu类型及其需要的gpu factor，同一用户多个应用可通过gpu mps以独占的方式共享使用gpu，提高gpu利用率；支持ibm nk互联

4、因此，以上述现有技术为例，当前在使用大规模集群中的图形处理器（gpu）资源时，并不是所有用户都能直接在集群中的物理机上使用。大部分用户则是通过网络远程访问gpu资源，利用容器、k8s等方法将任务和数据上传到集群进行训练或者推理。但对于一部分不愿意提交自己的数据到云端的远程访问用户来说，这种gpu资源的使用方式并不能满足这类远程访问用户的应用需求。另外，由于当前大多数gpu资源的调度方式均是以任务为调度单位，因此无法处理任务所需的gpu资源小于1导致的gpu资源碎片化的问题。

5、在满足用户需求的前提下，当用户的请求上传到集群时，若不合理地进行资源分配，则很有可能影响用户的使用体验或导致集群中的gpu资源浪费，在用户释放gpu资源时，若不及时对集群内资源分配进行调整，则有导致gpu资源碎片化、集群资源利用率下降的风险。

技术实现思路

1、本专利技术的主要目的是提供计算集群中gpu资源的调度方法、电子设备和存储介质，以消除或改善现有技术中存在的一个或多个缺陷。

2、为了完成上述目的，本专利技术一个方面提供了一种计算集群中gpu资源的调度方法，包括以下步骤：

3、获取计算集群中各个物理节点上的gpu信息，所述gpu信息包括gpu利用信息和gpu位置信息；

4、根据接收到的客户端的gpu资源请求，以及所述计算集群中各个物理节点的gpu信息，基于预定的gpu分配规则，为所述客户端分配所述计算集群中的gpu资源；所述gpu资源请求包括gpu资源调用请求和gpu资源释放请求。

5、本申请的一个或多个实施例中，所述gpu分配规则是基于gpu资源的分配原则预先确定的，所述gpu资源的调度原则包括针对资源调度请求的调度原则以及针对资源释放请求的调度原则。

6、本申请的一个或多个实施例中，若接收到的gpu资源调用请求对应的客户端目前没有占用计算集群中任一物理节点中的gpu资源，基于针对资源调度请求的调度原则确定的gpu分配规则包括：

7、（1）若所述gpu资源调用请求所需的gpu资源数等于1，则在所述计算集群中的各个物理节点中，选择空闲gpu资源满足所述gpu资源调用请求，且与所述gpu资源调用请求所需的gpu资源最相近的物理节点，将选择的物理节点的gpu资源分配给该客户端；

8、（2）若所述gpu资源调用请求中请求的gpu资源数小于1，则优先在所述计算集群中gpu资源已被部分调用的物理节点中，按照与（1）相同的分配规则进行分配；若所述计算集群中所有gpu资源已被调用的物理节点中的空闲gpu资源都无法满足所述gpu资源调用请求，则在所述计算集群中gpu资源未被调用的物理节点中，按照与（1）相同的分配原则进行分配；

9、（3）若所述gpu资源调用请求中请求的gpu资源数大于1，则优先在其内的空闲gpu资源之间存在高速连接通道的物理节点中，按照与（1）相同的分配规则进行分配；若所有的物理节点其内的空闲gpu资源之间均不存在高速连接通道，则在所述计算集群中的所有物理节点中，按照与（1）相同的分配规则进行分配。

10、本申请的一个或多个实施例中，基于针对资源调度请求的调度原则确定的gpu分配规则，还包括：

11、若所选择出的所有物理节点的空闲gpu资源均小于此次gpu资源调度请求所需要的gpu资源，则将所选择出的物理节点的按照空闲gpu资源从大到小排序，优先分配空闲gpu资源最大的物理节点的gpu资源给客户端，直至能够从剩下的物理节点中选择出空闲gpu资源满足所述gpu资源调用请求剩下所需的gpu资源，且与所述gpu资源调用请求所需的gpu资源最相近的物理节点，将选择出的物理节点的gpu资源分配给客户端。

12、本申请的一个或多个实施例中，若接收到的gpu资源调用请求对应的客户端在本次调用之前，已经占用计算集群中物理节点中的gpu资源，基于针对资源调度请求的调度原则确定的所述gpu分配规则，包括：

13、优先在该客户端已调用gpu资源对应的物理节点中，选择空闲gpu资源满足此次gpu资源调用请求的物理节点，且与所述gpu资源调动请求所需的gpu资源最相近的物理节点，将选择的物理节点的gpu资源分配给该客户端；

14、若该客户端已调用gpu资源对应的物理节点中的空闲gpu资源不能满足此次gpu资源调用请求，则选择所述计算集群中能满足该客户端的所有gpu资源调用请求之和，且与该客户端所有gpu资源调用请求之和最相近的物理节点，将该客户端已调用的gpu资源迁移至选择的物理节点中，并根据所述gpu资源调用请求将选择的物理节点的gpu资源分配给该客户端；

15、若所述计算集群中没有能满足该客户端的所有gpu资源调用请求之和的物理节点，则将该客户端已调用的gpu资源对应的物理节点的空闲gpu资源分配给该客户端，在对应的物理节点中执行gpu资源分配后，针对剩余的gpu资源调用请求需求的gpu资源，优先在其内的空闲gpu资源之间存在高速连接通道本文档来自技高网...

【技术保护点】

1.一种计算集群中GPU资源的调度方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的，其特征在于，所述GPU分配规则是基于GPU资源的分配原则预先确定的，所述GPU资源的调度原则包括针对资源调度请求的调度原则以及针对资源释放请求的调度原则。

3.根据权利要求2所述的，其特征在于，若接收到的GPU资源调用请求对应的客户端目前没有占用计算集群中任一物理节点中的GPU资源，基于针对资源调度请求的调度原则确定的GPU分配规则包括：

4.根据权利要求3所述的，其特征在于，基于针对资源调度请求的调度原则确定的GPU分配规则，还包括：

5.根据权利要求3或4所述的，其特征在于，若接收到的GPU资源调用请求对应的客户端在本次调用之前，已经占用计算集群中物理节点中的GPU资源，基于针对资源调度请求的调度原则确定的所述GPU分配规则，包括：

6.根据权利要求1所述的，其特征在于，基于针对资源释放请求的调度原则确定的GPU分配规则包括：

7.根据权利要求1所述的，其特征在于，所述方法还包括：对所述计算集群中被调用的GPU资

8.一种电子设备，包括处理器和存储器，其特征在于，所述存储器中存储有计算机指令，所述处理器用于执行所述存储器中存储的计算机指令，当所述计算机指令被处理器执行时，该电子设备实现如权利要求1-7任一所述的计算集群中GPU资源的调度方法。

9.一种计算机可读存储单元，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-7任一所述的计算集群中GPU资源的调度方法。

...

【技术特征摘要】

1.一种计算集群中gpu资源的调度方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的，其特征在于，所述gpu分配规则是基于gpu资源的分配原则预先确定的，所述gpu资源的调度原则包括针对资源调度请求的调度原则以及针对资源释放请求的调度原则。

3.根据权利要求2所述的，其特征在于，若接收到的gpu资源调用请求对应的客户端目前没有占用计算集群中任一物理节点中的gpu资源，基于针对资源调度请求的调度原则确定的gpu分配规则包括：

4.根据权利要求3所述的，其特征在于，基于针对资源调度请求的调度原则确定的gpu分配规则，还包括：

5.根据权利要求3或4所述的，其特征在于，若接收到的gpu资源调用请求对应的客户端在本次调用之前，已经占用计算集群中物理节点中的gpu资源，基于针对资源调度请求的调度原则确定的所述gpu分配规则，包括：...

【专利技术属性】
技术研发人员：钟沛，刘意虎，张铎，王勇军，周磊，
申请(专利权)人：麒麟软件有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人