GPU集群调度方法、装置制造方法及图纸

技术编号：38200004 阅读：14 留言：0更新日期：2023-07-21 16:41

本发明专利技术提出一种GPU集群调度方法、装置，所述方法包括：租户提交任务至等待队列；获取集群中各个计算节点上的任务信息；从所述等待队列中选取满足第一预设条件的任务；依据所述任务与计算节点的亲和性，将满足第一预设条件的所述任务调度至选取满足第二预设条件的所述计算节点。该方法在提高GPU集群资源利用率的同时，兼顾多租户的公平性。兼顾多租户的公平性。兼顾多租户的公平性。

全部详细技术资料下载

【技术实现步骤摘要】
GPU集群调度方法、装置

[0001]本专利技术涉及GPU
，尤其涉及一种GPU集群调度方法、装置。

技术介绍

[0002]得益于GPU设备高性能的计算能力，GPU目前在深度学习，机器学习等等领域有着广泛的应用。随着人工智能技术的不断发展与推广，对AI模型的训练越来越依赖于大量的GPU设备。这些设备组成集群之后如何进行调度，提高GPU集群的利用率成为了一个研究热点。
[0003]现有的GPU调度集群很少出现租户的概念，但是云厂商提供GPU却往往需要涉及到多租户的资源分配，提高集群效率的同时租户之间的公平性如何保证成为研究GPU调度集群的一个挑战。

技术实现思路

[0004]针对现有技术的不足，本专利技术提出一种GPU集群调度方法、装置，该方法在提高GPU集群资源利用率的同时，兼顾多租户的公平性。
[0005]为了实现上述目的，本专利技术一方面提供一种GPU集群调度方法，包括：
[0006]租户提交任务至等待队列；
[0007]获取集群中各个计算节点上的任务信息；
[0008]从所述等待队列中选取满足第一预设条件的任务；
[0009]依据所述任务与计算节点的亲和性，将满足第一预设条件的所述任务调度至选取满足第二预设条件的所述计算节点。
[0010]可选的，所述租户提交任务至等待队列之前，还包括：
[0011]将所述计算节点上的GPU分别按照内存与算力虚拟化成细粒度资源，
[0012]启动全局调度器控制全局的资源调度，所述计算节...

【技术保护点】

【技术特征摘要】
1.一种GPU集群调度方法，其特征在于，包括：租户提交任务至等待队列；获取集群中各个计算节点上的任务信息；从所述等待队列中选取满足第一预设条件的任务；依据所述任务与计算节点的亲和性，将满足第一预设条件的所述任务调度至选取满足第二预设条件的所述计算节点。2.根据权利要求1所述的方法，其特征在于，所述租户提交任务至等待队列之前，还包括：将所述计算节点上的GPU分别按照内存与算力虚拟化成细粒度资源，启动全局调度器控制全局的资源调度，所述计算节点上启动局部代理控制本节点上的GPU调度，所述全局调度器用于集群任务调度，所述局部代理用于收集租户资源使用情况。3.根据权利要求2所述的方法，其特征在于，所述租户提交任务至等待队列，包括：在集群中创建所述租户，所述租户申请相应配额的资源；所述租户使用申请到的所述资源提交任务到所述等待队列。4.根据权利要求2所述的方法，其特征在于，所述获取集群中各个计算节点上的任务信息，包括：各个所述计算节点统计自身资源使用情况与任务执行情况上传给所述全局调度器。5.根据权利要求1所述的方法，其特征在于，还包括：当监测到任务到达和/或任务离开时，进行资源调度，从所述等待队列中选取满足所述第一预设条件的任务。6.根据权利要求1所述的方法，其特征在于，所述第一预设条件为根据租户时间维度与空间维度确定任务的调度优先级条件；所...

【专利技术属性】
技术研发人员：李志轩，孙毓忠，张凯，
申请(专利权)人：中国科学院计算技术研究所，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人