一种共享GPU资源的容器调度系统及调度方法技术方案

技术编号:37502802 阅读:10 留言:0更新日期:2023-05-07 09:38
本发明专利技术属于图形处理器资源调度领域,提供了一种共享GPU资源的容器调度系统及调度方法,针对GPU资源由系统外部在各应用平台进行复用,将导致服务器的反复初始化及迁移,造成人工损耗以及时间的浪费的问题,本发明专利技术考虑从计算任务移植方面进行GPU资源的共享,在GPU资源池上构建容器系统,通过将各个平台的任务容器化后调度到提供的资源池GPU节点上,实现异构平台间GPU资源共享,提高整体平台的GPU资源利用率可满足云计算、大数据、人工智能和高性能计算场景平台的快速灵活部署实施。能计算场景平台的快速灵活部署实施。能计算场景平台的快速灵活部署实施。

【技术实现步骤摘要】
一种共享GPU资源的容器调度系统及调度方法


[0001]本专利技术属于图形处理器资源调度领域,尤其涉及一种共享GPU资源的容器调度系统及调度方法。

技术介绍

[0002]本部分的陈述仅仅是提供了与本专利技术相关的
技术介绍
信息,不必然构成在先技术。
[0003]随着现实场景中各应用领域对计算需求的提升,图形处理器(GPU)资源凭借其强大的计算能力、高内存宽带和海量数据级并行计算模型等优势,得到了数据中心不同应用平台的广泛应用,使得GPU集群的规模不断扩大。但由于GPU昂贵的价格,在数据中心中属于不同计算应用平台争取的稀缺性资源。若采取公平分配原则,由于各平台的GPU资源使用情况各不相同,当某一平台GPU资源不满足平台需求的同时,其余应用平台GPU资源可能存在闲置情况,将造成GPU资源的浪费。
[0004]基于此情况,考虑各平台共享彼此GPU资源来提升数据中心整体的GPU资源利用率。若从物理级节点考虑,各平台GPU计算节点隶属于某一资源调度系统,调度系统架构以及技术组件各不相同,不支持彼此之间GPU资源的共享。若考虑将GPU资源由系统外部在各应用平台进行复用,将导致服务器的反复初始化及迁移,造成人工损耗以及时间的浪费。

技术实现思路

[0005]为了解决上述
技术介绍
中存在的至少一项技术问题,本专利技术提供一种共享GPU资源的容器调度系统及调度方法,其考虑从计算任务移植方面进行GPU资源的共享。在GPU资源池上构建容器系统,通过将各个平台的任务容器化后调度到提供的资源池GPU节点上,实现异构平台间GPU资源共享,提高整体平台的GPU资源利用率。
[0006]为了实现上述目的,本专利技术采用如下技术方案:本专利技术的第一个方面提供一种共享GPU资源的容器调度系统,包括:容器化模块,其被配置为:获取多个异构应用平台的GPU任务信息,并将GPU任务容器化;容器调度模块,其被配置为:接收各个平台的GPU容器任务,根据所需资源大小,形成容器任务队列;接收GPU资源管理模块反馈的GPU信息,将容器调度到相应的GPU节点,执行容器任务;GPU资源管理模块,其被配置为:监控GPU资源使用情况,将GPU资源根据GPU卡的属性形成资源管理队列,接收发送的资源请求,基于容器请求信息和调度策略,选择容器任务所需的GPU卡,并根据GPU卡的相关节点信息为容器指定GPU资源。
[0007]进一步地,GPU资源管理模块中,所述接收发送的资源请求,基于容器请求信息和调度策略,选择容器任务所需的GPU卡,并根据GPU卡的相关节点信息为容器指定GPU资源,具体包括:
读取资源队列第一位的GPU资源信息,并锁定当前资源GPU节点;判断当前锁定GPU资源是否满足任务需求,若满足,在锁定的GPU资源中,根据调度策略选取GPU节点,否则读取资源队列下一位的GPU资源信息,释放原来锁定的GPU节点资源,直到队列为空;锁定资源队列最后一位的GPU资源,读取GPU资源信息;根据任务请求与锁定的GPU资源信息,上线不少于所需GPU卡数量的GPU节点,锁定上线节点。
[0008]进一步地,所述系统还包括容器任务反馈模块,其被配置为:监控容器任务执行情况,接收应用平台的任务查询请求,将任务情况反馈到客户指定的目录,并在容器任务完成后,将任务结果反馈到客户指定目录。
[0009]进一步地,所述多个异构应用平台包括:高性能计算应用平台、云计算应用平台和人工智能应用平台。
[0010]进一步地,所述共享GPU资源的容器调度系统部署在Kubernetes集群上,包括控制节点和计算节点,所述控制节点和计算节点连接至同一个私有子网,所述私有子网通过路由器连接到公共网络,以便节点相互访问和访问外部互联网。
[0011]本专利技术的第二个方面提供一种共享GPU资源的容器调度方法,包括如下步骤:获取多个异构应用平台的GPU任务信息,并将GPU任务容器化;接收各个平台的GPU容器任务,根据所需资源大小,形成容器任务队列;接收反馈的GPU信息,将容器调度到相应的GPU节点,执行容器任务;监控GPU资源使用情况,将GPU资源根据GPU卡的属性形成资源管理队列,接收发送的资源请求,基于容器请求信息和调度策略,选择容器任务所需的GPU卡,并根据GPU卡的相关节点信息为容器指定GPU资源。
[0012]进一步地,调度单位为GPU卡,根据GPU资源利用情况与容器所需GPU卡的数量,通过调度策略,选择适应的GPU卡,根据容器任务所需GPU卡信息为容器指定GPU资源。
[0013]进一步地,所述GPU资源使用情况包括:GPU资源信息的品牌,GPU资源信息的版本, GPU资源信息中GPU卡的数量,GPU资源信息的节点信息。
[0014]进一步地,所述接收发送的资源请求,基于容器请求信息和调度策略,选择容器任务所需的GPU卡,并根据GPU卡的相关节点信息为容器指定GPU资源,具体包括:读取资源队列第一位的GPU资源信息,并锁定当前资源GPU节点;判断当前锁定GPU资源是否满足任务需求,若满足,在锁定的GPU资源中,根据调度策略选取GPU节点,否则读取资源队列下一位的GPU资源信息,释放原来锁定的GPU节点资源,直到队列为空;锁定资源队列最后一位的GPU资源,读取GPU资源信息;根据任务请求与锁定的GPU资源信息,上线不少于所需GPU卡数量的GPU节点,锁定上线节点。
[0015]进一步地,针对容器任务需求的GPU之间的平均数据传输长度构建数据传输时间损失函数。
[0016]与现有技术相比,本专利技术的有益效果是:1、本专利技术考虑从计算任务移植方面进行GPU资源的共享,可以解决GPU资源在不同
应用平台间的共享,明从计算任务容器化的角度满足计算任务的移植需求,容器通过将应用程序及其库、配置文件和其他依赖项封装在一起来确保环境兼容性,从而使用户能够在集群之间轻松移动和部署程序,根据各应用平台GPU任务对GPU资源的需求灵活调度,从而提升整体平台的GPU资源利用率。
[0017]2、本专利技术的GPU资源的共享主要利用各应用平台适配的容器管理组件将GPU任务容器化,然后将容器在各平台与系统间进行移植,通过在系统对GPU资源的统一调度完成容器任务,可满足云计算、大数据、人工智能和高性能计算场景平台的快速灵活部署实施。
附图说明
[0018]构成本专利技术的一部分的说明书附图用来提供对本专利技术的进一步理解,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。
[0019]图1为本专利技术实施例一提供的共享GPU容器调度系统框架图;图2为本专利技术实施例一提供的异构平台中的GPU任务容器化及调度框架图;图3为本专利技术实施例一提供的共享GPU容器调度系统GPU资源调度流程图;图4为本专利技术实施例二提供的高性能应用平台中的GPU任务容器化及调度流程图。
具体实施方式
[0020]下面结合附图与实施例对本专利技术作进一步说明。
[0021]应该指出,以下详细说明都是例示性的,旨在对本专利技术提供进一步的说明。除非另有本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种共享GPU资源的容器调度系统,其特征在于,包括:容器化模块,其被配置为:获取多个异构应用平台的GPU任务信息,并将GPU任务容器化;容器调度模块,其被配置为:接收各个平台的GPU容器任务,根据所需资源大小,形成容器任务队列;接收GPU资源管理模块反馈的GPU信息,将容器调度到相应的GPU节点,执行容器任务;GPU资源管理模块,其被配置为:监控GPU资源使用情况,将GPU资源根据GPU卡的属性形成资源管理队列,接收发送的资源请求,基于容器请求信息和调度策略,选择容器任务所需的GPU卡,并根据GPU卡的相关节点信息为容器指定GPU资源。2.根据权利要求1所述的一种共享GPU资源的容器调度系统,其特征在于,GPU资源管理模块中,所述接收发送的资源请求,基于容器请求信息和调度策略,选择容器任务所需的GPU卡,并根据GPU卡的相关节点信息为容器指定GPU资源,具体包括:读取资源队列第一位的GPU资源信息,并锁定当前资源GPU节点;判断当前锁定GPU资源是否满足任务需求,若满足,在锁定的GPU资源中,根据调度策略选取GPU节点,否则读取资源队列下一位的GPU资源信息,释放原来锁定的GPU节点资源,直到队列为空;锁定资源队列最后一位的GPU资源,读取GPU资源信息;根据任务请求与锁定的GPU资源信息,上线不少于所需GPU卡数量的GPU节点,锁定上线节点。3.根据权利要求1所述的一种共享GPU资源的容器调度系统,其特征在于,所述系统还包括容器任务反馈模块,其被配置为:监控容器任务执行情况,接收应用平台的任务查询请求,将任务情况反馈到客户指定的目录,并在容器任务完成后,将任务结果反馈到客户指定目录。4.根据权利要求1所述的一种共享GPU资源的容器调度系统,其特征在于,所述多个异构应用平台包括:高性能计算应用平台、云计算应用平台和人工智能应用平台。5.根据权利要求1所述的一种共享GPU资源的容器调度系统,其特征在于,所述共享GPU资源的容器调度系统部署在Kubernetes集群上,包括控制节点和计算节点,所述控制节点和计算节...

【专利技术属性】
技术研发人员:王继彬刘鑫郭莹潘岩潘景山吴晓明杨美红
申请(专利权)人:齐鲁工业大学山东省科学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1