GPU计算资源的管理方法、装置、电子设备及可读存储介质制造方法及图纸

技术编号:36229858 阅读:10 留言:0更新日期:2023-01-04 12:29
本发明专利技术实施例提供了一种GPU计算资源的管理方法、装置、电子设备及可读存储介质,包括:将Node节点中的GPU进行划分,得到多个vGPU;其中,各个vGPU包含GPU的部分GPU显存和部分GPU计算核心,一个vGPU对应一个Pod服务;收集Node节点中各个vGPU的vGPU信息,并将各个vGPU信息进行注册,得到各个vGPU对应的各个Pod服务的Pod信息;接收各个Pod信息,将各个Pod信息保存为多个文件;根据各个文件,对各个vGPU中的部分GPU显存和部分GPU计算核心进行管理。通过上述方法,能够支持多个Pod服务运行在同一个物理GPU上,同时能够对GPU计算资源进行严格的隔离。离。离。

【技术实现步骤摘要】
GPU计算资源的管理方法、装置、电子设备及可读存储介质


[0001]本专利技术实施例涉及互联网
,特别是涉及一种GPU计算资源的管理方法、一种GPU计算资源的管理装置、一种电子设备以及一种计算机可读存储介质。

技术介绍

[0002]GPU(Graphics Processing Unit 图形处理器),其为一种由大量核心组成的大规模并行计算架构,为同时处理多重任务而设计。作为人工智能革命中领先的计算引擎,GPU在大规模并行运算上有着巨大优势,为大数据、人工智能训练和推理任务以及图像渲染等场景提供了显著的计算性能和加速支持。
[0003]对于人工智能开发人员、GPU

based AI system(研究机构)或进行数字化转型的新型/传统企业,在使用GPU计算资源时势必会面临如下几个问题:(1)GPU资源管理困难。GPU相对CPU(central processing unit中央处理器)价格较贵,GPU作为高价值硬件资源,很难做到像网络、存储一样的运维、管理一体化模式。在实际应用环境下,经常出现多进程、多人员、多任务复用同一GPU资源的情况,长时间的资源等待严重降低了业务流程的推进效率,降低了产品迭代的速度。
[0004](2)GPU资源使用效率低。对于算力需求较小的AI(Artificial Intelligence人工智能)服务(如:on

premise或cloud)通常无法满负载使用一块GPU卡,并且用户在使用GPU资源时也需要显性地区分不同型号的GPU,以适配不同架构、型号GPU的计算核心、驱动和其他版本组件,这些因素难免为用户带来了更高的使用门槛。
[0005](3)GPU资源快速申请、回收困难。在生产环境中,AI服务对GPU资源的申请与释放需要基于任务负载的使用周期,以及不同任务在波峰/波谷时对GPU资源的使用量,按照在线请求数量(Query Per Second 简称QPS)进行自动扩缩容,才能够满足线上AI服务的实时高并发、低延迟的需求。
[0006]为了解决上述问题,工业界已经提出了多种的GPU共享方案,并且在云原生趋势的带动下,利用云原生技术和标准Docker(应用容器引擎)进行容器化部署,已经成为业内云服务对异构计算资源的通用方法,但现有方法通常存在方案需要不断适配、难以覆盖所有场景、不能进行安全隔离或安全性低,无法进行二次开发或二次开发难度高等问题,因此,如何将多个任务同时运行在同一张GPU卡上,同时能够对共享资源进行严格的隔离,是工业界研究的一个重要方向。

技术实现思路

[0007]本专利技术实施例是提供一种GPU计算资源的管理方法、装置、电子设备以及计算机可读存储介质,以解决GPU资源管理困难、GPU资源使用效率低以及GPU资源快速申请、回收困难的问题。
[0008]本专利技术实施例公开了一种GPU计算资源的管理方法,应用于GPU共享系统,所述GPU共享系统部署有k8s集群,所述k8s集群包括Node节点和Pod服务,其中,所述Node节点包括
GPU,所述GPU对应的GPU计算资源至少包括GPU显存和GPU计算核心,所述方法包括:将所述Node节点中的GPU进行划分,得到多个vGPU;其中,各个所述vGPU包含所述GPU的部分GPU显存和部分GPU计算核心,一个所述vGPU对应一个所述Pod服务;收集所述Node节点中各个所述vGPU的vGPU信息,并将各个所述vGPU信息进行注册,得到各个所述vGPU对应的各个所述Pod服务的Pod信息;接收各个所述Pod信息,将各个所述Pod信息保存为多个文件;根据各个所述文件,对各个所述vGPU中的部分GPU显存和部分GPU计算核心进行管理。
[0009]可选地,所述将所述Node节点中的GPU进行划分,得到多个vGPU,包括:当所述Node节点中的GPU进行划分时,根据预设资源配额,将所述GPU的GPU显存和GPU计算核心分配给各个所述vGPU,得到多个包含所述GPU的部分GPU显存和部分GPU计算核心的vGPU。
[0010]可选地,所述vGPU信息至少包括所述vGPU的vGPU数量和vGPU显存大小。
[0011]可选地,所述k8s集群还包括Master节点,所述Master节点包括劫持调度器,所述收集所述Node节点中各个所述vGPU的vGPU信息,并将各个所述vGPU信息进行注册,得到各个所述vGPU对应的各个所述Pod服务的Pod信息,包括:收集所述Node节点中各个所述vGPU的vGPU信息;将各个所述vGPU信息发送至所述Master节点中的劫持调度器,对各个所述vGPU信息进行注册,得到各个所述vGPU对应的各个所述Pod服务的Pod信息。
[0012]可选地,所述接收各个所述Pod信息,将各个所述Pod信息保存为多个文件,包括:接收所述劫持调度器返回的各个所述vGPU对应的各个所述Pod服务的Pod信息,将各个所述Pod信息保存为多个文件。
[0013]可选地,所述Pod信息至少包括所述vGPU中的GPU显存的使用情况和GPU计算核心的使用情况。
[0014]可选地,所述根据各个所述文件,对各个所述vGPU中的部分GPU显存和部分GPU计算核心进行管理,包括:将所述Pod信息中vGPU对应的GPU显存的使用情况和GPU计算核心的使用情况保存为文件;根据所述文件中的vGPU对应的GPU显存的使用情况和GPU计算核心的使用情况,控制所述Pod服务的进程。
[0015]可选地,所述根据所述文件中的vGPU对应的GPU显存的使用情况和GPU计算核心的使用情况,控制所述Pod服务的进程,包括:若所述文件中的vGPU对应的GPU显存的使用情况和GPU计算核心的使用情况为超过预设资源配额时,则控制所述vGPU中的GPU显存和GPU计算核心以终止所述Pod服务的进程;若所述文件中的vGPU对应的GPU显存的使用情况和GPU计算核心的使用情况为满足预设资源配额时,则所述Pod服务的进程正常运行。
[0016]可选地,还包括:根据各个所述vGPU中的GPU显存的使用情况和GPU计算核心的使用情况,对所述
Pod服务的数量进行扩缩。
[0017]可选地,所述GPU位于主机上,所述主机至少包括CPU和内存,所述Pod服务和所述CPU以及所述内存进行绑定,所述根据各个所述vGPU中的GPU显存的使用情况和GPU计算核心的使用情况,对所述Pod服务的数量进行扩缩,包括:获取所述主机中CPU对应的CPU利用率和内存对应的平均内存利用率;根据所述CPU利用率和所述平均内存利用率,自动扩缩所述Pod服务的数量。
[0018]可选地,所述根据所述CPU利用率和所述平均内存利用率,自动扩缩所述Pod服务的数量,包括:若所述Pod服务对应的所述CPU利用率和/或所述平均内存利用率低于预设使用率,则自动缩减所述Pod服务的数量以缩减所述Pod服务对应的vGPU的数量;若所述Pod服务对应的所述CPU利用率和/或所述平均内本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种GPU计算资源的管理方法,其特征在于,应用于GPU共享系统,所述GPU共享系统部署有k8s集群,所述k8s集群包括Node节点和Pod服务,其中,所述Node节点包括GPU,所述GPU对应的GPU计算资源至少包括GPU显存和GPU计算核心,所述方法包括:将所述Node节点中的GPU进行划分,得到多个vGPU;其中,各个所述vGPU包含所述GPU的部分GPU显存和部分GPU计算核心,一个所述vGPU对应一个所述Pod服务;收集所述Node节点中各个所述vGPU的vGPU信息,并将各个所述vGPU信息进行注册,得到各个所述vGPU对应的各个所述Pod服务的Pod信息;接收各个所述Pod信息,将各个所述Pod信息保存为多个文件;根据各个所述文件,对各个所述vGPU中的部分GPU显存和部分GPU计算核心进行管理。2.根据权利要求1所述的方法,其特征在于,所述将所述Node节点中的GPU进行划分,得到多个vGPU,包括:当所述Node节点中的GPU进行划分时,根据预设资源配额,将所述GPU的GPU显存和GPU计算核心分配给各个所述vGPU,得到多个包含所述GPU的部分GPU显存和部分GPU计算核心的vGPU。3.根据权利要求1所述的方法,其特征在于,所述vGPU信息至少包括所述vGPU的vGPU数量和vGPU显存大小。4.根据权利要求1所述的方法,其特征在于,所述k8s集群还包括Master节点,所述Master节点包括劫持调度器,所述收集所述Node节点中各个所述vGPU的vGPU信息,并将各个所述vGPU信息进行注册,得到各个所述vGPU对应的各个所述Pod服务的Pod信息,包括:收集所述Node节点中各个所述vGPU的vGPU信息;将各个所述vGPU信息发送至所述Master节点中的劫持调度器,对各个所述vGPU信息进行注册,得到各个所述vGPU对应的各个所述Pod服务的Pod信息。5.根据权利要求4所述的方法,其特征在于,所述接收各个所述Pod信息,将各个所述Pod信息保存为多个文件,包括:接收所述劫持调度器返回的各个所述vGPU对应的各个所述Pod服务的Pod信息,将各个所述Pod信息保存为多个文件。6.根据权利要求4所述的方法,其特征在于,所述Pod信息至少包括所述vGPU中的GPU显存的使用情况和GPU计算核心的使用情况。7.根据权利要求6所述的方法,其特征在于,所述根据各个所述文件,对各个所述vGPU中的部分GPU显存和部分GPU计算核心进行管理,包括:将所述Pod信息中vGPU对应的GPU显存的使用情况和GPU计算核心的使用情况保存为文件;根据所述文件中的vGPU对应的GPU显存的使用情况和GPU计算核心的使用情况,控制所述Pod服务的进程。8.根据权利要求7所述的方法,其特征在于,所述根据所述文件中的vGPU对应的GPU显存的使用情况和GPU计算核心的使用情况,控制所述Pod服务的进程,包括:若所述文件中的vGPU对应的GPU显存的使用情况和GPU计算核心的使用情况为超过预设资源配额时,则控制所述vGPU中的GPU显存和GPU计算核心以终止所述Pod服务的进程;若所述文件中的vGPU对应的GPU显存的使用情况和GPU计算核心的使用情况为满足预
设资源配额时,则所述Pod服务的进程正常运行。9.根据权利要求1所述的方法,其特征在于,还包括:根据各个所述vGPU中的GPU显存的使用情况和GPU计算核心的使用情况,对所述Pod服务的数量进行扩缩。10.根据权利要求9所述的方法,其特征在于,所述GPU位于主机上,所述主机至少包括CPU和内存,所述Pod服务和所述CPU以及所述内存进行绑定,所述根据各个所述vGPU中的GPU显存的使用情况和GPU计算核心的使用情况,对所述Pod服务的数量进行扩缩,包括:获取所述主...

【专利技术属性】
技术研发人员:王超
申请(专利权)人:苏州浪潮智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1