【技术实现步骤摘要】
GPU计算资源的管理方法、装置、电子设备及可读存储介质
[0001]本专利技术实施例涉及互联网
,特别是涉及一种GPU计算资源的管理方法、一种GPU计算资源的管理装置、一种电子设备以及一种计算机可读存储介质。
技术介绍
[0002]GPU(Graphics Processing Unit 图形处理器),其为一种由大量核心组成的大规模并行计算架构,为同时处理多重任务而设计。作为人工智能革命中领先的计算引擎,GPU在大规模并行运算上有着巨大优势,为大数据、人工智能训练和推理任务以及图像渲染等场景提供了显著的计算性能和加速支持。
[0003]对于人工智能开发人员、GPU
‑
based AI system(研究机构)或进行数字化转型的新型/传统企业,在使用GPU计算资源时势必会面临如下几个问题:(1)GPU资源管理困难。GPU相对CPU(central processing unit中央处理器)价格较贵,GPU作为高价值硬件资源,很难做到像网络、存储一样的运维、管理一体化模式。在实际应用环境下,经常出现多进程、多人员、多任务复用同一GPU资源的情况,长时间的资源等待严重降低了业务流程的推进效率,降低了产品迭代的速度。
[0004](2)GPU资源使用效率低。对于算力需求较小的AI(Artificial Intelligence人工智能)服务(如:on
‑
premise或cloud)通常无法满负载使用一块GPU卡,并且用户在使用GPU资源时也需要显性地区分不同型号的GP ...
【技术保护点】
【技术特征摘要】
1.一种GPU计算资源的管理方法,其特征在于,应用于GPU共享系统,所述GPU共享系统部署有k8s集群,所述k8s集群包括Node节点和Pod服务,其中,所述Node节点包括GPU,所述GPU对应的GPU计算资源至少包括GPU显存和GPU计算核心,所述方法包括:将所述Node节点中的GPU进行划分,得到多个vGPU;其中,各个所述vGPU包含所述GPU的部分GPU显存和部分GPU计算核心,一个所述vGPU对应一个所述Pod服务;收集所述Node节点中各个所述vGPU的vGPU信息,并将各个所述vGPU信息进行注册,得到各个所述vGPU对应的各个所述Pod服务的Pod信息;接收各个所述Pod信息,将各个所述Pod信息保存为多个文件;根据各个所述文件,对各个所述vGPU中的部分GPU显存和部分GPU计算核心进行管理。2.根据权利要求1所述的方法,其特征在于,所述将所述Node节点中的GPU进行划分,得到多个vGPU,包括:当所述Node节点中的GPU进行划分时,根据预设资源配额,将所述GPU的GPU显存和GPU计算核心分配给各个所述vGPU,得到多个包含所述GPU的部分GPU显存和部分GPU计算核心的vGPU。3.根据权利要求1所述的方法,其特征在于,所述vGPU信息至少包括所述vGPU的vGPU数量和vGPU显存大小。4.根据权利要求1所述的方法,其特征在于,所述k8s集群还包括Master节点,所述Master节点包括劫持调度器,所述收集所述Node节点中各个所述vGPU的vGPU信息,并将各个所述vGPU信息进行注册,得到各个所述vGPU对应的各个所述Pod服务的Pod信息,包括:收集所述Node节点中各个所述vGPU的vGPU信息;将各个所述vGPU信息发送至所述Master节点中的劫持调度器,对各个所述vGPU信息进行注册,得到各个所述vGPU对应的各个所述Pod服务的Pod信息。5.根据权利要求4所述的方法,其特征在于,所述接收各个所述Pod信息,将各个所述Pod信息保存为多个文件,包括:接收所述劫持调度器返回的各个所述vGPU对应的各个所述Pod服务的Pod信息,将各个所述Pod信息保存为多个文件。6.根据权利要求4所述的方法,其特征在于,所述Pod信息至少包括所述vGPU中的GPU显存的使用情况和GPU计算核心的使用情况。7.根据权利要求6所述的方法,其特征在于,所述根据各个所述文件,对各个所述vGPU中的部分GPU显存和部分GPU计算核心进行管理,包括:将所述Pod信息中vGPU对应的GPU显存的使用情况和GPU计算核心的使用情况保存为文件;根据所述文件中的vGPU对应的GPU显存的使用情况和GPU计算核心的使用情况,控制所述Pod服务的进程。8.根据权利要求7所述的方法,其特征在于,所述根据所述文件中的vGPU对应的GPU显存的使用情况和GPU计算核心的使用情况,控制所述Pod服务的进程,包括:若所述文件中的vGPU对应的GPU显存的使用情况和GPU计算核心的使用情况为超过预设资源配额时,则控制所述vGPU中的GPU显存和GPU计算核心以终止所述Pod服务的进程;若所述文件中的vGPU对应的GPU显存的使用情况和GPU计算核心的使用情况为满足预
设资源配额时,则所述Pod服务的进程正常运行。9.根据权利要求1所述的方法,其特征在于,还包括:根据各个所述vGPU中的GPU显存的使用情况和GPU计算核心的使用情况,对所述Pod服务的数量进行扩缩。10.根据权利要求9所述的方法,其特征在于,所述GPU位于主机上,所述主机至少包括CPU和内存,所述Pod服务和所述CPU以及所述内存进行绑定,所述根据各个所述vGPU中的GPU显存的使用情况和GPU计算核心的使用情况,对所述Pod服务的数量进行扩缩,包括:获取所述主...
【专利技术属性】
技术研发人员:王超,
申请(专利权)人:苏州浪潮智能科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。