System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种GPU资源调整方法及系统、电子设备和存储介质技术方案_技高网

一种GPU资源调整方法及系统、电子设备和存储介质技术方案

技术编号:40155717 阅读:8 留言:0更新日期:2024-01-26 23:31
本公开涉及一种GPU资源调整方法及系统、电子设备和存储介质,所述方法包括:确定共享目标GPU的每个容器对应的GPU资源使用率;在根据第一容器对应的GPU资源使用率确定第一容器需要进行GPU资源调整时,根据第一容器对应的GPU资源调整类型确定是否需要进行GPU资源协同调整,GPU资源协同调整用于控制共享目标GPU的多个容器的GPU资源申请总量不超过目标GPU提供的GPU资源总量;在确定需要进行GPU资源协同调整以及存在符合GPU资源协同调整条件的第二容器时,对第一容器和至少一个第二容器进行GPU资源协同调整。本公开实施例可以有效提高了Kubernetes的GPU资源使用率。

【技术实现步骤摘要】

本公开涉及计算机,尤其涉及一种gpu资源调整方法及系统、电子设备和存储介质。


技术介绍

1、kubernetes是一种开源的容器编排系统,可用于在大型集群中自动部署、扩展和管理容器化应用程序。当前想在kubernetes中使用第三方设备,如gpu,可以通过其提供的一些扩展机制,如device plugin很方便的集成入kubernetes生态,使得在kubernetes中使用gpu就如同使用cpu/memory一样简单。为了优化kubernetes中对gpu资源的使用效率,亟需一种gpu资源调整方法。


技术实现思路

1、本公开提出了一种gpu资源调整方法及系统、电子设备和存储介质的技术方案。

2、根据本公开的一方面,提供了一种gpu资源调整方法,包括:确定共享目标gpu的多个容器中每个容器对应的gpu资源使用率;在根据第一容器对应的gpu资源使用率,确定所述第一容器需要进行gpu资源调整的情况下,确定所述第一容器对应的gpu资源调整类型,其中,所述第一容器是共享所述目标gpu的多个容器中的任意一个;根据所述第一容器对应的gpu资源调整类型,确定是否需要进行gpu资源协同调整,其中,所述gpu资源协同调整用于控制共享所述目标gpu的多个容器的gpu资源申请总量不超过所述目标gpu提供的gpu资源总量;在确定需要进行gpu资源协同调整的情况下,确定共享所述目标gpu的多个容器中是否存在符合gpu资源协同调整条件的第二容器;在存在所述第二容器的情况下,对所述第一容器和至少一个所述第二容器进行gpu资源协同调整。

3、在一种可能的实现方式中,所述在根据第一容器对应的gpu资源使用率,确定所述第一容器需要进行gpu资源调整的情况下,确定所述第一容器对应的gpu资源调整类型,包括:在所述第一容器对应的gpu资源使用率大于第一预设阈值的情况下,确定需要对所述第一容器进行gpu资源调整,且所述第一容器对应的gpu资源调整类型为gpu扩容;在所述第一容器对应的gpu资源使用率小于第二预设阈值的情况下,确定需要对所述第一容器进行gpu资源调整,且所述第一容器对应的gpu资源调整类型为gpu缩容。

4、在一种可能的实现方式中,所述根据所述第一容器对应的gpu资源调整类型,确定是否需要进行gpu资源协同调整,包括:在所述第一容器对应的gpu资源调整类型为gpu扩容的情况下,确定需要进行gpu资源协同调整;在所述第一容器对应的gpu资源调整类型为gpu缩容的情况下,确定不需要进行gpu资源协同调整。

5、在一种可能的实现方式中,所述在确定需要进行gpu资源协同调整的情况下,确定共享所述目标gpu的多个容器中是否存在符合gpu资源协同调整条件的第二容器,包括:确定共享所述目标gpu的多个容器中是否存在gpu资源使用率小于第三预设阈值的所述第二容器。

6、在一种可能的实现方式中,所述在存在所述第二容器的情况下,对所述第一容器和至少一个所述第二容器进行gpu资源协同调整,包括:通过调高所述第一容器对应的可用gpu资源容量,对所述第一容器进行gpu扩容;通过调低至少一个所述第二容器对应的可用gpu资源容量,对至少一个所述第二容器进行gpu缩容;其中,针对任意一个容器,该容器对应的可用gpu资源容量用于指示该容器的gpu资源申请量上限。

7、在一种可能的实现方式中,所述方法还包括:在确定需要进行gpu资源协同调整,且不存在所述第二容器的情况下,限制对所述第一容器进行gpu扩容。

8、在一种可能的实现方式中,所述方法还包括:在确定不需要进行gpu资源协同调整的情况下,通过调低所述第一容器对应的可用gpu资源容量,对所述第一容器进行gpu缩容,其中,所述第一容器对应的可用gpu资源容量用于指示所述第一容器的gpu资源申请量上限。

9、在一种可能的实现方式中,所述确定共享目标gpu的多个容器中每个容器对应的gpu资源使用率,包括:针对共享所述目标gpu的多个容器中的任意一个容器,基于预设资源调度周期,通过访问该容器对应的资源配置文件,确定该容器对应的gpu资源使用率。

10、在一种可能的实现方式中,所述对所述第一容器和至少一个所述第二容器进行gpu资源协同调整,包括:通过分别修改所述第一容器和至少一个所述第二容器对应的资源配置文件,对所述第一容器和至少一个所述第二容器进行gpu资源协同调整。

11、根据本公开的一方面,提供了一种gpu资源调整系统,包括:弹性共享gpu服务器,用于确定共享目标gpu的多个容器中每个容器对应的gpu资源使用率;资源调整模块,用于在根据第一容器对应的gpu资源使用率,确定所述第一容器需要进行gpu资源调整的情况下,确定所述第一容器对应的gpu资源调整类型,其中,所述第一容器是共享所述目标gpu的多个容器中的任意一个;所述资源调整模块,用于根据所述第一容器对应的gpu资源调整类型,确定是否需要进行gpu资源协同调整,其中,所述gpu资源协同调整用于控制共享所述目标gpu的多个容器的gpu资源申请总量不超过所述目标gpu提供的gpu资源总量;所述资源调整模块,用于在确定需要进行gpu资源协同调整的情况下,确定共享所述目标gpu的多个容器中是否存在符合gpu资源协同调整条件的第二容器;所述资源调整模块,用于在存在所述第二容器的情况下,对所述第一容器和至少一个所述第二容器进行gpu资源协同调整。

12、根据本公开的一方面,提供了一种电子设备,包括:处理器;用于存储处理器可执行指令的存储器;其中,所述处理器被配置为调用所述存储器存储的指令,以执行上述方法。

13、根据本公开的一方面,提供了一种计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现上述方法。

14、在本公开实施例中,在kubernetes中,将共享某一个目标gpu的多个容器看作一个整体,确定每个容器对应的gpu资源使用率,在根据第一容器对应的gpu资源使用率,确定第一容器需要进行gpu资源调整的情况下,确定第一容器对应的gpu资源调整类型,并根据第一容器对应的gpu资源调整类型,确定是否需要进行gpu资源协同调整,从而有效控制共享目标gpu的多个容器的gpu资源申请总量不超过目标gpu提供的gpu资源总量,降低gpu资源泄漏的概率,进而,在确定需要进行gpu资源协同调整的情况下,确定共享目标gpu的多个容器中是否存在符合gpu资源协同调整条件的第二容器,以及在存在第二容器的情况下,对第一容器和至少一个第二容器进行gpu资源协同调整,从而有效实现在kubernetes中根据实际需求对目标gpu上的容器进行动态gpu资源调整,有效提高了kubernetes的gpu资源使用率。

15、应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,而非限制本公开。根据下面参考附图对示例性实施例的详细说明,本公开的其它特征及方面将变得清楚。

本文档来自技高网...

【技术保护点】

1.一种GPU资源调整方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述在根据第一容器对应的GPU资源使用率,确定所述第一容器需要进行GPU资源调整的情况下,确定所述第一容器对应的GPU资源调整类型,包括:

3.根据权利要求2所述的方法,其特征在于,所述根据所述第一容器对应的GPU资源调整类型,确定是否需要进行GPU资源协同调整,包括:

4.根据权利要求1所述的方法,其特征在于,所述在确定需要进行GPU资源协同调整的情况下,确定共享所述目标GPU的多个容器中是否存在符合GPU资源协同调整条件的第二容器,包括:

5.根据权利要求4所述的方法,其特征在于,所述在存在所述第二容器的情况下,对所述第一容器和至少一个所述第二容器进行GPU资源协同调整,包括:

6.根据权利要求3所述的方法,其特征在于,所述方法还包括:

7.根据权利要求3所述的方法,其特征在于,所述方法还包括:

8.根据权利要求1所述的方法,其特征在于,所述确定共享目标GPU的多个容器中每个容器对应的GPU资源使用率,包括:

9.根据权利要求1至8任一项所述的方法,其特征在于,所述对所述第一容器和至少一个所述第二容器进行GPU资源协同调整,包括:

10.一种GPU资源调整系统,其特征在于,包括:

11.一种电子设备,其特征在于,包括:

12.一种计算机可读存储介质,其上存储有计算机程序指令,其特征在于,所述计算机程序指令被处理器执行时实现权利要求1至9中任意一项所述的方法。

...

【技术特征摘要】

1.一种gpu资源调整方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述在根据第一容器对应的gpu资源使用率,确定所述第一容器需要进行gpu资源调整的情况下,确定所述第一容器对应的gpu资源调整类型,包括:

3.根据权利要求2所述的方法,其特征在于,所述根据所述第一容器对应的gpu资源调整类型,确定是否需要进行gpu资源协同调整,包括:

4.根据权利要求1所述的方法,其特征在于,所述在确定需要进行gpu资源协同调整的情况下,确定共享所述目标gpu的多个容器中是否存在符合gpu资源协同调整条件的第二容器,包括:

5.根据权利要求4所述的方法,其特征在于,所述在存在所述第二容器的情况下,对所述第一容器和至少一个所述第二容器进行g...

【专利技术属性】
技术研发人员:请求不公布姓名请求不公布姓名请求不公布姓名请求不公布姓名
申请(专利权)人:摩尔线程智能科技上海有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1