System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本公开总体说来涉及数据处理领域,更具体地讲,涉及一种资源配置的监控方法、装置、系统及可读存储介质。
技术介绍
1、近年来,随着人工智能技术的发展,越来越多的机器学习任务需要处理大量的并行数据,其算力需求已经超过了传统cpu所能提供的算力极限,因而,需要在机器学习领域能够取代cpu的算力设备。gpu(graphics processing unit)图形处理器可作为人工智能加速卡使用,有效支持各种算法模型。
2、kubernetes(也称为k8s或“kube”)是一个开源的容器编排平台,可以自动化在部署、管理和扩展容器化应用过程中涉及的许多手动操作。其也是目前最主流的集群组织和容器编排工具。
3、为了提升在k8s平台中的gpu利用率,支持多个容器复用同一个gpu设备,并在容器内保证资源的隔离。然而,在一些情况下,集群的剩余gpu资源看似能满足任务需求,但实际上没有任何节点上的gpu具备运行该任务的条件,这给集群运维带来了问题。
技术实现思路
1、本公开的示例性实施例在于提供一种资源配置的监控方法、装置、系统及可读存储介质,其能够有效提供服务器集群上的各个gpu的使用情况信息,从而为集群的良好运维提供支持。
2、根据本公开的示例性实施例,提供一种资源配置的监控方法,包括:获取服务器集群中的每个gpu节点上的各个gpu的属性信息,其中,gpu节点为所述服务器集群中部署有gpu的服务器;获取为在所述服务器集群上运行的任务已配置的gpu资源的信息;基于获取
3、可选地,还包括:响应于用户的gpu资源配置查询指令,向所述用户提供每个gpu节点上的各个gpu的使用情况信息。
4、可选地,gpu资源包括:gpu中的显存和算力。
5、可选地,获取服务器集群中的每个gpu节点上的各个gpu的属性信息的步骤包括:从每个gpu节点获取其上所部署的每个gpu的属性信息;其中,gpu的属性信息包括以下项之中的至少一项:标识信息、型号、所具有的资源总量。
6、可选地,获取为在所述服务器集群上运行的任务已配置的gpu资源的信息的步骤包括:确定在所述服务器集群上运行且使用gpu的各个任务;从确定的各个任务对应的容器组pod获取为该任务已配置的gpu资源的信息;其中,为每个任务已配置的gpu资源的信息包括:为该任务对应的容器组中的每个容器已配置的gpu资源的信息。
7、可选地,gpu资源的信息包括以下项之中的至少一项:所属的gpu的标识信息、显存大小、核组数量、所述核组数量占所属的gpu的总核组数量的百分比、各个核组的标识信息。
8、可选地,基于获取的各个gpu的属性信息和已配置的gpu资源的信息,更新每个gpu节点上的各个gpu的使用情况信息的步骤包括:基于获取的各个gpu的属性信息和已配置的gpu资源的信息,更新每个gpu节点上的各个gpu中已被使用的资源的信息和未被使用的资源的信息;其中,每个gpu中已被使用的资源的信息包括:在该gpu上运行的任务和/或容器的数量、为在该gpu上运行的每个任务和/或每个容器已配置的该gpu上的资源的信息;其中,每个gpu中未被使用的资源的信息包括:该gpu上未被配置出去的资源的信息。
9、可选地,还包括:根据每个gpu节点上的各个gpu的使用情况信息和目标任务的gpu资源需求信息,确定分配给所述目标任务使用的目标资源;将所述目标资源的信息保存到所述目标任务对应的容器组中,以由gpu管理器从所述容器组读取所述目标资源的信息,并按照所述目标资源的信息为所述容器组中的容器配置gpu资源。
10、可选地,还包括:在gpu管理器无法从目标任务对应的容器组中读取分配给所述目标任务使用的目标资源的信息,而随机为所述目标任务分配可用的gpu资源的情况下,将所述随机分配的gpu资源的信息保存到所述目标任务对应的容器组中。
11、可选地,所述任务为机器学习训练任务或机器学习预测任务。
12、根据本公开的示例性实施例,提供一种资源配置的监控装置,包括:gpu信息获取单元,被配置为获取服务器集群中的每个gpu节点上的各个gpu的属性信息,其中,gpu节点为所述服务器集群中部署有gpu的服务器;资源信息获取单元,被配置为获取为在所述服务器集群上运行的任务已配置的gpu资源的信息;使用信息更新单元,被配置为基于获取的各个gpu的属性信息和已配置的gpu资源的信息,更新每个gpu节点上的各个gpu的使用情况信息。
13、可选地,还包括:信息提供单元,被配置为响应于用户的gpu资源配置查询指令,向所述用户提供每个gpu节点上的各个gpu的使用情况信息。
14、可选地,gpu资源包括:gpu中的显存和算力。
15、可选地,gpu信息获取单元被配置为:从每个gpu节点获取其上所部署的每个gpu的属性信息;其中,gpu的属性信息包括以下项之中的至少一项:标识信息、型号、所具有的资源总量。
16、可选地,资源信息获取单元被配置为:确定在所述服务器集群上运行且使用gpu的各个任务;从确定的各个任务对应的容器组pod获取为该任务已配置的gpu资源的信息;其中,为每个任务已配置的gpu资源的信息包括:为该任务对应的容器组中的每个容器已配置的gpu资源的信息。
17、可选地,gpu资源的信息包括以下项之中的至少一项:所属的gpu的标识信息、显存大小、核组数量、所述核组数量占所属的gpu的总核组数量的百分比、各个核组的标识信息。
18、可选地,使用信息更新单元被配置为:基于获取的各个gpu的属性信息和已配置的gpu资源的信息,更新每个gpu节点上的各个gpu中已被使用的资源的信息和未被使用的资源的信息;其中,每个gpu中已被使用的资源的信息包括:在该gpu上运行的任务和/或容器的数量、为在该gpu上运行的每个任务和/或每个容器已配置的该gpu上的资源的信息;其中,每个gpu中未被使用的资源的信息包括:该gpu上未被配置出去的资源的信息。
19、可选地,还包括:分配单元,被配置为根据每个gpu节点上的各个gpu的使用情况信息和目标任务的gpu资源需求信息,确定分配给所述目标任务使用的目标资源;保存单元,被配置为将所述目标资源的信息保存到所述目标任务对应的容器组中,以由gpu管理器从所述容器组读取所述目标资源的信息,并按照所述目标资源的信息为所述容器组中的容器配置gpu资源。
20、可选地,还包括:保存单元,被配置为在gpu管理器无法从目标任务对应的容器组中读取分配给所述目标任务使用的目标资源的信息,而随机为所述目标任务分配可用的gpu资源的情况下,将所述随机分配的gpu资源的信息保存到所述目标任务对应的容器组中。
21、可选地,所述任务为机器学习训练任务或机器学习预测任务。
22、根据本公本文档来自技高网...
【技术保护点】
1.一种资源配置的监控方法,其特征在于,包括:
2.如权利要求1所述的监控方法,其特征在于,还包括:
3.如权利要求1所述的监控方法,其特征在于,GPU资源包括:GPU中的显存和算力。
4.如权利要求1所述的监控方法,其特征在于,获取服务器集群中的每个GPU节点上的各个GPU的属性信息的步骤包括:
5.如权利要求1所述的监控方法,其特征在于,获取为在所述服务器集群上运行的任务已配置的GPU资源的信息的步骤包括:
6.如权利要求5所述的监控方法,其特征在于,GPU资源的信息包括以下项之中的至少一项:所属的GPU的标识信息、显存大小、核组数量、所述核组数量占所属的GPU的总核组数量的百分比、各个核组的标识信息。
7.如权利要求1所述的监控方法,其特征在于,基于获取的各个GPU的属性信息和已配置的GPU资源的信息,更新每个GPU节点上的各个GPU的使用情况信息的步骤包括:
8.如权利要求1所述的监控方法,其特征在于,还包括:
9.如权利要求1所述的监控方法,其特征在于,还包括:
...
【技术特征摘要】
1.一种资源配置的监控方法,其特征在于,包括:
2.如权利要求1所述的监控方法,其特征在于,还包括:
3.如权利要求1所述的监控方法,其特征在于,gpu资源包括:gpu中的显存和算力。
4.如权利要求1所述的监控方法,其特征在于,获取服务器集群中的每个gpu节点上的各个gpu的属性信息的步骤包括:
5.如权利要求1所述的监控方法,其特征在于,获取为在所述服务器集群上运行的任务已配置的gpu资源的信息的步骤包括:
6.如权利要求5所述的监控方法,其特征在于,g...
【专利技术属性】
技术研发人员:李孟轩,
申请(专利权)人:第四范式北京技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。