一种云平台GPU资源管理方法、装置、服务器及存储介质制造方法及图纸

技术编号:38319885 阅读:10 留言:0更新日期:2023-07-29 09:02
本发明专利技术提出了一种云平台GPU资源管理方法、装置、服务器及存储介质,方法包括:在资源池的每个资源节点中预设GPU检测程序;周期性地执行GPU检测程序以获得本地服务器上连接的GPU的数量和型号,并更新至资源池的GPU管理配置文件中;响应于接收到用户的服务请求,读取GPU管理配置文件以向用户提供可操作的GPU型号列表;响应于接收到用户基于GPU型号列表的配置请求,为用户创建工作负载,并为工作负载配置执行配置请求的管理节点以及提供负载计算的资源节点。本发明专利技术使得云平台可以通过本方法及装置,实现对指定GPU型号的资源调度,并允许用户指定GPU型号及其配额,通过配额监控实现了云平台对异构加速设备GPU的精细化管理控制,同时能够提高云平台的实用性。同时能够提高云平台的实用性。同时能够提高云平台的实用性。

【技术实现步骤摘要】
一种云平台GPU资源管理方法、装置、服务器及存储介质


[0001]本专利技术设计云服务
,尤其涉及一种云平台GPU资源管理方法、装置、服务器及存储介质、

技术介绍

[0002]在云计算与机器学习高速发展的年代,GPU不再是作为单一的图形处理设备,还有另一种用法是异构加速设备。用于在机器学习中,实现比传统CPU更高算力的异构加速设备。而在云计算下,这些业务都被迁移至云上进行统一管理,并通过云平台中的GPU资源扩展管理程序对各资源节点下的GPU数量进行监控和管理;然而GPU资源扩展管理程序无法主动区分各资源节点下的GPU型号,导致现有云计算的GPU资源分配不能指定型号,不够灵活。
[0003]因此,如何提供一种更加灵活的GPU资源管理方法是本领域所亟需的。

技术实现思路

[0004]为了提供一种更加灵活的GPU资源管理方法。在本专利技术的第一方面,提出了一种云平台GPU资源管理方法,所述方法包括:在资源池的每个资源节点中预设GPU检测程序;周期性地执行所述GPU检测程序以获得本地服务器上连接的GPU的数量和型号,并更新至资源池的GPU管理配置文件中;响应于接收到用户的服务请求,读取所述GPU管理配置文件以向用户提供可操作的GPU型号列表;响应于接收到用户基于所述GPU型号列表的配置请求,为所述用户创建工作负载,并为所述工作负载配置执行所述配置请求的管理节点以及提供负载计算的资源节点。
[0005]在一个或多个实施例中,本专利技术的一种云平台GPU资源管理方法还包括:在所述GPU管理配置文件中为不同型号的GPU配置唯一的资源标签;响应于接收到负载请求,基于所述GPU管理配置文件中的资源标签调用对应型号的GPU执行负载计算。
[0006]在一个或多个实施例中,所述GPU检测程序还配置用于检测GPU的工作状态,并更新所述工作状态至所述GPU管理配置文件中;
[0007]其中,所述GPU的工作状态包括:独占工作或共享工作;
[0008]当处于共享工作状态时,所述GPU的工作状态进一步包括所述GPU的剩余算力。
[0009]在一个或多个实施例中,读取所述GPU管理配置文件以向用户提供可操作的GPU型号列表,包括:从所述GPU管理配置文件中读取处于非独占工作状态下的GPU型号生成GPU型号列表,并为用户提供可用型号配额配置选项;其中,所述非独占工作状态包括处于非工作状态下的GPU以及处于共享工作状态下的GPU。
[0010]在一个或多个实施例中,响应于接收到用户基于所述GPU型号列表的配置请求,包括:接收用户对所述GPU型号列表中的可用型号配额配置选项的配置;将所述GPU型号列表返回给云平台的资源管理器。
[0011]在一个或多个实施例中,为所述用户创建工作负载,并为所述工作负载配置执行所述配置请求的管理节点以及提供负载计算的资源节点,包括:由所述资源管理器为所述
用户创建工作负载;创建管理节点并基于所述可用型号配额配置选项中的数据配置所述管理节点,以及从资源池中获取所述GPU管理配置文件;响应于接收到用户的负载请求,统计当前用户所有的GPU使用量并获取所述可用型号配额进行比较;响应于前用户对应型号的GPU使用量小于等于所述可用型号配额,基于所述GPU管理配置文件调用对应的资源节点提供负载计算。
[0012]在一个或多个实施例中,本专利技术的一种云平台GPU资源管理方法还包括;在资源池的管理检点中预设节点信息校准程序;由所述节点信息校准程序接收各个资源节点上报的资源信息,并对所述GPU管理配置文件进行维护更新;其中,所述资源信息包括GPU的型号、数量以及工作状态。
[0013]在本专利技术的第二方面,提出了一种云平台GPU资源管理装置,包括:部署模块,配置用于在资源池的每个资源节点中预设GPU检测程序;执行模块,配置用于周期性地执行所述GPU检测程序以获得本地服务器上连接的GPU的数量和型号,并更新至资源池的GPU管理配置文件中;GPU型号列表生成模块,配置用于响应于接收到用户的服务请求,读取所述GPU管理配置文件以向用户提供可操作的GPU型号列表;资源调度模块,配置用于响应于接收到用户基于所述GPU型号列表的配置请求,为所述用户创建工作负载,并为所述工作负载配置执行所述配置请求的管理节点以及提供负载计算的资源节点。
[0014]在本专利技术的第三方面,提出了一种云平台GPU资源管理服务器,包括:至少一个处理器;以及存储器,所述存储器中存储有可执行的计算机程序,所述计算机程序被所述字少一个处理器执行时用于实现如上述任意一实施例所述的一种云平台GPU资源管理方法的步骤,步骤包括:
[0015]在资源池的每个资源节点中预设GPU检测程序;周期性地执行所述GPU检测程序以获得本地服务器上连接的GPU的数量和型号,并更新至资源池的GPU管理配置文件中;响应于接收到用户的服务请求,读取所述GPU管理配置文件以向用户提供可操作的GPU型号列表;响应于接收到用户基于所述GPU型号列表的配置请求,为所述用户创建工作负载,并为所述工作负载配置执行所述配置请求的管理节点以及提供负载计算的资源节点。
[0016]在一个或多个实施例中,本专利技术的一种云平台GPU资源管理方法还包括:在所述GPU管理配置文件中为不同型号的GPU配置唯一的资源标签;响应于接收到负载请求,基于所述GPU管理配置文件中的资源标签调用对应型号的GPU执行负载计算。
[0017]在一个或多个实施例中,所述GPU检测程序还配置用于检测GPU的工作状态,并更新所述工作状态至所述GPU管理配置文件中。
[0018]在一个或多个实施例中,所述GPU的工作状态包括:独占工作或共享工作;当处于共享工作状态时,所述GPU的工作状态进一步包括所述GPU的剩余算力。
[0019]在一个或多个实施例中,读取所述GPU管理配置文件以向用户提供可操作的GPU型号列表,包括:从所述GPU管理配置文件中读取处于非独占工作状态下的GPU型号生成GPU型号列表,并为用户提供可用型号配额配置选项;其中,所述非独占工作状态包括处于非工作状态下的GPU以及处于共享工作状态下的GPU。
[0020]在一个或多个实施例中,响应于接收到用户基于所述GPU型号列表的配置请求,包括:接收用户对所述GPU型号列表中的可用型号配额配置选项的配置;将所述GPU型号列表返回给云平台的资源管理器。
[0021]在一个或多个实施例中,为所述用户创建工作负载,并为所述工作负载配置执行所述配置请求的管理节点以及提供负载计算的资源节点,包括:由所述资源管理器为所述用户创建工作负载;创建管理节点并基于所述可用型号配额配置选项中的数据配置所述管理节点,以及从资源池中获取所述GPU管理配置文件;响应于接收到用户的负载请求,统计当前用户所有的GPU使用量并获取所述可用型号配额进行比较;响应于前用户对应型号的GPU使用量小于等于所述可用型号配额,基于所述GPU管理配置文件调用对应的资源节点提供负载计算。
[0022]在一个或多个实施例中,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种云平台GPU资源管理方法,其特征在于,所述方法包括:在资源池的每个资源节点中预设GPU检测程序;周期性地执行所述GPU检测程序以获得本地服务器上连接的GPU的数量和型号,并更新至资源池的GPU管理配置文件中;响应于接收到用户的服务请求,读取所述GPU管理配置文件以向用户提供可操作的GPU型号列表;响应于接收到用户基于所述GPU型号列表的配置请求,为所述用户创建工作负载,并为所述工作负载配置执行所述配置请求的管理节点以及提供负载计算的资源节点。2.根据权利要求1所述的一种云平台GPU资源管理方法,其特征在于,所述方法还包括:在所述GPU管理配置文件中为不同型号的GPU配置唯一的资源标签;响应于接收到负载请求,基于所述GPU管理配置文件中的资源标签调用对应型号的GPU执行负载计算。3.根据权利要求1所述的一种云平台GPU资源管理方法,其特征在于,所述GPU检测程序还配置用于检测GPU的工作状态,并更新所述工作状态至所述GPU管理配置文件中;其中,所述GPU的工作状态包括:独占工作或共享工作;当处于共享工作状态时,所述GPU的工作状态进一步包括所述GPU的剩余算力。4.根据权利要求1或3所述的一种云平台GPU资源管理方法,其特征在于,读取所述GPU管理配置文件以向用户提供可操作的GPU型号列表,包括:从所述GPU管理配置文件中读取处于非独占工作状态下的GPU型号生成GPU型号列表,并为用户提供可用型号配额配置选项;其中,所述非独占工作状态包括处于非工作状态下的GPU以及处于共享工作状态下的GPU。5.根据权利要求4所述的一种云平台GPU资源管理方法,其特征在于,响应于接收到用户基于所述GPU型号列表的配置请求,包括:接收用户对所述GPU型号列表中的可用型号配额配置选项的配置;将所述GPU型号列表返回给云平台的资源管理器。6.根据权利要求5所述的一种云平台GPU资源管理方法,其特征在于,为所述用户创建工作负载,并为所述工作负载配置执行所述配置请求的管理节点以...

【专利技术属性】
技术研发人员:蓝玉杰刘茂扬杨浩
申请(专利权)人:济南浪潮数据技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1