图形处理器设备管理方法、系统、计算机设备及介质技术方案

技术编号:36258218 阅读:19 留言:0更新日期:2023-01-07 09:54
本发明专利技术公开了一种图形处理器设备管理方法、系统、计算机设备及介质,图形管理器设备至少包括图形处理器芯片与远程管理芯片,图形处理器芯片还连接有PCIe;方法包括:基于PCIe获取图形处理器芯片的固件信息;基于远程管理芯片获取图形处理器芯片的状态信息;基于图形处理器芯片的固件信息与图形处理器芯片的状态信息和预设管理规则匹配目标管理策略并执行;通过在图形管理器设备中增加远程管理芯片对图形管理器设备的管理实现指令化操作;通过远程管理芯片方案处理实现对于图形处理器的便利的带外管理。利的带外管理。利的带外管理。

【技术实现步骤摘要】
图形处理器设备管理方法、系统、计算机设备及介质


[0001]本专利技术涉及图形处理器领域,具体涉及一种图形处理器设备管理方法、系统、计算机设备及介质。

技术介绍

[0002]随着大数据、人工智能领域的发展,数据业务不断扩大,对服务器的性能要求也不断提高,因此发展出了各种异构加速、具有图形渲染、模型推理、模型训练功能的PCIe。GPU卡通过PCIe总线接口插入服务器的PCIe卡槽成为服务器厂商主流增强服务器性能的方式。
[0003]随着AI服务器对于GPU卡的扩展使用数量越来越多,对于GPU卡的本身设备的带外提出了更高的易管理要求,现有市面上的GPU卡实现了部分带外的管理,但是随着AI服务器的深度应用,功耗变高,电源设计复杂度升高,相应的服务器对于对GPU卡使用的管理提出了更多的管理需求。

技术实现思路

[0004]本专利技术目的是:提供一种图形处理器设备管理方法、系统、计算机设备及介质。
[0005]本专利技术的技术方案是:第一方面,本专利技术提供一种图形处理器设备管理方法,所述图形管理器设备至少包括图形处理器芯片与远程管理芯片,所述图形处理器芯片还连接有PCIe;所述方法包括:
[0006]基于所述PCIe获取所述图形处理器芯片的固件信息;
[0007]基于所述远程管理芯片获取所述图形处理器芯片的状态信息;
[0008]基于所述图形处理器芯片的固件信息与所述图形处理器芯片的状态信息和预设管理规则匹配目标管理策略并执行。
[0009]在一种较佳的实施方式中,所述PCIe经由金手指与主服务器建立连接,所述金手指内设置有系统管理总线;
[0010]所述图形处理芯片内至少设置有现场可更换单元、带电可擦可编程只读存储器和温度芯片;
[0011]所述基于所述PCIe获取所述图形处理器芯片的固件信息包括:
[0012]基于所述PCIe和所述系统管理总线读取所述现场可更换单元信息、所述带电可擦可编程只读存储器信息和所述温度芯片信息。
[0013]在一种较佳的实施方式中,所述方法还包括:
[0014]基于所述PCIe经由所述金手指向所述图形处理器芯片传送所述主服务器发送的PCIe x16信号;
[0015]获取所述图形处理器芯片基于所述PCIe x16信号计算后的数据并传送所述数据至所述主服务器。
[0016]在一种较佳的实施方式中,所述图形处理器芯片基于所述金手指连接有电源连接器以供电;所述方法还包括:
[0017]基于所述PCIe和所述系统管理总线读取所述远程管理芯片状态信息与所述图形处理器芯片电压状态信息。
[0018]在一种较佳的实施方式中,所述基于所述远程管理芯片获取所述图形处理器芯片的状态信息包括:
[0019]基于所述远程管理芯片获取所述图形处理器芯片的电源信息和带外信息。
[0020]在一种较佳的实施方式中,所述远程管理芯片内设置有微控制单元;所述基于所述远程管理芯片获取所述图形处理器芯片的电源信息和带外信息包括:
[0021]基于所述远程管理芯片监测获取电源功率数据和电源状态信号数据,所述电源功率数据至少包括峰值电源功率数据和所述图形处理器设备内各部件电源功率数据;
[0022]基于所述微控制单元和双向二线制同步串行总线获取图形处理器芯片内部温度数据、整卡功率数据、显存温度数据、时钟频率、内存错误检查和纠正数据、电源功率数据、电源状态信号、图形处理器状态信号和远程管理芯片固件版本号。
[0023]在一种较佳的实施方式中,所述基于所述远程管理芯片获取所述图形处理器芯片的电源信息和带外信息还包括:
[0024]基于所述远程管理芯片的GPIO资源检测获取所述图形处理器芯片的故障信息和PCIe接口信息。
[0025]第二方面,本专利技术还提供一种图形处理器设备管理系统,所述图形管理器设备至少包括图形处理器芯片与远程管理芯片,所述图形处理器芯片还连接有PCIe;所述系统包括:
[0026]第一获取模块,用于基于所述PCIe获取所述图形处理器芯片的固件信息;
[0027]第二获取模块,用于基于所述远程管理芯片获取所述图形处理器芯片的状态信息;
[0028]匹配执行模块,用于基于所述图形处理器芯片的固件信息与所述图形处理器芯片的状态信息和预设管理规则匹配目标管理策略并执行。
[0029]第三方面,本专利技术还提供一种计算机设备,所述设备包括:
[0030]一个或多个处理器;以及
[0031]与所述一个或多个处理器关联的存储器,所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时,执行如第一方面中任一项所述的图形处理器设备管理方法。
[0032]第四方面,本专利技术还提供一种计算机可读存储介质,其上存储有计算机程序,其中,所述计算机程序被处理器执行时实现如第一方面中任一所述的方法的步骤。
[0033]本专利技术的优点是:提供一种图形处理器设备管理方法、系统、计算机设备及介质,图形管理器设备至少包括图形处理器芯片与远程管理芯片,图形处理器芯片还连接有PCIe;方法包括:基于PCIe获取图形处理器芯片的固件信息;基于远程管理芯片获取图形处理器芯片的状态信息;基于图形处理器芯片的固件信息与图形处理器芯片的状态信息和预设管理规则匹配目标管理策略并执行;通过在图形管理器设备中增加远程管理芯片对图形管理器设备的管理实现指令化操作;通过远程管理芯片方案处理实现对于图形处理器的便利的带外管理。
附图说明
[0034]为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0035]图1为本申请所提供的进行图形处理器设备管理的架构示意图;
[0036]图2为申请所提供的进行图形处理器设备管理的架构的I2C拓扑示意图;
[0037]图3为本申请所提供的图形处理器设备管理方法流程图;
[0038]图4为本申请所提供的图形处理器设备管理系统结构图;
[0039]图5为本申请所提供的计算机设备架构图。
具体实施方式
[0040]为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0041]如
技术介绍
所述,现有技术中随着AI服务器对于GPU卡的扩展使用数量越来越多,对于GPU卡的本身设备的带外提出了更高的易管理要求,现有世面上的GPU卡实现了部分带外的管理,但是随着AI服务器的深度应用,功耗变高,电源设计复杂度升高,相应的服务器对于对GPU本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种图形处理器设备管理方法,其特征在于,所述图形管理器设备至少包括图形处理器芯片与远程管理芯片,所述图形处理器芯片还连接有PCIe;所述方法包括:基于所述PCIe获取所述图形处理器芯片的固件信息;基于所述远程管理芯片获取所述图形处理器芯片的状态信息;基于所述图形处理器芯片的固件信息与所述图形处理器芯片的状态信息和预设管理规则匹配目标管理策略并执行。2.根据权利要求1所述的图形处理器设备管理方法,其特征在于,所述PCIe经由金手指与主服务器建立连接,所述金手指内设置有系统管理总线;所述图形处理芯片内至少设置有现场可更换单元、带电可擦可编程只读存储器和温度芯片;所述基于所述PCIe获取所述图形处理器芯片的固件信息包括:基于所述PCIe和所述系统管理总线读取所述现场可更换单元信息、所述带电可擦可编程只读存储器信息和所述温度芯片信息。3.根据权利要求2所述的图形处理器设备管理方法,其特征在于,所述方法还包括:基于所述PCIe经由所述金手指向所述图形处理器芯片传送所述主服务器发送的PCIe x16信号;获取所述图形处理器芯片基于所述PCIe x16信号计算后的数据并传送所述数据至所述主服务器。4.根据权利要求2所述的图形处理器设备管理方法,其特征在于,所述图形处理器芯片基于所述金手指连接有电源连接器以供电;所述方法还包括:基于所述PCIe和所述系统管理总线读取所述远程管理芯片状态信息与所述图形处理器芯片电压状态信息。5.根据权利要求1所述的图形处理器设备管理方法,其特征在于,所述基于所述远程管理芯片获取所述图形处理器芯片的状态信息包括:基于所述远程管理芯片获取所述图形处理器芯片的电源信息和带外信息。6.根据权利要求5所述的图形处理器设备管理方法,其特征在于,所述远程管理芯片内设置有微控制单...

【专利技术属性】
技术研发人员:李秀艳
申请(专利权)人:苏州浪潮智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1