一种故障状态管控方法技术

技术编号:39601345 阅读:9 留言:0更新日期:2023-12-03 20:01
本申请公开了一种故障状态管控方法

【技术实现步骤摘要】
一种故障状态管控方法、装置、设备及介质


[0001]本申请涉及测试
,特别涉及一种故障状态管控方法

装置

设备及介质


技术介绍

[0002]目前,在
IPMI(IntelligentPlatformManagementInterface)
智能管理平台中,基板管理控制器
BMC(BaseboardManagementController)
是核心控制器,系统管理软件对各个被管理器件的管理,都是通过与基板管理控制器通信来实现的,基板管理控制器与主处理器和板上各元件相连接,监控并且在一定程度上管理各物理组件的状态

[0003]智能网卡
(SmartNic)
是近几年兴起的一种新型网络设备,其配合服务器使用,主要承担原来服务器
CPU
上的网络处理工作,提高云端和私有数据中心中的服务器性能

智能网卡通过技术手段,将网卡的功能用可编程的芯片代替,极大的拓展了传统网卡的应用领域,在云计算

超融合

信创等领域有着较大的应用前景

智能网卡的架构从最初的单芯片,逐渐演进为
FPGA(
现场可编程门阵列
、FieldProgrammableGateArray)+SOC(
片上系统
、SystemonChip)
的架构,其中
FPGA
承担数据通道快路径的功能,
SOC
承担数据通道慢路径的功能

通过
FPGA
的并行可编程能力,将服务器上的高耗能的应用卸载到专用的高效模块上,来释放服务器上处理器的算力,获取更高的价值

[0004]随着智能网卡上系统的越来越复杂,对智能网卡的管理,尤其是智能网卡
FPGA
的故障监控日趋重要,一旦出现故障,智能网卡本身无法进行数据处理,系统的业务会受到严重影响

[0005]当前智能网卡出现
FPGA
故障时,一般可通过两种方式恢复系统的功能,第一种方式,将设备断电或重启;第二种方式,如果智能网卡支持软复位操作,则对智能网卡执行软复位操作,如果智能网卡不支持上述操作,还需要技术人员进行现场处理

[0006]但是,上述方案通过断电或者重启设备进行系统恢复,容易造成业务流量的丢失;而通过现场调试进行系统恢复,则业务阻塞时间较长


技术实现思路

[0007]为了克服上述技术缺陷,本申请的目的在于提供一种故障状态管控方法

装置

设备及介质,所述方法包括:启动服务器,对所述基板管理控制器和智能网卡进行上电;通过读写寄存器方式以及心跳监控机制轮询对所述服务器基板管理控制器和智能网卡的故障状态进行管控

本申请可以实现快速恢复智能网卡的故障,防止业务流量的丢失,缩短了故障处理时间,也为智能网卡安全稳定的运行提供了强有力的支撑

[0008]本申请实施例提供的具体技术方案如下:
[0009]第一方面,提供了一种故障状态管控方法,所述故障状态管控方法应用于故障状态管控系统,所述故障状态管控系统包括服务器,所述服务器包括基板管理控制器

智能网卡

寄存器,所述方法包括:
[0010]启动服务器,对所述基板管理控制器和智能网卡进行上电;
[0011]通过读写寄存器方式以及心跳监控机制轮询对所述服务器基板管理控制器和智能网卡的故障状态进行管控

[0012]进一步地,所述通过读写寄存器方式以及心跳监控机制轮询对所述服务器基板管理控制器和智能网卡的故障状态进行管控,包括:
[0013]通过所述服务器基板管理控制器轮询读取与所述智能网卡心跳监控连接的第一寄存器数据信息,并写入与所述服务器基板管理控制器心跳监控连接的第二寄存器,通过所述智能网卡对所述服务器基板管理控制器的故障状态进行管控;
[0014]通过所述智能网卡轮询读取与所述服务器基板管理控制器心跳监控连接的第二寄存器数据信息,并写入与所述智能网卡心跳监控连接的第一寄存器,通过所述服务器基板管理控制器对所述智能网卡的故障状态进行管控

[0015]进一步地,所述通过所述智能网卡对所述服务器基板管理控制器的故障状态进行管控,包括:
[0016]判断所述第二寄存器数据信息与所述第二寄存器标准数据信息是否一致;
[0017]若是,则结束流程;若否,则通过恢复第二寄存器默认数据信息的方式对所述服务器基板管理控制器故障状态进行恢复,并对服务器基板管理控制器故障状态是否恢复进行判断;
[0018]所述对所述服务器基板管理控制器故障状态是否恢复进行判断,包括:
[0019]若所述服务器基板管理控制器故障状态恢复,则结束流程;若所述服务器基板管理控制器故障状态未恢复,则对所述服务器基板管理控制器心跳监控是否出现异常进行判断

[0020]进一步地,所述对所述服务器基板管理控制器心跳监控是否出现异常进行判断,包括:
[0021]若所述服务器基板管理控制器心跳监控出现异常,则通过所述智能网卡拉高或拉低通用输入输出口的方式对所述服务器基板管理控制器的故障进行硬复位恢复,并重新对所述第二寄存器数据信息与所述第二寄存器标准数据信息是否一致进行判断;若所述服务器基板管理控制器心跳监控未出现异常,则结束流程

[0022]进一步地,所述通过所述服务器基板管理控制器对所述智能网卡的故障状态进行管控,包括:
[0023]判断所述第一寄存器数据信息与所述第一寄存器标准数据信息是否一致;
[0024]若是,则结束流程;若否,则通过恢复第一寄存器默认数据信息的方式对所述智能网卡故障状态进行恢复,并对所述智能网卡故障状态是否恢复进行判断;
[0025]所述对所述智能网卡故障状态是否恢复进行判断,包括:
[0026]判断所述智能网卡故障状态是否恢复;
[0027]若所述智能网卡故障状态恢复,则结束流程;若所述智能网卡故障状态未恢复,则对所述智能网卡心跳监控是否出现异常进行判断

[0028]进一步地,所述对所述智能网卡心跳监控是否出现异常进行判断,还包括:
[0029]若所述智能网卡心跳监控出现异常,则通过所述服务器基板管理控制器拉高或拉低通用输入输出口的方式对所述智能网卡的故障进行硬复位恢复,并重新对所述第一寄存器数据信息与所述第一寄存器标准数据信息是否一致进行判断;若所述智能网卡心跳监控
未出现异常,则结束流程

[0030]进一步地,所述故障状态管控方法还包括:
[0031]当通过恢复第一寄存器默认数据信息和硬复位所述智能网卡故障的方式均出本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种故障状态管控方法,其特征在于,所述故障状态管控方法应用于服务器,所述服务器包括基板管理控制器

智能网卡

寄存器,所述方法包括:启动服务器,对所述基板管理控制器和智能网卡进行上电;通过读写寄存器方式以及心跳监控机制轮询对所述服务器基板管理控制器和智能网卡的故障状态进行管控
。2.
根据权利要求1所述的故障状态管控方法,其特征在于,所述通过读写寄存器方式以及心跳监控机制轮询对所述服务器基板管理控制器和智能网卡的故障状态进行管控,包括:通过所述服务器基板管理控制器轮询读取与所述智能网卡心跳监控连接的第一寄存器数据信息,并写入与所述服务器基板管理控制器心跳监控连接的第二寄存器,通过所述智能网卡对所述服务器基板管理控制器的故障状态进行管控;通过所述智能网卡轮询读取与所述服务器基板管理控制器心跳监控连接的第二寄存器数据信息,并写入与所述智能网卡心跳监控连接的第一寄存器,通过所述服务器基板管理控制器对所述智能网卡的故障状态进行管控
。3.
根据权利要求2所述的故障状态管控方法,其特征在于,所述通过所述智能网卡对所述服务器基板管理控制器的故障状态进行管控,包括:判断所述第二寄存器数据信息与所述第二寄存器标准数据信息是否一致;若是,则结束流程;若否,则通过恢复第二寄存器默认数据信息的方式对所述服务器基板管理控制器故障状态进行恢复,并对服务器基板管理控制器故障状态是否恢复进行判断;所述对所述服务器基板管理控制器故障状态是否恢复进行判断,包括:若所述服务器基板管理控制器故障状态恢复,则结束流程;若所述服务器基板管理控制器故障状态未恢复,则对所述服务器基板管理控制器心跳监控是否出现异常进行判断
。4.
根据权利要求3所述的故障状态管控方法,其特征在于,所述对所述服务器基板管理控制器心跳监控是否出现异常进行判断,包括:若所述服务器基板管理控制器心跳监控出现异常,则通过所述智能网卡拉高或拉低通用输入输出口的方式对所述服务器基板管理控制器的故障进行硬复位恢复,并重新对所述第二寄存器数据信息与所述第二寄存器标准数据信息是否一致进行判断;若所述服务器基板管理控制器心跳监控未出现异常,则结束流程
。5.
根据权利要求2所述的...

【专利技术属性】
技术研发人员:黄岚岚
申请(专利权)人:苏州浪潮智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1