BMC挂死自恢复方法、系统、终端及存储介质技术方案

技术编号:32513182 阅读:22 留言:0更新日期:2022-03-02 11:02
本发明专利技术提供一种BMC挂死自恢复方法、系统、终端及存储介质,包括:复杂可编程逻辑器件接收BMC芯片下发的故障告警信号,并对所述故障告警信号的持续时间进行计时;如果计时时间达到设定的时间阈值,则向BMC信号的复位管脚发送复位信号,强制BMC芯片复位。本发明专利技术通过硬件描述语言对BMC的自身运行状态进行实时的监控及判断,当运行状态异常时,强制将其复位,确保BMC对服务器的持续有效监控,使服务器核心部件在一个正常的监控下运行,避免了因无法监控到异常状态而引起的服务器运行风险,提高了服务器运行的可靠性、客户满意度以及产品的竞争力。力。力。

【技术实现步骤摘要】
BMC挂死自恢复方法、系统、终端及存储介质


[0001]本专利技术涉及服务器
,具体涉及一种BMC挂死自恢复方法、系统、终端及存储介质。

技术介绍

[0002]随着大数据、云计算、人工智能时代的到来,互联网业务量和数据量出现猛烈增长,计算量及计算频率随之增大;在服务器系统中,随着用于存储和计算的数据量的增加,服务器的运载压力越来越大,其核心部件如CPU、内存、硬盘、主板的运行稳定性需要格外的注意。在服务器运行过程中,如果核心部件长期运行在不稳定的状态,比如核心部件的温度持续升高、核心部件的电压运行异常等等,都会对整个机器的稳定性带来非常大的风险,对终端客户带来的影响则是业务的中断,数据的丢失,造成的损失不可预估。
[0003]服务器系统中,我们通常使用BMC(基板管理控制器:Baseboard Management Controller)来对主板的健康状况进行监控和管理。主板核心部件的一些重要参数如电压、温度、功耗、风扇转速等都是通过BMC监控记录的。在运行过程中,如果BMC监控到某些参数存在异常,就会记录告警日志,告警信息会被传送到远端的运维服务器上,客户就会感知到故障信息,就能够及时的进行维修操作,避免酿成大的事故,同时BMC内部也集成了一些调控策略,比如散热调控策略,会定义当采集到的温度达到某一控制点时,风扇的转速需要达到多少转才能保证当前的散热,实现风扇转速的监控及调控。BMC本身是一个独立的小系统,BMC在运行过程中如果挂死(也就是不工作),服务器本身的运行不会受到直接影响,但是一旦BMC挂死,服务器上的监控就会完全停掉,服务器会运行在一个无监控的状态,核心部件的状态都无法实时的获取,如果此时温度升高,风扇转速也不能调控,整个机器会存在宕机的风险。因此,必须确保BMC挂死后尽快恢复过来,继续对服务器进行监控。

技术实现思路

[0004]针对现有技术的上述不足,本专利技术提供一种BMC挂死自恢复方法、系统、终端及存储介质,以解决上述技术问题。
[0005]第一方面,本专利技术提供一种BMC挂死自恢复方法,包括:
[0006]复杂可编程逻辑器件接收BMC芯片下发的故障告警信号,并对所述故障告警信号的持续时间进行计时;
[0007]如果计时时间达到设定的时间阈值,则向BMC信号的复位管脚发送复位信号,强制BMC芯片复位。
[0008]进一步的,复杂可编程逻辑器件接收BMC芯片下发的故障告警信号,并对所述故障告警信号的持续时间进行计时,包括:
[0009]复杂可编程逻辑器件接收BMC芯片基于软件告警信息生成的高电平故障告警信号后,对所述高电平告警信号进行计时;
[0010]复杂可编程逻辑器件在接收到BMC基于软件告警信息解除生成的低电平信号后,
对计时时间归零。
[0011]进一步的,如果计时时间达到设定的时间阈值,则向BMC信号的复位管脚发送复位信号,强制BMC芯片复位,包括:
[0012]如果计时时间达到设定的时间阈值,则通过输出管脚向BMC的复位管脚发送高电平复位信号,以使所述BMC芯片根据所述高电平复位信号执行复位。
[0013]第二方面,本专利技术提供一种BMC挂死自恢复系统,包括:
[0014]信号接收单元,用于复杂可编程逻辑器件接收BMC芯片下发的故障告警信号,并对所述故障告警信号的持续时间进行计时;
[0015]复位控制单元,用于如果计时时间达到设定的时间阈值,则向BMC信号的复位管脚发送复位信号,强制BMC芯片复位。
[0016]进一步的,所述信号接收单元包括:
[0017]计时开始模块,用于复杂可编程逻辑器件接收BMC芯片基于软件告警信息生成的高电平故障告警信号后,对所述高电平告警信号进行计时;
[0018]计时归零模块,用于复杂可编程逻辑器件在接收到BMC基于软件告警信息解除生成的低电平信号后,对计时时间归零。
[0019]进一步的,所述复位控制单元包括:
[0020]复位控制模块,用于如果计时时间达到设定的时间阈值,则通过输出管脚向BMC的复位管脚发送高电平复位信号,以使所述BMC芯片根据所述高电平复位信号执行复位。
[0021]第三方面,提供一种终端,包括:
[0022]处理器、存储器,其中,
[0023]该存储器用于存储计算机程序,
[0024]该处理器用于从存储器中调用并运行该计算机程序,使得终端执行上述的终端的方法。
[0025]第四方面,提供了一种计算机存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述各方面所述的方法。
[0026]本专利技术的有益效果在于,本专利技术提供的BMC挂死自恢复方法、系统、终端及存储介质,通过复杂可编程逻辑器件接收BMC芯片下发的故障告警信号,并对所述故障告警信号的持续时间进行计时;如果计时时间达到设定的时间阈值,则向BMC信号的复位管脚发送复位信号,强制BMC芯片复位。本专利技术通过硬件描述语言对BMC的自身运行状态进行实时的监控及判断,当运行状态异常时,强制将其复位,确保BMC对服务器的持续有效监控,使服务器核心部件在一个正常的监控下运行,避免了因无法监控到异常状态而引起的服务器运行风险,提高了服务器运行的可靠性、客户满意度以及产品的竞争力。
[0027]此外,本专利技术设计原理可靠,结构简单,具有非常广泛的应用前景。
附图说明
[0028]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0029]图1是本专利技术一个实施例的方法的示意性流程图。
[0030]图2是本专利技术一个实施例的系统的示意性框图。
[0031]图3为本专利技术实施例提供的一种终端的结构示意图。
具体实施方式
[0032]为了使本
的人员更好地理解本专利技术中的技术方案,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本专利技术保护的范围。
[0033]下面对本专利技术中出现的关键术语进行解释。
[0034]BMC,执行伺服器远端管理控制器,英文全称为Baseboard Management Controller.为基板管理控制器。它可以在机器未开机的状态下,对机器进行固件升级、查看机器设备、等一些操作。在BMC中完全实现IPMI功能需要一个功能强大的16位元或32位元微控制器以及用于数据储存的RAM、用于非挥发性数据储存的快闪记忆体和韧体,在安全远程重启、安全重新上电、LAN警告和系统健康监视方面能提供基本的远程可管理性。除了基本的IPMI功能和系统工作监视功能外,通过本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种BMC挂死自恢复方法,其特征在于,包括:复杂可编程逻辑器件接收BMC芯片下发的故障告警信号,并对所述故障告警信号的持续时间进行计时;如果计时时间达到设定的时间阈值,则向BMC信号的复位管脚发送复位信号,强制BMC芯片复位。2.根据权利要求1所述的方法,其特征在于,复杂可编程逻辑器件接收BMC芯片下发的故障告警信号,并对所述故障告警信号的持续时间进行计时,包括:复杂可编程逻辑器件接收BMC芯片基于软件告警信息生成的高电平故障告警信号后,对所述高电平告警信号进行计时;复杂可编程逻辑器件在接收到BMC基于软件告警信息解除生成的低电平信号后,对计时时间归零。3.根据权利要求1所述的方法,其特征在于,如果计时时间达到设定的时间阈值,则向BMC信号的复位管脚发送复位信号,强制BMC芯片复位,包括:如果计时时间达到设定的时间阈值,则通过输出管脚向BMC的复位管脚发送高电平复位信号,以使所述BMC芯片根据所述高电平复位信号执行复位。4.一种BMC挂死自恢复系统,其特征在于,包括:信号接收单元,用于复杂可编程逻辑器件接收BMC芯片下发的故障告警信号,并对所述故障...

【专利技术属性】
技术研发人员:刘飞飞
申请(专利权)人:苏州浪潮智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1