一种带外主动隔离故障外设的方法技术

技术编号:32856457 阅读:18 留言:0更新日期:2022-03-30 19:28
本发明专利技术公开了一种带外主动隔离故障外设的方法,包括根据系统原始组成设备的信息建立初始故障数据库;系统启动时,根据故障类型完成故障处理与隔离;若未匹配到故障类型,则将故障更新到初始故障数据库,并形成新的故障类型;完成故障匹配后,则判断系统能否启动进入运行,若能进入运行,则进入步骤二,否者,则发出报警;系统进入运行后,对端口连通性故障,系统发出端口故障报警,对设备故障,进行二次故障检测与隔离,完成系统启动故障检测与隔离;检测系统是否有新故障发生,根据新故障的故障类型完成故障处理与隔离;若否,则为新接入设备X发生故障;获取新接入设备X的核心度,根据核心度进行隔离。通过本发明专利技术,可以实现系统正常运行。常运行。常运行。

【技术实现步骤摘要】
一种带外主动隔离故障外设的方法


[0001]本专利技术涉及服务器领域,具体是一种带外主动隔离故障外设的方法。

技术介绍

[0002]目前服务器系统中,系统启动时,主要依靠BIOS对CPU、内存、PCIe外设做初始化和配置,对于故障率较高的内存,某些厂商的BIOS也会做内存的扫描、自检,以识别内存的可能潜在故障。但并不会对系统组成的所有设备和系统端口进行故障检测。当系统启动后或者启动的过程中很有可能由于这些设备故障导致系统无法启动或者运行中异常挂死。

技术实现思路

[0003]本专利技术的目的在于克服现有技术的不足,提供一种带外主动隔离故障外设的方法,包括如下步骤:步骤一,根据系统原始组成设备的设备类型、设备级别、故障类型、端口类型,建立初始故障数据库;系统启动时,监测模块监测系统启动过程中是否有故障发生,若有,则在初始故障数据库中进行故障匹配,若匹配到故障类型,则根据故障类型完成故障处理与隔离;若未匹配到故障类型,则将故障更新到初始故障数据库,并形成新的故障类型;完成故障匹配后,则判断系统能否启动进入运行,若能进入运行,则进入步骤二,否者,则发出报警;步骤二,系统进入运行后,先对启动过程中发生的故障类型进行分类,分为端口连通性故障和设备故障,对端口连通性故障,系统发出端口故障报警,并对连接至故障端口的设备断开系统连接并等待更换故障端口后重新连接;对设备故障,进行二次故障检测与隔离,完成系统启动故障检测与隔离;步骤三,检测系统是否有新故障发生,若有,则获取该设备的设备信息,判断该设备是否为系统原始组成设备,若是,则根据新故障的故障类型完成故障处理与隔离;若否,则为新接入设备X发生故障;步骤四,获取新接入设备X的核心度;所述的设备X核心度采用如下公式:其中的b为设备X在n次系统运行中的以大于等于设备X额定功率运行的次数,为设备X在系统第i次运行中的运行时长占比,,其中的为系统第i次运行中的设备X启动时长,为设备X在系统第i次运行中以大于等于设备X额定功率运行的运行时长,为设备X在系统第i次运行中的峰值功率,为设备X在系统第i次运行中的峰值功率
的时长;若设备X核心度大于核心度阈值,则设备X为外围核心设备;若设备X核心度小于核心度阈值,则设备X为外围非核心设备;对外围核心设备进行重新启动,若重新启动次数超过外围核心设备恢复次数阈值,则外围核心设备断开系统连接;对外围非核心设备,断开系统连接,并发出报警。
[0004]进一步的,所述的监测模块监测系统启动过程中是否有故障发生,包括对系统所有的端口连通性故障检测和系统原始组成设备的故障检测。
[0005]进一步的,所述的设备级别包括核心设备和次级设备。
[0006]进一步的,所述的完成故障匹配后,则判断系统能否启动进入运行,包括如下过程,当系统所有核心设备都不存在故障时,则系统能进入运行,否则,系统则不能进入启动运行。
[0007]进一步的,所述的对设备故障,进行二次故障检测与隔离,完成系统启动故障检测与隔离,包括如下过程:对故障设备进行重新启动,若设备重新启动失败次数小于失败启动阈值,则重新启动成功,否者启动失败,对设备进行隔离。
[0008]本专利技术的有益效果是:本专利技术提出的方法,从系统开始运行,就对系统故障进行监控,确保系统启动后系统不存在故障,提高系统的运行效率。
附图说明
[0009]图1为一种带外主动隔离故障外设的方法的流程图。
具体实施方式
[0010]下面结合附图进一步详细描述本专利技术的技术方案,但本专利技术的保护范围不局限于以下所述。
[0011]如图1所示,一种带外主动隔离故障外设的方法,包括如下步骤:步骤一,根据系统原始组成设备的设备类型、设备级别、故障类型、端口类型,建立初始故障数据库;系统启动时,监测模块监测系统启动过程中是否有故障发生,若有,则在初始故障数据库中进行故障匹配,若匹配到故障类型,则根据故障类型完成故障处理与隔离;若未匹配到故障类型,则将故障更新到初始故障数据库,并形成新的故障类型;完成故障匹配后,则判断系统能否启动进入运行,若能进入运行,则进入步骤二,否者,则发出报警;其中的故障类型与对应的设备类型进行关联,在系统启动时,就对系统的所有系统端口进行连通性检测,确保系统启动后的系统端口可用。
[0012]步骤二,系统进入运行后,先对启动过程中发生的故障类型进行分类,分为端口连通性故障和设备故障,对端口连通性故障,系统发出端口故障报警,并对连接至故障端口的设备断开系统连接并等待更换故障端口后重新连接;对设备故障,进行二次故障检测与隔离,完成系统启动故障检测与隔离;步骤三,检测系统是否有新故障发生,若有,则获取该设备的设备信息,判断该设备是否为系统原始组成设备,若是,则根据新故障的故障类型完成故障处理与隔离;若否,
则为新接入设备X发生故障;步骤四,获取新接入设备X的核心度;所述的设备X核心度采用如下公式:其中的b为设备X在n次系统运行中的以大于等于设备X额定功率运行的次数,为设备X在系统第i次运行中的运行时长占比,,其中的为系统第i次运行中的设备X启动时长,为设备X在系统第i次运行中以大于等于设备X额定功率运行的运行时长,为设备X在系统第i次运行中的峰值功率,为设备X在系统第i次运行中的峰值功率的时长;若设备X核心度大于核心度阈值,则设备X为外围核心设备;若设备X核心度小于核心度阈值,则设备X为外围非核心设备;对外围核心设备进行重新启动,若重新启动次数超过外围核心设备恢复次数阈值,则外围核心设备断开系统连接;对外围非核心设备,断开系统连接,并发出报警。
[0013]所述的监测模块监测系统启动过程中是否有故障发生,包括对系统所有的端口连通性故障检测和系统原始组成设备的故障检测。
[0014]所述的设备级别包括核心设备和次级设备。当核心设备为系统运行时不可缺少的设备,其余为非核心设备。
[0015]所述的完成故障匹配后,则判断系统能否启动进入运行,包括如下过程,当系统所有核心设备都不存在故障时,则系统能进入运行,否则,系统则不能进入启动运行。
[0016]所述的对设备故障,进行二次故障检测与隔离,完成系统启动故障检测与隔离,包括如下过程:对故障设备进行重新启动,若设备重新启动失败次数小于失败启动阈值,则重新启动成功,否者启动失败,对设备进行隔离。
[0017]以上所述仅是本专利技术的优选实施方式,应当理解本专利技术并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文所述构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本专利技术的精神和范围,则都应在本专利技术所附权利要求的保护范围内。
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种带外主动隔离故障外设的方法,其特征在于,包括如下步骤:步骤一,根据系统原始组成设备的设备类型、设备级别、故障类型、端口类型,建立初始故障数据库;系统启动时,监测模块监测系统启动过程中是否有故障发生,若有,则在初始故障数据库中进行故障匹配,若匹配到故障类型,则根据故障类型完成故障处理与隔离;若未匹配到故障类型,则将故障更新到初始故障数据库,并形成新的故障类型;完成故障匹配后,则判断系统能否启动进入运行,若能进入运行,则进入步骤二,否者,则发出报警;步骤二,系统进入运行后,先对启动过程中发生的故障类型进行分类,分为端口连通性故障和设备故障,对端口连通性故障,系统发出端口故障报警,并对连接至故障端口的设备断开系统连接并等待更换故障端口后重新连接;对设备故障,进行二次故障检测与隔离,完成系统启动故障检测与隔离;步骤三,检测系统是否有新故障发生,若有,则获取该设备的设备信息,判断该设备是否为系统原始组成设备,若是,则根据新故障的故障类型完成故障处理与隔离;若否,则为新接入设备X发生故障;步骤四,获取新接入设备X的核心度;所述的设备X核心度采用如下公式:其中的b为设备X在n次系统运行中的以大于等于设备X额定功率运行的次数,为设备X在系统第i次运行中的运行时长占比,,其中的为系统第i次运行中的设备X启动时长,为设备X在系统第i次运行中以大于等于...

【专利技术属性】
技术研发人员:赵彦钧
申请(专利权)人:四川华鲲振宇智能科技有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1