System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种故障线索检测方法、装置、设备及可读存储介质制造方法及图纸_技高网

一种故障线索检测方法、装置、设备及可读存储介质制造方法及图纸

技术编号:42496665 阅读:5 留言:0更新日期:2024-08-22 14:07
本说明书提供一种故障线索检测方法、装置、设备及可读存储介质,该方法包括:响应于初始故障要素已发生的事件,监测发生的故障要素关联线索链上后续故障要素的发生情况;若被监测的线索链上的所有后续故障要素均被监测到已发生,则认为该线索链为目标线索链,监测目标线索链关联的故障事件的发生情况;若监测到目标线索链关联的故障事件发生,则认为该次故障事件的触发起因是目标线索链包括的故障要素。通过本说明书的技术方案,动态监测和分析故障要素及其关联线索链,显著提升了故障检测的准确性和响应速度。通过预定义的线索链,系统能够快速锁定故障原因,记录故障日志,从而优化了故障处理流程,提高了计算机设备的运维效率和系统稳定性。

【技术实现步骤摘要】

本说明书涉及通信,尤其是涉及一种故障线索检测方法、装置、设备及可读存储介质


技术介绍

1、在当前的服务器运维环境中,随着数据中心规模的日益扩大与复杂性增加,高效、准确的故障检测与诊断机制成为了保障业务连续性的关键。服务器通常配备有基板管理控制器(bmc,baseboard management controller),它承担着对服务器内部各组件及主板器件的实时监控职责,并在检测到特定事件时通过系统事件日志(sel,system event log)上报给运维管理系统。然而,传统故障检测机制存在一定的局限性,尤其是在追溯故障根本原因方面显得力不从心。

2、具体而言,一旦服务器主机发生如重启等重大事件,bmc虽然能够感知并记录这一现象,但因为重启动作导致的硬件状态全面复位,使得获取故障发生瞬间的直接证据变得困难重重。主机重启背后的原因繁多,包括但不限于软件错误、硬件故障、外部干扰等,逐一排查不仅耗时耗力,而且往往难以做到面面俱到,容易遗漏潜在的触发因素。此外,由于缺乏有效的机制来追溯主机的历史运行轨迹,对于重启这类常见但成因复杂的事件,经常只能标记为“未知”原因,这无疑降低了客户的满意度。当需要定位问题时,客户或现场运维人员不得不采取下载并分析服务器日志的繁琐步骤,这一过程不仅费时,还对操作人员的专业技能提出了较高要求。

3、现有的故障检测体系在这方面明显存在空白,没有提供一套系统的解决方案来应对上述问题,尤其是不能有效追溯和关联事件间的因果关系,导致故障告警信息往往缺乏足够的上下文支持,无法直接指导运维决策。


技术实现思路

1、有鉴于此,本说明书提供一种故障线索检测方法、装置及电子设备、可读存储介质,以改善上述故障原因追溯难度高的问题。

2、具体地技术方案如下:

3、本说明书提供了一种故障线索检测方法,应用于计算机设备,所述方法包括:响应于一条或多条线索链的初始故障要素已发生的事件,监测该发生的故障要素关联线索链上后续故障要素的发生情况;若被监测的线索链上不存在后续故障要素,或被监测的线索链上的所有后续故障要素均被监测到已发生,则认为该线索链为目标线索链,监测目标线索链关联的故障事件的发生情况;若监测到目标线索链关联的故障事件发生,则认为该次故障事件的触发起因是目标线索链包括的故障要素,根据判定结果记录关联目标线索链和故障事件的故障日志;所述线索链被预先定义并存储,每条线索链分别记录有一个或多个故障要素、故障事件,且设有初始故障要素。

4、作为一种技术方案,所述线索链记录有多个故障要素的,线索链还记录有各故障要素的发生顺序,初始故障要素为线索链记录的各故障要素中最先发生的故障要素;所述若被监测的线索链上不存在后续故障要素,或被监测的线索链上的所有后续故障要素均被监测到已发生,则认为该线索链为目标线索链,监测目标线索链关联的故障事件的发生情况,包括:若线索链记录有多个故障要素,且被监测的线索链上的所有后续故障要素均被监测到已按照记录的发生顺序发生,则认为该线索链为目标线索链,监测目标线索链关联的故障事件的发生情况。

5、作为一种技术方案,所述线索链记录的各故障要素的发生顺序包括并列顺序和/或先后顺序和/或无限制顺序。

6、作为一种技术方案,所述若被监测的线索链上不存在后续故障要素,或被监测的线索链上的所有后续故障要素均被监测到已发生,则认为该线索链为目标线索链,监测目标线索链关联的故障事件的发生情况,包括:若在被监测的线索链的初始故障要素发生起的预设时长内,未判定被监测的线索链为目标线索链且监测到目标线索链关联的故障事件发生,则重置对该条线索链的监测行为。

7、作为一种技术方案,所述预设时长是分别为每一条线索链配置的参数。

8、本说明书同时提供了一种故障线索检测装置,应用于计算机设备,所述装置包括:第一模块,用于响应于一条或多条线索链的初始故障要素已发生的事件,监测该发生的故障要素关联线索链上后续故障要素的发生情况;第二模块,用于在被监测的线索链上不存在后续故障要素,或被监测的线索链上的所有后续故障要素均被监测到已发生后,则认为该线索链为目标线索链,监测目标线索链关联的故障事件的发生情况;第三模块,用于在监测到目标线索链关联的故障事件发生后,则认为该次故障事件的触发起因是目标线索链包括的故障要素,根据判定结果记录关联目标线索链和故障事件的故障日志;所述线索链被预先定义并存储,每条线索链分别记录有一个或多个故障要素、故障事件,且设有初始故障要素。

9、作为一种技术方案,所述线索链记录有多个故障要素的,线索链还记录有各故障要素的发生顺序,初始故障要素为线索链记录的各故障要素中最先发生的故障要素;所述若被监测的线索链上不存在后续故障要素,或被监测的线索链上的所有后续故障要素均被监测到已发生,则认为该线索链为目标线索链,监测目标线索链关联的故障事件的发生情况,包括:若线索链记录有多个故障要素,且被监测的线索链上的所有后续故障要素均被监测到已按照记录的发生顺序发生,则认为该线索链为目标线索链,监测目标线索链关联的故障事件的发生情况。

10、作为一种技术方案,所述线索链记录的各故障要素的发生顺序包括并列顺序和/或先后顺序和/或无限制顺序。

11、作为一种技术方案,所述若被监测的线索链上不存在后续故障要素,或被监测的线索链上的所有后续故障要素均被监测到已发生,则认为该线索链为目标线索链,监测目标线索链关联的故障事件的发生情况,包括:若在被监测的线索链的初始故障要素发生起的预设时长内,未判定被监测的线索链为目标线索链且监测到目标线索链关联的故障事件发生,则重置对该条线索链的监测行为。

12、作为一种技术方案,所述预设时长是分别为每一条线索链配置的参数。

13、本说明书同时提供了一种电子设备,包括处理器和可读存储介质,所述可读存储介质存储有能够被所述处理器执行的机器可执行指令,处理器执行所述机器可执行指令以实现前述的故障线索检测方法。

14、本说明书同时提供了一种可读存储介质,所述可读存储介质存储有机器可执行指令,所述机器可执行指令在被处理器调用和执行时,所述机器可执行指令促使所述处理器实现前述的故障线索检测方法。

15、本说明书提供的上述技术方案至少带来了以下有益效果:

16、动态监测和分析故障要素及其关联线索链,显著提升了故障检测的准确性和响应速度。通过预定义的线索链,系统能够快速锁定故障原因,记录故障日志,从而优化了故障处理流程,提高了计算机设备的运维效率和系统稳定性。

本文档来自技高网...

【技术保护点】

1.一种故障线索检测方法,其特征在于,应用于计算机设备,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述线索链记录有多个故障要素的,线索链还记录有各故障要素的发生顺序,初始故障要素为线索链记录的各故障要素中最先发生的故障要素;

3.根据权利要求2所述的方法,其特征在于,所述线索链记录的各故障要素的发生顺序包括并列顺序和/或先后顺序和/或无限制顺序。

4.根据权利要求1所述的方法,其特征在于,所述若被监测的线索链上不存在后续故障要素,或被监测的线索链上的所有后续故障要素均被监测到已发生,则认为该线索链为目标线索链,监测目标线索链关联的故障事件的发生情况,包括:

5.根据权利要求4所述的方法,其特征在于,所述预设时长是分别为每一条线索链配置的参数。

6.一种故障线索检测装置,其特征在于,应用于计算机设备,所述装置包括:

7.根据权利要求6所述的装置,其特征在于,所述线索链记录有多个故障要素的,线索链还记录有各故障要素的发生顺序,初始故障要素为线索链记录的各故障要素中最先发生的故障要素;

8.根据权利要求7所述的装置,其特征在于,所述线索链记录的各故障要素的发生顺序包括并列顺序和/或先后顺序和/或无限制顺序。

9.根据权利要求6所述的装置,其特征在于,所述若被监测的线索链上不存在后续故障要素,或被监测的线索链上的所有后续故障要素均被监测到已发生,则认为该线索链为目标线索链,监测目标线索链关联的故障事件的发生情况,包括:

10.根据权利要求9所述的装置,其特征在于,所述预设时长是分别为每一条线索链配置的参数。

11.一种电子设备,其特征在于,包括:处理器和可读存储介质,所述可读存储介质存储有能够被所述处理器执行的机器可执行指令,所述处理器执行所述机器可执行指令,以实现权利要求1-5任一所述的方法。

12.一种可读存储介质,其特征在于,所述可读存储介质存储有机器可执行指令,所述机器可执行指令在被处理器调用和执行时,所述机器可执行指令促使所述处理器实现权利要求1-5任一所述的方法。

...

【技术特征摘要】

1.一种故障线索检测方法,其特征在于,应用于计算机设备,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述线索链记录有多个故障要素的,线索链还记录有各故障要素的发生顺序,初始故障要素为线索链记录的各故障要素中最先发生的故障要素;

3.根据权利要求2所述的方法,其特征在于,所述线索链记录的各故障要素的发生顺序包括并列顺序和/或先后顺序和/或无限制顺序。

4.根据权利要求1所述的方法,其特征在于,所述若被监测的线索链上不存在后续故障要素,或被监测的线索链上的所有后续故障要素均被监测到已发生,则认为该线索链为目标线索链,监测目标线索链关联的故障事件的发生情况,包括:

5.根据权利要求4所述的方法,其特征在于,所述预设时长是分别为每一条线索链配置的参数。

6.一种故障线索检测装置,其特征在于,应用于计算机设备,所述装置包括:

7.根据权利要求6所述的装置,其特征在于,所述线索链记录有多个故障要素的,线索链还记录有各故障要素的发生顺序,...

【专利技术属性】
技术研发人员:周晓东叶明建
申请(专利权)人:新华三信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1