System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 运维平台、故障排查方法及相关设备技术_技高网

运维平台、故障排查方法及相关设备技术

技术编号:42956075 阅读:5 留言:0更新日期:2024-10-11 16:13
本公开提供一种运维平台及故障排查方法。运维平台包括:调试接口、代理模块以及多个故障排查引擎;调试接口用于接收业务管理平台的提交的针对某一个维护对象的运行维护信息以及将所述故障排查引擎生成的故障排查报告返回至所述业务管理平台;所述代理模块用于基于所述运行维护信息中的环境信息确定所述维护对象对应的后端云环境,将所述运行维护信息提交至与所述后端云环境对应的故障排查引擎;所述故障排查引擎用于基于所述运行维护信息中的问题描述信息确定与所述问题描述信息对应的故障排查链路图,基于所述故障排查链路图以及所述维护对象的标识对所述维护对象进行故障排查,确定与所述问题描述对应的故障根本原因,生成所述故障排查报告。

【技术实现步骤摘要】

本公开涉及计算机,尤其涉及一种运维平台、故障排查方法及相关设备


技术介绍

1、随着互联网技术在全球范围内的不断发展,包括平推荐台在内的各种互联网业务平台通常在全球均存在多个部署环境。目前,对于业务平台的运行维护仍多通过管理人员人工完成。这样,当一个业务平台的部署环境增多或者其提供业务增多时,业务平台的维护成本,特别是人力成本,也将相应地不断增加。

2、为了降低业务平台的维护成本,同时提高业务平台的维护效率,目前急需一种能够在业务平台的运行过程中,自动化实现问题发现、问题分析以及问题修复及报告的运维平台。


技术实现思路

1、有鉴于此,本公开的实施例提供一种运维平台、故障排查方法及相关设备,能够在业务平台的运行过程中,自动化实现问题发现、问题分析以及问题修复及报告。

2、本公开实施例所述的运维平台可以包括:调试接口、代理模块以及多个故障排查引擎;其中,所述多个故障排查引擎中的每个故障排查引擎分别与一个后端云环境相对应;

3、所述调试接口用于接收业务管理平台的提交的针对某一个维护对象的运行维护信息以及将所述故障排查引擎生成的故障排查报告返回至所述业务管理平台;其中,所述运行维护信息包括:所述维护对象的标识、问题描述信息以及环境信息;

4、所述代理模块用于接收所述运行维护信息,基于所述运行维护信息中的环境信息确定所述维护对象对应的后端云环境,将所述运行维护信息提交至与所述后端云环境对应的故障排查引擎,以及将所述故障排查引擎生成的故障排查报告返回至所述调试接口;

5、所述故障排查引擎用于基于所述运行维护信息中的问题描述信息确定与所述问题描述信息对应的故障排查链路图,基于所述故障排查链路图以及所述维护对象的标识对所述维护对象进行故障排查,确定与所述问题描述对应的故障根本原因,生成所述故障排查报告,以及将所述故障排查报告返回至所述代理模块。

6、在本公开的实施例中,所述调试接口为表现层状态转化应用程序接口,用于接收来自所述业务管理平台中告警模块、巡检模块或管理员模块提交的针对所述维护对象的运行维护信息。

7、在本公开的实施例中,所述代理模块包括:

8、映射关系存储模块,用于存储预先设定的环境信息与后端云环境之间的第一映射关系;

9、运维信息接收模块,用于接收来自所述调试接口的运行维护信息;

10、环境信息提取模块,用于从接收的运行维护信息中提取环境信息;

11、映射模块,用于基于所述第一映射关系以及提取的环境信息确定与所述维护对象对应的目标后端云环境;以及

12、转发模块,用于将接收的运行维护信息提交至与所述目标后端云环境对应的故障排查引擎,以及将来自所述故障排查引擎的故障排查报告返回至所述调试接口。

13、在本公开的实施例中,所述故障排查引擎包括:

14、问题表象提取模块,用于从所述运行维护信息中提取问题描述信息;

15、故障排查链路图规划模块,用于存储预先设置的至少一个故障排查链路图以及问题描述信息与所述故障排查链路图之间的第二映射关系,以及基于所述第二映射关系,确定与所述问题描述信息对应的目标故障排查链路图;

16、检查以及分析模块,用于基于所述目标故障排查链路图对所述维护对象进行故障排查,确定与所述问题描述对应的故障根本原因;

17、问题修复模块,用于基于所述故障根本原因生成故障修复方案;

18、报告模块,用于基于所述目标故障排查链路图、所述故障根本原因以及所述故障修复方案生成故障排查报告,并将所述故障排查报告返回至所述代理模块。

19、在本公开的实施例中,所述故障排查链路图包含至少一个分支子链路,每个分支子链路包含至少一个节点;其中,每个分支子链路对应一类故障原因;每个节点对应一个故障具体原因,并定义故障排查方法以及归因条件。

20、在本公开的实施例中,所述检查以及分析模块针对所述故障排查链路图所包含的节点,分别执行所述节点对应的故障排查方法,确定所述维护对象是否符合当前节点对应的归因条件,直至确定所述维护对象符合当前节点对应的归因条件,并将当前节点所对应的故障具体原因作为与所述问题描述对应的故障根本原因。

21、在本公开的实施例中,所述故障排查链路图规划模块进一步用于为所述每个分支子链路分配一个优先级;以及

22、所述检查以及分析模块按照所述优先级从高到低的顺序,从所述至少一个分支子链路中确定目标分支子链路,并针对所述目标分支子链路包含的至少一个节点,分别执行所述节点对应的故障排查方法。

23、在本公开的实施例中,所述检查以及分析模块采用二分法从所述目标分支子链路包含的至少一个节点中选择目标节点,并执行所述目标节点对应的故障排查方法。

24、本公开实施例所述的故障排查方法包括:接收业务管理平台的提交的针对某一个维护对象的运行维护信息;其中,所述运行维护信息包括:所述维护对象的标识、问题描述信息以及环境信息;基于所述运行维护信息中的环境信息确定所述业务管理平台对应的后端云环境;将所述运行维护信息提交至与所述后端云环境对应的故障排查引擎;由所述故障排查引擎基于所述运行维护信息中的问题描述信息确定与所述问题描述信息对应的故障排查链路图,基于所述故障排查链路图对所述维护对象信息对应的维护对象进行故障排查,确定与所述问题描述对应的故障根本原因,基于所述故障根本原因生成并向所述业务管理平台反馈故障排查报告。

25、在本公开的实施例中,上述方法进一步包括:预先存储环境信息与所述后端云环境之间的第一映射关系;其中,基于所述运行维护信息中的环境信息确定所述业务管理平台对应的后端云环境包括:基于所述第一映射关系以及所接收运行维护信息中的环境信息确定所述业务管理平台对应的后端云环境。

26、在本公开的实施例中,上述方法进一步包括:存储预先设置的至少一个故障排查链路图,以及问题描述信息与所述故障排查链路图之间的第二映射关系;其中,基于所述运行维护信息中的问题描述信息确定与所述问题描述信息对应的故障排查链路图包括:从所述运行维护信息中提取问题描述信息;以及基于所述第二映射关系,确定与所提取出的问题描述信息对应的目标故障排查链路图。

27、在本公开的实施例中,所述故障排查链路图包含至少一个分支子链路,每个分支子链路包含至少一个节点;其中,每个分支子链路对应一类故障原因;每个节点对应一个故障具体原因,并定义故障排查方法以及归因条件。

28、在本公开的实施例中,基于所述故障排查链路图对所述维护对象信息对应的维护对象进行故障排查,确定与所述问题描述对应的故障根本原因包括:针对所述故障排查链路图所包含的节点,分别执行所述节点对应的故障排查方法,确定所述维护对象是否符合当前节点对应的归因条件,直至确定所述维护对象符合当前节点对应的归因条件,并将当前节点所对应的故障具体原因作为与所述问题描述对应的故障根本原因。

本文档来自技高网...

【技术保护点】

1.一种运维平台,包括:调试接口、代理模块以及多个故障排查引擎;其中,所述多个故障排查引擎中的每个故障排查引擎分别与一个后端云环境相对应;

2.根据权利要求1所述的运维平台,其中,所述调试接口为表现层状态转化应用程序接口,用于接收来自所述业务管理平台中告警模块、巡检模块或管理员模块提交的针对所述维护对象的运行维护信息。

3.根据权利要求1所述的运维平台,其中,所述代理模块包括:

4.根据权利要求1所述的运维平台,其中,所述故障排查引擎包括:

5.根据权利要求4所述的运维平台,其中,所述故障排查链路图包含至少一个分支子链路;每个分支子链路对应一类故障原因;其中,每个分支子链路包含至少一个节点,每个节点对应一个故障具体原因,并定义故障排查方法以及归因条件。

6.根据权利要求5所述的运维平台,其中,所述检查以及分析模块针对所述故障排查链路图所包含的节点,分别执行所述节点对应的故障排查方法,确定所述维护对象是否符合当前节点对应的归因条件,直至确定所述维护对象符合当前节点对应的归因条件,并将当前节点所对应的故障具体原因作为与所述问题描述对应的故障根本原因。

7.根据权利要求6所述的运维平台,其中,所述故障排查链路图规划模块进一步用于为所述每个分支子链路分配一个优先级;以及

8.根据权利要求7所述的运维平台,其中,所述检查以及分析模块采用二分法从所述目标分支子链路包含的至少一个节点中选择目标节点,并执行所述目标节点对应的故障排查方法。

9.一种故障排查方法,包括:

10.根据权利要求9所述的故障排查方法,进一步包括:预先存储环境信息与所述后端云环境之间的第一映射关系;其中,

11.根据权利要求9所述的故障排查方法,进一步包括:存储预先设置的至少一个故障排查链路图以及问题描述信息与所述故障排查链路图之间的第二映射关系;其中,

12.根据权利要求11所述的故障排查方法,其中,所述故障排查链路图包含至少一个分支子链路;每个分支子链路对应一类故障原因;其中,每个分支子链路包含至少一个节点;每个节点对应一个故障具体原因,并定义故障排查方法以及归因条件。

13.根据权利要求12所述的故障排查方法,其中,基于所述故障排查链路图对所述维护对象信息对应的维护对象进行故障排查,确定与所述问题描述对应的故障根本原因包括:针对所述故障排查链路图所包含的节点,分别执行所述节点对应的故障排查方法,确定所述维护对象是否符合当前节点对应的归因条件,直至确定所述维护对象符合当前节点对应的归因条件,并将当前节点所对应的故障具体原因作为与所述问题描述对应的故障根本原因。

14.根据权利要求13所述的故障排查方法,进一步包括:为所述每个分支子链路分配一个优先级;其中,

15.根据权利要求14所述的故障排查方法,其中,针对所述目标分支子链路包含的至少一个节点,分别执行所述节点对应的故障排查包括:采用二分法从所述目标分支子链路包含的至少一个节点中选择目标节点;以及执行所述目标节点对应的故障排查方法。

16.一种电子设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如权利要求9-15中任意一项所述的故障排查方法。

17.一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使计算机执行权利要求9-15任意一项所述的故障排查方法。

18.一种计算机程序产品,包括计算机程序指令,当所述计算机程序指令在计算机上运行时,使得计算机执行如权利要求9-15中任意一项所述的故障排查方法。

...

【技术特征摘要】

1.一种运维平台,包括:调试接口、代理模块以及多个故障排查引擎;其中,所述多个故障排查引擎中的每个故障排查引擎分别与一个后端云环境相对应;

2.根据权利要求1所述的运维平台,其中,所述调试接口为表现层状态转化应用程序接口,用于接收来自所述业务管理平台中告警模块、巡检模块或管理员模块提交的针对所述维护对象的运行维护信息。

3.根据权利要求1所述的运维平台,其中,所述代理模块包括:

4.根据权利要求1所述的运维平台,其中,所述故障排查引擎包括:

5.根据权利要求4所述的运维平台,其中,所述故障排查链路图包含至少一个分支子链路;每个分支子链路对应一类故障原因;其中,每个分支子链路包含至少一个节点,每个节点对应一个故障具体原因,并定义故障排查方法以及归因条件。

6.根据权利要求5所述的运维平台,其中,所述检查以及分析模块针对所述故障排查链路图所包含的节点,分别执行所述节点对应的故障排查方法,确定所述维护对象是否符合当前节点对应的归因条件,直至确定所述维护对象符合当前节点对应的归因条件,并将当前节点所对应的故障具体原因作为与所述问题描述对应的故障根本原因。

7.根据权利要求6所述的运维平台,其中,所述故障排查链路图规划模块进一步用于为所述每个分支子链路分配一个优先级;以及

8.根据权利要求7所述的运维平台,其中,所述检查以及分析模块采用二分法从所述目标分支子链路包含的至少一个节点中选择目标节点,并执行所述目标节点对应的故障排查方法。

9.一种故障排查方法,包括:

10.根据权利要求9所述的故障排查方法,进一步包括:预先存储环境信息与所述后端云环境之间的第一映射关系;其中,

11.根据权利要求9所述的故障排查方法,进一步包括:存储预先设置的至少一个故...

【专利技术属性】
技术研发人员:杜春鹏孙传报方文东
申请(专利权)人:北京火山引擎科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1