故障模式分析方法、系统、电子设备和介质技术方案

技术编号:36063507 阅读:13 留言:0更新日期:2022-12-24 10:29
本申请涉及电子技术领域,公开了一种故障模式分析方法、系统、电子设备和介质。该方法包括:获取待分析系统的组件以及待分析系统的组件的参数;获取与待分析系统的组件有交互的外部组件及有交互的外部组件的参数;获取待分析系统的组件及外部组件间的拓扑结构;根据待分析系统的组件的参数、有交互的外部组件的参数以及拓扑结构从预置的故障模式库中获取对应的故障模式,生成待分析系统的故障模式列表。如此,提高了故障模式分析的效率和完备性,并且,在待分析系统的发生变化时,通过对待分析系统的拓扑结构等进行对应修改即可完成故障模式列表的更新,提高了故障模式列表的维护效率。率。率。

【技术实现步骤摘要】
故障模式分析方法、系统、电子设备和介质


[0001]本申请涉及电子
,特别涉及一种故障模式分析方法、系统、电子设 备和介质。

技术介绍

[0002]混沌工程(Chaos Engineering)可以进行由经验指导的受控实验,观察系统 行为并发现系统弱点,已逐渐成为现网服务可靠性验证、演练效率提升的主要手 段。如图1A所示,混沌工程的实施主要包括故障模式分析、演练任务编排、任 务演练、结果分析等步骤。其中,故障模式分析是对系统的子系统、模块、工作 流等逐一进行分析,找出潜在的故障模式,并分析其可能造成的影响,找出系统 的薄弱环节和潜在风险点。故障模式分析的效率、场景覆盖的完备性直接影响混 沌工程实施的门槛和效果。
[0003]现有技术中,故障模式分析人员在Web(World Wide Web,全球广域网)页 面或电子表格中对现网系统进行故障模式分析,如图1B所示,故障模式分析人 员通过分析待分析系统所涉及的子模块,确定子模块的故障模式,再将子模块的 故障模式汇总生成待分析系统的故障模式集。可见,故障模式分析人员在Web 页面或电子表格中对系统进行故障模式分析,分析质量依赖于分析人员的经验, 提高了混沌工程的使用门槛,并且很难保证故障模式的覆盖的完备性;并且Web 页面或Excel无法承载系统的组件依赖、访问链等数据,在系统的调用关系、访 问链发生变化时维护成本较高;此外,当系统的组网形式、外部接口等发生变化 时,需要重新进行故障模式分析,效率低下,故障模式修改维护成本较高。

技术实现思路

[0004]有鉴于此,本申请实施例提供了一种故障模式分析方法、系统、电子设备和 介质。通过待分析系统的拓扑组网,自动生成待分析系统的故障模式列表,用于 混沌工程中对待分析系统进行故障演练。如此,提高了故障模式分析的效率和场 景覆盖的完备性,降低了使用混沌工程的门槛,并且在待分析系统的组件依赖关 系、访问链、组网形式、外部接口等发生变化时,通过对待分析系统的拓扑结构 进行相应修改即可完成故障模式列表的更新,提高了维护效率、降低了维护成本。
[0005]第一方面,本申请实施例提供了一种故障模式分析方法,该方法包括:获取 待分析系统的组件以及待分析系统的组件的参数;获取与待分析系统的组件有交 互的外部组件及有交互的外部组件的参数;获取待分析系统的组件及外部组件间 的拓扑结构;根据待分析系统的组件的参数、有交互的外部组件的参数以及拓扑 结构从预置的故障模式库中获取对应的故障模式,生成待分析系统的故障模式列 表,并且故障模式列表用于在混沌工程中对待分析系统进行故障演练。
[0006]如此,通过构建待分析系统中的拓扑结构即可获取待分析系统的故障模式列 表,提高了故障模式分析的效率和完备性,从而提高使用混沌工程进行故障模式 演练的效率。
[0007]在上述第一方面的一种可能的实现中,上述待分析系统的组件的参数包括以 下
参数中的至少一种:组件的类型、组件所包括节点的数量、组件中节点的部署 方式、组件及组件节点所对应的IP地址、组件所对应的进程。
[0008]在上述第一方面的一种可能的实现中,上述拓扑结构包括以下内容中的至少 一项:待分析系统的组件访问的上游组件及访问方式;待分析系统的组件访问的 下游组件及访问方式;待分析系统的组件访问的服务类组件及访问方式。
[0009]在上述第一方面的一种可能的实现中,上述根据待分析系统的组件的参数、 有交互的外部组件的参数以及拓扑结构从预置的故障模式库中获取对应的故障 模式,生成待分析系统的故障模式列表,包括以下方式中的至少一种:根据组件 的参数,生成基础类故障,基础类故障包括主机类故障、资源类故障和进程类故 障;根据组件访问的上游组件,生成网络类故障和其他类故障;根据组件访问的 下游组件,生成网络类故障;根据组件访问的服务类组件,生成服务类故障。
[0010]在上述第一方面的一种可能的实现中,上述方法还包括:获取待分析系统的 参数变化;根据参数变化,更新故障模式列表。
[0011]本方案中,当待分析系统的组件的参数发生变化(如组件中节点的部署方式、 节点的数量、节点的IP地址发生变化)、增加或减少组件、与待分析系统的组件 有交互的外部组件发生变化时,通过在待分析系统的拓扑结构中进行相应的修改, 即可根据拓扑结构的变化更新待分析系统的故障模式列表,如此,提高了故障模 式列表的维护效率。
[0012]在上述第一方面的一种可能的实现中,上述参数变化,包括以下变化中的至 少一种:待分析系统的组件的参数的变化;有交互的外部组件的参数的变化;拓 扑结构的变化。
[0013]在上述第一方面的一种可能的实现中,上述主机类故障包括主机离线或主机 重启。
[0014]在上述第一方面的一种可能的实现中,上述进程类故障包括以下故障中的至 少一个:进程挂起、进程无法启动、进行退出。
[0015]在上述第一方面的一种可能的实现中,上述资源类故障包括以下故障中的至 少一个:主机处理器过载、主机内存过载、主机磁盘输入输出高、主机磁盘满。
[0016]在上述第一方面的一种可能的实现中,上述网络类故障包括以下故障中的至 少一个:组件访问不通、组件访问丢包、组件访问延时、组件访问返回错误、网 卡故障、网络包损坏、网络链路丢包、网络链路延时、网络限速。
[0017]在上述第一方面的一种可能的实现中,上述其他类故障包括外部请求过负荷。
[0018]在上述第一方面的一种可能的实现中,上述服务类故障包括以下故障中的至 少一个:服务主节点故障、服务备节点故障、服务可用区故障、服务数据丢失、 密码过期。
[0019]第二方面,本申请实施例提供了一种故障模式分析系统,该系统包括:应用 编辑器、拓扑编辑器和故障模式分析器;其中:应用编辑器用于获取待分析系统 的组件及组件的参数;拓扑编辑器用于获取与应用编辑器获取的待分析系统的组 件和与待分析系统有交互的外部组件间的拓扑结构;故障模式分析器包括故障模 式库,并且故障模式分析器用于根据组件的参数、有交互的外部组件的参数以及 拓扑结构,从故障模式库中获取对应的故障模式,并生成待分析系统的故障模式 列表。
[0020]第三方面,本申请实施例提供了一种可读介质,该可读介质上存储有指令, 该指令在电子设备上执行时使电子设备执行上述第一方面所述的任一故障模式 分析方法。
[0021]第四方面,本申请实施例提供了一种程序产品,该程序产品用于实现上述第 二方面所述的故障模式分析方法。
[0022]第五方面,本申请实施例提供了一种电子设备,该电子设备包括:存储器, 用于存储由电子设备的一个或多个处理器执行的指令,以及处理器,是电子设备 的处理器之一,用于执行存储器中存储的指令以实现上述第一方面所述的任一故 障模式分析方法。
附图说明
[0023]图1A示出了一种混沌工程的工作流程图;
[0024]图1B示出了一种故障模式分析的流程图;
[0025]图2根本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种故障模式分析方法,其特征在于,所述方法包括:获取待分析系统的组件以及所述待分析系统的组件的参数;获取与所述待分析系统的组件有交互的外部组件及所述有交互的外部组件的参数;获取所述待分析系统的组件及所述外部组件间的拓扑结构;根据所述待分析系统的组件的参数、所述有交互的外部组件的参数以及所述拓扑结构从预置的故障模式库中获取对应的故障模式,生成所述待分析系统的故障模式列表,并且所述故障模式列表用于在混沌工程中对所述待分析系统进行故障演练。2.根据权利要求1所述的故障模式分析方法,其特征在于,所述待分析系统的组件的参数包括以下参数中的至少一种:组件的类型、组件所包括节点的数量、组件中节点的部署方式、组件及组件节点所对应的IP地址、组件所对应的进程。3.根据权利要求1所述的故障模式分析方法,其特征在于,所述拓扑结构,包括以下内容中的至少一项:所述待分析系统的组件访问的上游组件及访问方式;所述待分析系统的组件访问的下游组件及访问方式;所述待分析系统的组件访问的服务类组件及访问方式。4.根据权利要求1所述的故障模式分析方法,其特征在于,所述根据所述待分析系统的组件的参数、所述有交互的外部组件的参数以及所述拓扑结构从预置的故障模式库中获取对应的故障模式,生成所述待分析系统的故障模式列表,包括以下方式中的至少一种:根据所述组件的参数,生成基础类故障,所述基础类故障包括主机类故障、资源类故障和进程类故障;根据所述组件访问的上游组件,生成网络类故障和其他类故障;根据所述组件访问的下游组件,生成网络类故障;根据所述组件访问的服务类组件,生成服务类故障。5.根据权利要求1所述的故障模式分析方法,其特征在于,所述方法还包括:获取所述待分析系统的参数变化;根据所述参数变化,更新所述故障模式列表。6.根据权利要求5所述的故障模式分析方法,其特征在于,所述参数变化,包括以下变化中的至少一种:所述待分析系统的组件的参数的变化;所述有交互的外部组件的参数的变化;所述拓扑结构的变化。7.根据权利要求4所述的故障模式分析方法,其特征在于,所述...

【专利技术属性】
技术研发人员:林啸鸣宋建勋陈梁
申请(专利权)人:花瓣云科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1