一种故障根因分析方法技术

技术编号:33205074 阅读:21 留言:0更新日期:2022-04-24 00:49
本发明专利技术适用于网络安全技术领域,提供了一种故障根因分析方法,所述方法包括以下步骤:主机监测指标;构建异常指标集,所述构建异常指标集由确定指标异常变动时间、计算监测指标异常变动程度和确定异常指标集三个步骤组成;构建指标依赖关系图;对故障根因指标进行排序。本发明专利技术输出是一个经过排序的指标序列,从而将故障的根因指标排在最前面,能够有效提升运维人员故障排查的效率。运维人员故障排查的效率。运维人员故障排查的效率。

【技术实现步骤摘要】
一种故障根因分析方法


[0001]本专利技术涉及网络安全
,具体是涉及一种故障根因分析方法。

技术介绍

[0002]随着越来越多的软件系统部署于云环境中,当软件发生性能故障的时候,运维人员要迅速定位故障的原因变得越来越困难。传统的故障定位主要依赖于运维人员的经验判断,人工查阅海量的告警信息,这里有两个方面的挑战,一方面,人工察看海量的告警信息非常耗时,这不利于迅速处置业务系统故障。另一方面,海量的告警信息之间存在着因果难辨的问题,即大量的监测指标几乎同时发生异常变动,这里只有少量的是故障的根本原因,大量的是症状原因。运维人员如果需要依赖于人工经验来判断故障的根因,极大地提高了运维人员的门槛。
[0003]云环境结构的复杂性也进一步提升了故障根因分析的难度。通常来讲,对云环境中业务系统的监测,包括对云环境的、虚拟主机、中间件和业务系统本身的多重监测指标,这些指标之间具有多重的关联关系。有些关联关系是对故障定位有用的,有些关联关系却是对故障定位起误导作用的,因此,需要提供一种故障根因分析方法,旨在解决上述问题。

技术实现思路

[0004]针对现有技术存在的不足,本专利技术的目的在于提供一种故障根因分析方法,以解决上述
技术介绍
中存在的问题。
[0005]本专利技术是这样实现的,一种故障根因分析方法,所述方法包括以下步骤:
[0006]主机监测指标;
[0007]构建异常指标集,所述构建异常指标集由确定指标异常变动时间、计算监测指标异常变动程度和确定异常指标集三个步骤组成
[0008]构建指标依赖关系图;
[0009]对故障根因指标进行排序。
[0010]作为本专利技术进一步的方案:所述确定指标异常变动时间的步骤,具体包括:
[0011]在故障时间窗内,对指标进行分析,提取指标异常变动的时间,其中故障时间窗通常表示为[T
f

w1,T
f
],T
f
表示业务系统观察到故障的时间,w1是一个回溯窗口;
[0012]采用差分绝对值来表示指标在故障窗口内每一个监测点的变动量,监测点的变动量表示为|x
t+1

x
t
|,其中x
t
代表监测指标t时刻的值,x
t+1
表示后续时刻的值,将监测指标在故障窗口内最大的差分绝对值所对应的时间点定义为监测指标的异常变动时间。
[0013]作为本专利技术进一步的方案:所述计算监测指标异常变动程度的步骤,具体包括:
[0014]将异常变化前[T
c

w2,T
c
]时间段内的监测指标序列定义为{x
i
},将异常变化后[T
c
,T
r
]时间段内的监测指标序列定义为{x
j
},其中w2表示计算{x
i
}统计特征的时间段,T
r
表示故障分析人员采取应急措施的时间;
[0015]采用后验概率表示监测指标异常变动程度,后验概率用于刻划指标的上升程度u
和下降程度d,取几何平均来消除指标间不同的采样概率,表示如下:
[0016][0017][0018]其中X表示异常变化前监测指标的概率分布。
[0019]作为本专利技术进一步的方案:所述确定异常指标集的步骤,具体包括:
[0020]定义m为[u,d]中的最大值,m用于表示监测指标在异常变化点的变化程度;
[0021]取监测指标正常值的3倍均方差作为阈值,若m大于所述阈值,则对应的指标为异常指标,构建异常指标集。
[0022]作为本专利技术进一步的方案:所述构建指标依赖关系图的步骤,具体包括:
[0023]构建异常指标集中的指标的全量关系图,全量关系图中的节点为异常指标集中的指标,每一对节点之间设置有边;
[0024]采用Fisher

Z测试计算全量关系图中节点之间的关系,构建指标X和指标Y之间的统计量:
[0025][0026]其中m表示指标的取样点数,r表示指标X和指标Y的偏相关系数,指标间的相关性采用Fisher

Z测试零假设的p值来表示,采用来表示指标之间的相关性,即全量关系图的边权重,构建完成的全量关系图即为指标依赖关系图。
[0027]作为本专利技术进一步的方案:所述对故障根因指标进行排序的步骤,具体包括:
[0028]采用加权的PageRank算法计算指标影响力,其计算公式如下:
[0029][0030]其中B(u)表示直接和u节点有边连接的节点,W
uv
表示节点u和v之间的权重,d是一个常量为0.85;
[0031]计算指标依赖关系图中所有的节点的指标影响力,根据指标影响力对异常指标进行排序,进而使得故障根因指标排在前面。
[0032]与现有技术相比,本专利技术的有益效果是:
[0033]本专利技术通过构建指标依赖关系图并对故障根因指标进行排序,输出是一个经过排序的指标序列,使得故障根因节点排在列表的最前面,运维人员仅需要验证故障根因指标排序结果的前几项即可发现根因指标,能够有效提升运维人员故障排查的效率。
附图说明
[0034]图1为一种故障根因分析方法的流程图。
[0035]图2为3项异常指标构建的依赖关系图。
具体实施方式
[0036]为了使本专利技术的目的、技术方案及优点更加清晰,以下结合附图及具体实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。
[0037]以下结合具体实施例对本专利技术的具体实现进行详细描述。
[0038]如图1所示,本专利技术实施例提供了一种故障根因分析方法,所述方法包括以下步骤:
[0039]S100,主机监测指标;
[0040]S200,构建异常指标集,所述构建异常指标集由确定指标异常变动时间、计算监测指标异常变动程度和确定异常指标集三个步骤组成;
[0041]S300,构建指标依赖关系图;
[0042]S400,对故障根因指标进行排序。
[0043]需要说明的是,随着越来越多的软件系统部署于云环境中,当软件发生性能故障的时候,运维人员要迅速定位故障的原因变得越来越困难。传统的故障定位主要依赖于运维人员的经验判断,人工查阅海量的告警信息,这里有两个方面的挑战,一方面,人工察看海量的告警信息非常耗时,这不利于迅速处置业务系统故障。另一方面,海量的告警信息之间存在着因果难辨的问题,即大量的监测指标几乎同时发生异常变动,这里只有少量的是故障的根本原因,大量的是症状原因。运维人员如果需要依赖于人工经验来判断故障的根因,极大地提高了运维人员的门槛。
[0044]云环境结构的复杂性也进一步提升了故障根因分析的难度。通常来讲,对云环境中业务系统的监测,包括对云环境的、本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种故障根因分析方法,其特征在于,所述方法包括以下步骤:主机监测指标;构建异常指标集,所述构建异常指标集由确定指标异常变动时间、计算监测指标异常变动程度和确定异常指标集三个步骤组成;构建指标依赖关系图;对故障根因指标进行排序。2.根据权利要求1所述一种故障根因分析方法,其特征在于,所述确定指标异常变动时间的步骤,具体包括:在故障时间窗内,对指标进行分析,提取指标异常变动的时间,其中故障时间窗通常表示为[T
f

w1,T
f
],T
f
表示业务系统观察到故障的时间,w1是一个回溯窗口;采用差分绝对值来表示指标在故障窗口内每一个监测点的变动量,监测点的变动量表示为|x
t+1

x
t
|,其中x
t
代表监测指标t时刻的值,x
t+1
表示后续时刻的值,将监测指标在故障窗口内最大的差分绝对值所对应的时间点定义为监测指标的异常变动时间。3.根据权利要求2所述一种故障根因分析方法,其特征在于,所述计算监测指标异常变动程度的步骤,具体包括:将异常变化前[T
c

w2,T
c
]时间段内的监测指标序列定义为{x
i
},将异常变化后[T
c
,T
r
]时间段内的监测指标序列定义为{x
j
},其中w2表示计算{x
i
}统计特征的时间段,T
r
表示故障分析人员...

【专利技术属性】
技术研发人员:李建华陈璐艺翁亮
申请(专利权)人:上海鹏越惊虹信息技术发展有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1