一种故障主机的定位方法技术

技术编号:33205005 阅读:15 留言:0更新日期:2022-04-24 00:49
本发明专利技术涉及网络安全运维技术领域,具体公开了一种故障主机的定位方法,所述方法包括分析所有的监测指标,确定关键变化点和所述监测指标在关键变化点上的变化特征;根据训练好的排序算法对监测指标进行排序;其中,所述关键变化点为在预设时间范围内监测指标变化幅度最大的时间点。本发明专利技术提出了一种基于机器学习算法的智能化故障主机定位技术,首先对主机的监测指标进行变化趋势的分析,确定监测指标的突变发生的时间和变化特征,然后采用一个经过训练的排序模型,使得最有可能是故障原因的监测指标排在最前面。运维人员只需要重点检查排在最前面的几个监测指标所对应的主机,即可快速定位故障主机。速定位故障主机。速定位故障主机。

【技术实现步骤摘要】
一种故障主机的定位方法


[0001]本专利技术涉及网络安全运维
,具体是一种故障主机的定位方法。

技术介绍

[0002]随着分布式软件构架成熟应用和云计算环境的普及,大型企业的业务系统大多采用分布式部署方式,一套信息系统的多个组件部属于海量的主机上,主机规模达到上百甚至上千。一旦业务系统发生故障,运维人员需要在尽可能短的时间内,定位故障主机,采取应急措施,替换故障主机,使得业务系统恢复。然后,运维人员对故障主机进行分析,确定故障原因,假如是软件缺陷,则将问题提交给开发人员。故障主机的数量可能是一台,也可能是多台。
[0003]传统上,定位故障主机的方法主要依赖于运维人员的人工经验。运维人员会以业务系统故障发生时间为线索,查看大量的监测指标,发现那些在同一时间段附近发生异常变化的指标。在这些可疑的监测指标所属的主机上,运维人员进一步查看日志和告警事件,从而最终锁定和故障原因直接相关的主机。然而,查看大量的监测指标的工作需要大量的时间,且属于机械重复性工作,通常需要数十分钟到几个小时。查看监测指标的时间开销大大延长了业务系统的故障恢复时间,这在一些关键性业务系统上是不能满足业务连续性要求的。
[0004]当运维人员从海量的主机中挑选出监测指标在业务系统故障发生时也伴随有异常变化的主机时,要定位真正的故障原因主机,仍然存在挑战。在业务系统发生故障时,伴随有监测指标突变的主机数量仍然是庞大的。传统的做法有按照软件系统的拓扑结构来分析故障原因,也有按照监测指标突变的发生时间来定位故障主机。然而,现代的大型软件系统往往结构复杂且动态变化,要获得软件系统在故障发生时的软件模块拓扑结构较为困难。同时软件系统的故障在系统内部传播情况也具有一定的复杂性,不能简单用时间先后顺序或者软件模块的调用顺序来作为故障定位的依据。
[0005]大量的研究成果已经证实,采用机器学习的方法来对监测指标进行分析,能够有效支撑对故障主机的定位和业务系统根因分析。

技术实现思路

[0006]本专利技术的目的在于提供一种故障主机的定位方法,以解决上述
技术介绍
中提出的问题。
[0007]为实现上述目的,本专利技术提供如下技术方案:
[0008]一种故障主机的定位方法,所述方法包括:
[0009]分析所有的监测指标,确定关键变化点和所述监测指标在关键变化点上的变化特征;
[0010]根据训练好的排序算法对监测指标进行排序;
[0011]其中,所述关键变化点为在预设时间范围内监测指标变化幅度最大的时间点。
[0012]作为本专利技术技术方案进一步的限定:确定关键变化点的步骤包括:
[0013]根据预设的第一回溯时间确定故障时间窗;所述故障时间窗的右端点为业务系统观察到故障的时间;
[0014]在检测时间窗内依次获取监测指标各序列点上的变化量;所述变化量序列上相邻时刻对应的值之间的差分绝对值;
[0015]确定所述变化量的最大值,获取所述最大值对应的时刻,作为关键变化点。
[0016]作为本专利技术技术方案进一步的限定:确定所述监测指标在关键变化点上的变化特征的步骤包括:
[0017]确定第二回溯时间,获取运维人员开始采取缓解措施的应急时间;
[0018]根据所述关键变化点和所述第二回溯时间确定第一时间段,根据所述关键变化点和所述应急时间确定第二时间段;其中,所述第一时间段在所述关键变化点之前,所述第二时间段在所述关键变化点之后;
[0019]获取第一时间段内各监测指标在第二时间段内观测到的概率;
[0020]根据观测到的概率和预设的随机变量确定上升变化和下降变化。
[0021]作为本专利技术技术方案进一步的限定:所述方法采用高斯核拟合的方式估计随机变量,具体的高斯核拟合模型为:
[0022][0023]其中,G是高斯核,n表示监测指标中采样点数量,h表示带宽。
[0024]作为本专利技术技术方案进一步的限定:所述根据训练好的排序算法对监测指标进行排序的步骤包括:
[0025]基于所述关键变化点、上升变化和下降变化构建分类特征;所述分类特征用于机器学习算法实现故障定位;
[0026]根据McRank算法和线性回归算法获取所述分类特征的线性组合;
[0027]基于线性组合结果对监测指标进行排序。
[0028]作为本专利技术技术方案进一步的限定:所述分类特征包括:
[0029]用表示模块内部主机指标k的平均变化时间;此类特征取自所有指标k的的分布,分别用最大值、最小值、平均值来表示;
[0030]用σ
k
表示模块内部主机指标k的均方差;此类特征取自针对所有的k,σ
k
的最大值、最小值和平均值;
[0031]用表示模块内部指标k的平均上升变化量,用表示模块内部指标k的平均下降变化量,用m
k
表示中较大的值,用以表示指标k的最大变化量;针对所有k,用m
k
的最大值、最小值和平均值作为特征。
[0032]与现有技术相比,本专利技术的有益效果是:本专利技术提出了一种基于机器学习算法的智能化故障主机定位技术,首先对主机的监测指标进行变化趋势的分析,确定监测指标的突变发生的时间和变化特征,然后采用一个经过训练的排序模型,使得最有可能是故障原因的监测指标排在最前面。运维人员只需要重点检查排在最前面的几个监测指标所对应的
主机,即可快速定位故障主机。
附图说明
[0033]为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例。
[0034]图1为故障主机定位方法步骤图。
[0035]图2为故障主机的定位方法的流程框图。
[0036]图3为故障主机的定位方法的第一子流程框图。
具体实施方式
[0037]随着分布式软件构架成熟应用和云计算环境的普及,大型企业的业务系统大多采用分布式部署方式,一套信息系统的多个组件部属于海量的主机上,主机规模达到上百甚至上千。一旦业务系统发生故障,运维人员需要在尽可能短的时间内,定位故障主机,采取应急措施,替换故障主机,使得业务系统恢复。然后,运维人员对故障主机进行分析,确定故障原因,假如是软件缺陷,则将问题提交给开发人员。故障主机的数量可能是一台,也可能是多台。
[0038]传统上,定位故障主机的方法主要依赖于运维人员的人工经验。运维人员会以业务系统故障发生时间为线索,查看大量的监测指标,发现那些在同一时间段附近发生异常变化的指标。在这些可疑的监测指标所属的主机上,运维人员进一步查看日志和告警事件,从而最终锁定和故障原因直接相关的主机。然而,查看大量的监测指标的工作需要大量的时间,且属于机械重复性工作,通常需要数十分钟到几个小时。查看监测指标的时间开销大大延长了业务系统的故障恢复时间,这在一些关键性业务系统上是不能满足业务连续性要求的。
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种故障主机的定位方法,其特征在于,所述方法包括:分析所有的监测指标,确定关键变化点和所述监测指标在关键变化点上的变化特征;根据训练好的排序算法对监测指标进行排序;其中,所述关键变化点为在预设时间范围内监测指标变化幅度最大的时间点。2.根据权利要求1所述的故障主机的定位方法,其特征在于,确定关键变化点的步骤包括:根据预设的第一回溯时间确定故障时间窗;所述故障时间窗的右端点为业务系统观察到故障的时间;在检测时间窗内依次获取监测指标各序列点上的变化量;所述变化量序列上相邻时刻对应的值之间的差分绝对值;确定所述变化量的最大值,获取所述最大值对应的时刻,作为关键变化点。3.根据权利要求1所述的故障主机的定位方法,其特征在于,确定所述监测指标在关键变化点上的变化特征的步骤包括:确定第二回溯时间,获取运维人员开始采取缓解措施的应急时间;根据所述关键变化点和所述第二回溯时间确定第一时间段,根据所述关键变化点和所述应急时间确定第二时间段;其中,所述第一时间段在所述关键变化点之前,所述第二时间段在所述关键变化点之后;获取第一时间段内各监测指标在第二时间段内观测到的概率;根据观测到的概率和预设的随机变量确定上升变化和下降变化。4.根据权利要求3...

【专利技术属性】
技术研发人员:李建华陈璐艺翁亮
申请(专利权)人:上海鹏越惊虹信息技术发展有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1