一种故障分析方法以及相关设备技术

技术编号:38971800 阅读:23 留言:0更新日期:2023-09-28 09:35
本申请实施例公开了一种故障分析方法以及相关设备,包括:从日志中获取M个故障事件;基于M个故障事件的时序,确定M

【技术实现步骤摘要】
一种故障分析方法以及相关设备


[0001]本申请实施例涉及服务器领域,尤其涉及一种故障分析方法以及相关设备。

技术介绍

[0002]随着服务器领域中的硬件系统以及软件系统的快速发展,智能运维产生的日志数据不断增多,日志格式千差万别,同时日志词量也不断增多,导致对日志数据进行分析的难度也不断增大。
[0003]服务器在运行过程中不可避免地会遭遇故障,在对故障进行处理时故障的症状表象是最先被发现的,但是找出导致这一故障的故障根因才是解决问题的关键。在日志数据中记录了故障根因的传播链路上的故障事件,准确地识别故障事件之间的关联性是定位故障根因的关键步骤。然而在现有技术中,上述问题未能得到很好的解决。

技术实现思路

[0004]本申请实施例提供了一种故障分析方法以及相关设备,能够确定故障传播链路,准确定位故障根因。
[0005]本申请第一方面提供了一种故障分析方法:
[0006]从日志中获取M个故障事件,M为大于1的正整数。基于M个故障事件的时序,确定M

1个故障事件对;其中,每个故障事件对由时序相邻的两个故障事件组成;获取每个故障事件对的上下文语义体;其中,每个故障事件对的上下文语义体包括故障事件对中的两个故障事件的上下文语义体,其中,每个故障事件的上下文语义体依次由该故障事件的前序N个事件对应的特征向量矩阵,故障事件对应的特征向量矩阵以及故障事件的后序N个事件对应的特征向量矩阵组成。分别将M

1个故障事件对的上下文语义体输入二分类模型,确定M

1个关系概率值;其中,每个关系概率值用于指示对应故障事件对中两个故障事件之间的关联性;基于M

1个关系概率值确定故障传播链路。
[0007]本申请中,故障事件对的上下文语义体更符合故障事件之间的时序性和空间性,关系区分性更高,因此基于上下文语义体所获取的关系概率值会更为准确,能够准确地进行故障根因的定位,确定故障传播链路。
[0008]在一种可能的实现方式中,基于第一事件检测模型以及第二事件检测模型,从日志中获取M个故障事件;其中,第一事件模型为基于故障事件训练所确定的检测模型;第二事件检测模型为基于正常事件进行训练所确定的检测模型。
[0009]本申请中,为了避免由于故障事件的样本量相比于正常事件过少而导致的事件检测模型的准确性不足的情况,分别通过故障事件以及正常事件训练两个事件检测模型,基于两个事件检测模型确定日志模板中的多个故障事件,能够提高识别的准确性。
[0010]在一种可能的实现方式中,从日志中获取多个事件;确定多个事件对应的特征向量矩阵;将每个事件的特征向量矩阵输入第一事件检测模型,得到每个事件的特征向量矩阵对应的第一输出特征向量矩阵;将每个事件的特征向量矩阵输入第二事件检测模型,得
到第二输出特征向量矩阵;基于每个事件的特征向量矩阵及其对应的第一输出特征向量矩阵,确定第一误差值;基于每个事件的特征向量矩阵及其对应的第二输出特征向量矩阵,确定第二误差值;基于第一误差值和第二误差值,确定每个事件是否为故障事件。
[0011]在一种可能的实现方式中,基于第一误差值计算第一隶属值;基于第二误差值计算第二隶属值;其中,第一隶属值的计算公式为:p1=1

(x1

a1)/(b1

a1);其中,x1为每个事件的第一误差值,a1为多个第三误差中的最大值,b1为多个第三误差中的最小值;第三误差为基于第一特征向量矩阵及第三输出特征向量矩阵确定的误差;第一特征向量矩阵为用于训练第一事件检测模型的故障事件对应的特征向量矩阵,第三输出特征向量矩阵为将第一特征向量矩阵输入第一训练模型所得到的输出矩阵;其中,第三模型用于获取第一事件检测模型;第二隶属值的计算公式为:p2=1

(x2

a2)/(b2

a2);其中,x2为每个事件的第二误差值,a2为多个第四误差中的最大值,b2为多个第四误差中的最小值,第四误差为基于第二特征向量矩阵及第四输出特征向量矩阵确定的误差;第二特征向量矩阵为用于训练第二事件检测模型的正常事件对应的特征向量矩阵,第四输出特征向量矩阵为将第二特征向量矩阵输入第二训练模型所得到的输出矩阵,其中,第四模型用于获取第二事件检测模型;基于第一隶属值以及第二隶属值确定每个事件是否为故障事件。
[0012]在一种可能的实现方式中,在第一隶属值大于或等于第二隶属值的情况下,确定事件为故障事件。
[0013]在一种可能的实现方式中,用于训练第一事件检测模型的故障事件的数量为用于训练第二事件检测模型的正常事件的数量的两倍。
[0014]在一种可能的实现方式中,对日志进行预处理,获取日志的日志模板,其中,日志模板中包括一个或多个事件,每个事件包括多个日志模板词;将每个日志模板词转化为初级的特征向量;将初级的特征向量转换为word2vec嵌入特征向量;将多个日志模板词对应的word2vec嵌入特征向量拼接,获得每个事件对应的特征向量矩阵。
[0015]在一种可能的实现方式中,第一事件检测模型以及第二事件检测模型为LSTM模型。
[0016]在一种可能的实现方式中,二分类模型为bilstm

softmax二分类模型。
[0017]本申请第三方面提供了一种计算设备,包括处理器,处理器与存储器耦合,存储器用于存储指令,当指令被处理器执行时,使得计算设备执行如前述第一方面中的方法。
[0018]本申请第四方面提供了一种计算机可读储存介质,其上存储有计算机程序或指令,计算机程序或指令被执行时,使得计算机执行前述第一方面中的方法。
[0019]本申请第五方面提供了一种计算机程序产品,计算机程序产品中包括计算机程序代码,当计算机程序代码在计算机上运行时,使得计算机实现如前述第一方面中的方法。
附图说明
[0020]图1为本申请的应用场景的示意图;
[0021]图2为本申请中的故障分析方法的一个流程示意图;
[0022]图3为本申请中的训练第一事件检测模型的示意图;
[0023]图4为本申请中的训练第二事件检测模型的示意图;
[0024]图5a为本申请中构建故障事件的上下文语义体的示意图;
[0025]图5b为本申请中构建故障事件对的上下文语义体的示意图;
[0026]图6为本申请中获取关系概率值的示意图;
[0027]图7为本申请中计算设备的一个结构示意图;
[0028]图8为本申请中计算设备的一个结构示意图。
具体实施方式
[0029]下面结合附图,对本申请的实施例进行描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。本领域普通技术人员可知,随着技术发展和新场景的出现,本申请实施例提供的技术方案对于类似的技术问题,同样适用。
[0030]本申请的说明书和本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种故障分析方法,其特征在于,包括:从日志中获取M个故障事件;所述M为大于1的正整数;基于所述M个故障事件的时序,确定M

1个故障事件对;其中,每个故障事件对由时序相邻的两个故障事件组成;获取每个故障事件对的上下文语义体;其中,每个故障事件对的上下文语义体包括所述故障事件对中两个故障事件的上下文语义体,其中,每个故障事件的上下文语义体依次由该故障事件的前序N个事件对应的特征向量矩阵,故障事件对应的特征向量矩阵以及所述故障事件的后序N个事件对应的特征向量矩阵组成;其中,N为大于等于1的正整数;分别将所述M

1个故障事件对的上下文语义体输入二分类模型,确定M

1个关系概率值;其中,每个关系概率值用于指示对应故障事件对中两个故障事件之间的关联性;基于所述M

1个关系概率值确定故障传播链路。2.根据权利要求1所述的方法,其特征在于,所述从日志中获取M个故障事件,包括:基于第一事件检测模型以及第二事件检测模型,从所述日志中获取M个故障事件;其中,所述第一事件模型为基于故障事件训练所确定的检测模型;所述第二事件检测模型为基于正常事件进行训练所确定的检测模型。3.根据权利要求2所述的方法,其特征在于,基于所述第一事件检测模型以及所述第二事件检测模型,从所述日志中获取M个故障事件,包括:从日志中获取多个事件;确定所述每个事件对应的特征向量矩阵;将每个事件的特征向量矩阵输入所述第一事件检测模型,得到每个事件的特征向量矩阵对应的第一输出特征向量矩阵;将每个事件的特征向量矩阵输入所述第二事件检测模型,得到第二输出特征向量矩阵;基于每个事件的特征向量矩阵及其对应的第一输出特征向量矩阵,确定第一误差值;基于每个事件的特征向量矩阵及其对应的第二输出特征向量矩阵,确定第二误差值;基于所述第一误差值和所述第二误差值,确定每个事件是否为故障事件。4.根据权利要求3所述的方法,其特征在于,基于所述第一误差值和所述第二误差值,确定每个事件是否为故障事件,包括:基于所述第一误差值计算第一隶属值;基于所述第二误差值计算第二隶属值;其中,所述第一隶属值的计算公式为:p1=1

(x1

a1)/(b1

a1);其中,x1为每个事件的第一误差值,a1为多个第三误差中的最大值,b1为所述多个第三误差中的最小值;所述第三误差为基于第一特征向量矩阵及第三输出特征向量矩阵确...

【专利技术属性】
技术研发人员:吴施楷梁永贵曹瑞
申请(专利权)人:超聚变数字技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1