一种集群节点故障检测方法及装置制造方法及图纸

技术编号:31494153 阅读:18 留言:0更新日期:2021-12-18 12:32
本发明专利技术公开了一种集群节点故障检测方法及装置,可以通过获得目标节点的至少一个指定信息维度下的节点运行信息,各指定信息维度均为与隐性故障相关的信息维度,按照预定义的信息拼接次序,对各指定信息维度下的节点运行信息进行拼接,获得目标联合特征信息,将目标联合特征信息输入至训练好的隐性故障检测模型,获得隐性故障检测模型输出的隐性故障存在概率值,基于隐性故障存在概率值,确定目标节点是否存在隐性故障。本发明专利技术可以实现对集群中所有节点的隐性故障监测,在节点出现隐性故障时即可以故障定位并进行排障处理,避免节点的隐性故障发展为显性故障,避免给集群整体运行性能产生的不利影响,保障集群整体运行性能,保障集群运行效率。障集群运行效率。障集群运行效率。

【技术实现步骤摘要】
一种集群节点故障检测方法及装置


[0001]本专利技术涉及计算机
,尤其涉及一种集群节点故障检测方法及装置。

技术介绍

[0002]随着计算机技术的发展,集群技术不断提高。
[0003]在集群运行过程中,当集群中的某个节点出现故障时,集群的整体运行性能将会下降,及时识别故障并进行相应的排障处理,对于集群运行性能的保障具有关键意义。其中,节点出现的故障可以包括显性故障和隐性故障。
[0004]但是,现有技术无法有效检测出隐性故障。

技术实现思路

[0005]鉴于上述问题,本专利技术提供一种克服上述问题或者至少部分地解决上述问题的集群节点故障检测方法及装置,技术方案如下:
[0006]一种集群节点故障检测方法,包括:
[0007]获得目标节点的至少一个指定信息维度下的节点运行信息,各所述指定信息维度均为与隐性故障相关的信息维度;
[0008]按照预定义的信息拼接次序,对各所述指定信息维度下的节点运行信息进行拼接,获得目标联合特征信息;
[0009]将所述目标联合特征信息输入至训练好的隐性故障检测模型,获得所述隐性故障检测模型输出的隐性故障存在概率值;
[0010]基于所述隐性故障存在概率值,确定所述目标节点是否存在隐性故障。
[0011]可选的,各所述指定信息维度包括:Nmon日志信息维度、负载信息维度、SQL执行信息维度、目标日志信息维度和/或历史故障信息维度。
[0012]可选的,所述方法还包括:
[0013]确定第一节点的隐性故障时段;
[0014]基于所述第一节点在所述隐性故障时段内的节点运行信息和所述第一节点的历史故障信息,获得所述隐性故障检测模型的负样本训练数据;其中,所述第一节点在隐性故障时段内的节点运行信息包括:Nmon日志信息、负载信息、SQL执行信息和/或目标日志信息;
[0015]使用所述负样本训练数据,对处于训练阶段的所述隐性故障检测模型进行训练。
[0016]可选的,所述确定第一节点的隐性故障时段,包括:
[0017]确定所述第一节点的显性故障出现时刻;
[0018]确定所述第一节点的隐性故障持续时长;
[0019]将在所述显性故障出现时刻之前且与所述显性故障出现时刻间隔隐性故障持续时长的时刻,确定为隐性故障出现时刻;
[0020]将由所述隐性故障出现时刻至所述显性故障出现时刻之间的时段,确定为所述隐
性故障时段。
[0021]可选的,所述方法还包括:
[0022]基于集群在指定时段内的平均负载、所述第一节点在所述指定时段内的平均负载和所述第一节点的CPU配置参数,计算出所述隐性故障持续时长。
[0023]可选的,所述方法还包括:
[0024]确定第二节点的健康运行时段;
[0025]基于所述第二节点在所述健康运行时段内的节点运行信息和所述第二节点的历史故障信息,获得所述隐性故障检测模型的正样本训练数据;其中,所述第二节点在健康运行时段内的节点运行信息包括:Nmon日志信息、负载信息、SQL执行信息和/或目标日志信息;
[0026]使用所述正样本训练数据,对处于训练阶段的所述隐性故障检测模型进行训练。
[0027]一种集群节点故障检测装置,包括:第一获得单元、第一拼接单元、第一输入单元、第二获得单元和第一确定单元;其中:
[0028]所述第一获得单元,用于获得目标节点的至少一个指定信息维度下的节点运行信息,各所述指定信息维度均为与隐性故障相关的信息维度;
[0029]所述第一拼接单元,用于按照预定义的信息拼接次序,对各所述指定信息维度下的节点运行信息进行拼接,获得目标联合特征信息;
[0030]所述第一输入单元,用于将所述目标联合特征信息输入至训练好的隐性故障检测模型;
[0031]所述第二获得单元,用于获得所述隐性故障检测模型输出的隐性故障存在概率值;
[0032]所述第一确定单元,用于基于所述隐性故障存在概率值,确定所述目标节点是否存在隐性故障。
[0033]可选的,各所述指定信息维度包括:Nmon日志信息维度、负载信息维度、SQL执行信息维度、目标日志信息维度和/或历史故障信息维度。
[0034]可选的,所述装置还包括:第二确定单元、第三获得单元和第一训练单元;其中:
[0035]所述第二确定单元,用于确定第一节点的隐性故障时段;
[0036]所述第三获得单元,用于基于所述第一节点在所述隐性故障时段内的节点运行信息和所述第一节点的历史故障信息,获得所述隐性故障检测模型的负样本训练数据;其中,所述第一节点在隐性故障时段内的节点运行信息包括:Nmon日志信息、负载信息、SQL执行信息和/或目标日志信息;
[0037]所述第一训练单元,用于使用所述负样本训练数据,对处于训练阶段的所述隐性故障检测模型进行训练。
[0038]可选的,所述第二确定单元包括:第三确定单元、第四确定单元、第五确定单元和第六确定单元,其中:
[0039]所述第三确定单元,用于确定所述第一节点的显性故障出现时刻;
[0040]所述第四确定单元,用于确定所述第一节点的隐性故障持续时长;
[0041]所述第五确定单元,用于将在所述显性故障出现时刻之前且与所述显性故障出现时刻间隔隐性故障持续时长的时刻,确定为隐性故障出现时刻;
[0042]所述第六确定单元,用于将由所述隐性故障出现时刻至所述显性故障出现时刻之间的时段,确定为所述隐性故障时段。
[0043]可选的,所述装置还包括:计算单元;
[0044]所述计算单元,用于基于集群在指定时段内的平均负载、所述第一节点在所述指定时段内的平均负载和所述第一节点的CPU配置参数,计算出所述隐性故障持续时长。
[0045]可选的,所述装置还包括:第七确定单元、第四获得单元和第二训练单元;
[0046]所述第七确定单元,用于确定第二节点的健康运行时段;
[0047]所述第四获得单元,用于基于所述第二节点在所述健康运行时段内的节点运行信息和所述第二节点的历史故障信息,获得所述隐性故障检测模型的正样本训练数据;其中,所述第二节点在健康运行时段内的节点运行信息包括:Nmon日志信息、负载信息、SQL执行信息和/或目标日志信息;
[0048]所述第二训练单元,用于使用所述正样本训练数据,对处于训练阶段的所述隐性故障检测模型进行训练。
[0049]本实施例提出的集群节点故障检测方法及装置,可以通过获得目标节点的至少一个指定信息维度下的节点运行信息,各指定信息维度均为与隐性故障相关的信息维度,按照预定义的信息拼接次序,对各指定信息维度下的节点运行信息进行拼接,获得目标联合特征信息,将目标联合特征信息输入至训练好的隐性故障检测模型,获得隐性故障检测模型输出的隐性故障存在概率值,基于隐性故障存在概率值,确定目标节点是否存在隐性故障。本专利技术可以分别将集群中的各本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种集群节点故障检测方法,其特征在于,包括:获得目标节点的至少一个指定信息维度下的节点运行信息,各所述指定信息维度均为与隐性故障相关的信息维度;按照预定义的信息拼接次序,对各所述指定信息维度下的节点运行信息进行拼接,获得目标联合特征信息;将所述目标联合特征信息输入至训练好的隐性故障检测模型,获得所述隐性故障检测模型输出的隐性故障存在概率值;基于所述隐性故障存在概率值,确定所述目标节点是否存在隐性故障。2.根据权利要求1所述的集群节点故障检测方法,其特征在于,各所述指定信息维度包括:Nmon日志信息维度、负载信息维度、SQL执行信息维度、目标日志信息维度和/或历史故障信息维度。3.根据权利要求1所述的集群节点故障检测方法,其特征在于,所述方法还包括:确定第一节点的隐性故障时段;基于所述第一节点在所述隐性故障时段内的节点运行信息和所述第一节点的历史故障信息,获得所述隐性故障检测模型的负样本训练数据;其中,所述第一节点在隐性故障时段内的节点运行信息包括:Nmon日志信息、负载信息、SQL执行信息和/或目标日志信息;使用所述负样本训练数据,对处于训练阶段的所述隐性故障检测模型进行训练。4.根据权利要求3所述的集群节点故障检测方法,其特征在于,所述确定第一节点的隐性故障时段,包括:确定所述第一节点的显性故障出现时刻;确定所述第一节点的隐性故障持续时长;将在所述显性故障出现时刻之前且与所述显性故障出现时刻间隔隐性故障持续时长的时刻,确定为隐性故障出现时刻;将由所述隐性故障出现时刻至所述显性故障出现时刻之间的时段,确定为所述隐性故障时段。5.根据权利要求4所述的集群节点故障检测方法,其特征在于,所述方法还包括:基于集群在指定时段内的平均负载、所述第一节点在所述指定时段内的平均负载和所述第一节点的CPU配置参数,计算出所述隐性故障持续时长。6.根据权利要求1所述的集群节点故障检测方法,其特征在于,所述方法还包括:确定第二节点的健康运行时段;基于所述第二节点在所述健康运行时段内的节点运行信息和所述第二节点的历史故障信息,获得所述隐性故障检测模型的正样本训练数据;其中,所述第二节点在健康运行时段内的节点运行信息包括:Nmon日志信息、负载信息、SQL执行信息和/或目标日志信息;使用所述正样本训练数据,对处于训练阶段的所述隐性故障检测模型进行训练。7.一种集群节点故障检测装置,其特征在于,包括:第一获得单元、拼接单元、第一输入单元、第二...

【专利技术属性】
技术研发人员:郑云佩刘富林王星莫亚运郭玉章
申请(专利权)人:中国建设银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1