System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种集群节点的故障检测方法及电子设备技术_技高网

一种集群节点的故障检测方法及电子设备技术

技术编号:42021060 阅读:7 留言:0更新日期:2024-07-16 23:13
本发明专利技术公开了一种集群节点的故障检测方法及电子设备。所述方法包括:获取集群节点在多种预设指标下的实时参数;确定实时参数是否满足对应的判定条件;确定是否满足第一预设条件,第一预设条件为多种预设指标中的目标指标的数量大于预设数量阈值,集群节点在目标指标下的实时参数不满足对应的判定条件;获取集群节点在目标指标下的历史数据;确定是否满足第二预设条件,第二预设条件为集群节点的实时参数与历史数据之间的倍数超过预设倍数阈值;在满足第一预设条件和第二预设条件中的至少一种时,确定集群节点出现故障。本发明专利技术通过综合考虑集群节点在多种预设指标下的实时参数、对应的预设条件以及对应的历史数据,提高判断故障的准确性。

【技术实现步骤摘要】

本专利技术属于集群,具体涉及一种集群节点的故障检测方法及电子设备


技术介绍

1、在实际产品研发过程中,集群稳定性大规模测试中,针对集群产品的自动化测试防劣化控制至关重要,我们需要有一种方法能快速的定位并确定性能劣化原因并快速迭代更新,持续完善产品质量以及测试效率,更是保证稳定性持续测试的关键。

2、首先针对大规模集群的防劣化监控,需要覆盖每个节点的情况,当有个别节点出现异常,需要提前发现并下线当前节点,避免影响集群整体服务。这里就对提前发现给出了很高的要求,在有些场景下,ping通并不代表服务可用,需要在应用层到网络层全面覆盖并完善防劣化监测、恢复以及迭代完善。

3、在现有的针对集群节点检测的方案中,通常会检测集群节点的各种参数,并通过相应的阈值判断集群节点是否出现故障。但是通过单一阈值的方式容易出现误判,降低检测结果的准确率。


技术实现思路

1、本专利技术的一个目的是提供一种集群节点的故障检测方法及电子设备,能够解决现有技术中检测结果准确率低的技术问题。

2、根据本专利技术的第一方面,提供了一种集群节点的故障检测方法,所述方法包括:

3、获取集群节点在多种预设指标下的实时参数;

4、确定所述集群节点在每种所述预设指标下的实时参数是否满足所述预设指标对应的判定条件;

5、确定是否满足第一预设条件,其中,所述第一预设条件为所述多种预设指标中的目标指标的数量大于预设数量阈值,所述集群节点在所述目标指标下的实时参数不满足所述目标指标对应的判定条件;

6、获取集群节点在所述目标指标下的历史数据;

7、确定是否满足第二预设条件,其中,所述第二预设条件为所述集群节点在所述目标指标下的实时参数与所述集群节点在所述目标指标下的历史数据之间的倍数超过预设倍数阈值;

8、在满足所述第一预设条件和所述第二预设条件中的至少一种时,确定所述集群节点出现故障。

9、可选地,所述预设指标包括网络相关指标,所述集群节点在所述预设指标下的实时参数包括丢包率和端口可达性;

10、所述确定所述集群节点在每种所述预设指标下的实时参数是否满足所述预设指标对应的判定条件,包括:

11、在所述丢包率大于预设丢包率和/或所述端口可达性为不可达时,确定所述集群节点在所述网络相关指标下的实时参数不满足所述网络指标对应的判定条件。

12、可选地,所述预设指标包括业务相关指标,所述集群节点在所述预设指标下的实时参数包括业务请求成功率和业务请求响应时间;

13、所述确定所述集群节点在每种所述预设指标下的实时参数是否满足所述预设指标对应的判定条件,包括:

14、在所述业务请求成功率低于预设业务请求成功率阈值和/或所述业务请求响应时间超过预设响应时间时,确定所述集群节点在所述业务相关指标下的实时参数不满足所述业务相关指标对应的判定条件。

15、可选地,所述预设指标包括资源利用率指标,所述集群节点在所述预设指标下的实时参数包括集群节点的实时资源利用率,所述集群节点在所述目标指标下的历史数据包括同时间段的历史资源利用率,所述资源利用率包括cpu利用率、内存利用率、磁盘利用率;

16、所述确定是否满足第二预设条件,包括:

17、计算所述集群节点的实时资源利用率超出所述同时间段的历史资源利用率的第一倍数;

18、若所述目标倍数超过所述资源利用率指标对应的预设倍数阈值,确定满足所述第二预设条件。

19、可选地,所述预设指标包括进程指标,所述集群节点在所述预设指标下的实时参数包括关键进程id的变化次数;

20、所述确定所述集群节点在每种所述预设指标下的实时参数是否满足所述预设指标对应的判定条件,包括:

21、在所述关键进程id的变化次数大于或等于1时,确定所述集群节点在所述进程指标下的实时参数不满足所述进程指标对应的判定条件。

22、可选地,所述预设指标包括埋点业务指标,所述集群节点在所述预设指标下的实时参数包括预设时间段内埋点业务返回数据的次数以及预设时间段内埋点业务返回数据的次数的增量,其中,所述预设时间段内埋点业务返回数据的次数的增量为所述预设时间段内埋点业务返回数据的次数与前一时间段内所述埋点业务返回数据的次数之间的差值;

23、所述确定所述集群节点在每种所述预设指标下的实时参数是否满足所述预设指标对应的判定条件,包括:

24、若所述预设时间段内埋点业务返回的数据次数为0,确定所述集群节点在所述埋点业务指标下的实时参数不满足所述埋点业务指标对应的判定条件;

25、若所述预设时间段内埋点业务返回数据的次数的增量小于预设增量阈值,确定所述集群节点在所述埋点业务指标下的实时参数不满足所述埋点业务指标对应的判定条件。

26、可选地,所述预设指标包括关键进程的错误日志指标,所述集群节点在所述错误日志指标下的实时参数包括所述关键进程的错误日志的新增数量;

27、所述确定所述集群节点在每种所述预设指标下的实时参数是否满足所述预设指标对应的判定条件,包括:

28、在所述关键进程的错误日志的新增数量大于0时,确定所述集群节点在所述关键进程的错误日志指标下的实时参数不满足所述关键进程的错误日志指标对应的判定条件。

29、可选地,所述预设指标包括集群节点的错误日志指标,所述集群节点在所述集群节点的错误日志指标下的实时参数包括所述集群节点的错误日志的新增数量,所述集群节点在所述预设指标下的历史数据包括所述集群节点在相同时间段的错误日志的新增数量;

30、所述确定是否满足第二预设条件,包括:

31、计算所述集群节点的错误日志的新增数量超出所述集群节点在相同时间段的错误日志的新增数量的第二倍数;

32、若所述第二倍数超过所述集群节点的错误日志指标对应的倍数阈值,确定满足所述第二预设条件。

33、可选地,所述方法还包括:

34、在确定所述集群节点出现故障的情况下,确定是否存在与所述集群节点的故障类型对应的预先配置的解决方案;

35、若存在,执行与所述集群节点的故障类型对应的预先配置的修复方案,输出告警日志;

36、若不存在,执行预先配置的通用修复方案,根据修复结果输出告警通知。

37、根据本专利技术的第二方面,提供了一种电子设备,包括处理器和存储器,所述存储器中存储可被所述处理器执行的程序或指令,所述程序或指令被所述处理器执行时实现如本专利技术第一方面任一项所述的集群节点的故障检测方法。

38、本专利技术的有益效果在于:本专利技术通过综合考虑集群节点在多种预设指标下的实时参数、对应的预设条件以及对应的历史数据,根据不满足预设条件的目标指标的数量以及实时参数超出对应的历史数据的倍数来确定集群节点是否出现故障,提高判断故障的准确性。

本文档来自技高网...

【技术保护点】

1.一种集群节点的故障检测方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述预设指标包括网络相关指标,所述集群节点在所述预设指标下的实时参数包括丢包率和端口可达性;

3.根据权利要求1所述的方法,其特征在于,所述预设指标包括业务相关指标,所述集群节点在所述预设指标下的实时参数包括业务请求成功率和业务请求响应时间;

4.根据权利要求1所述的方法,其特征在于,所述预设指标包括资源利用率指标,所述集群节点在所述预设指标下的实时参数包括集群节点的实时资源利用率,所述集群节点在所述目标指标下的历史数据包括同时间段的历史资源利用率,所述资源利用率包括CPU利用率、内存利用率、磁盘利用率;

5.根据权利要求1所述的方法,其特征在于,所述预设指标包括进程指标,所述集群节点在所述预设指标下的实时参数包括关键进程ID的变化次数;

6.根据权利要求1所述的方法,其特征在于,所述预设指标包括埋点业务指标,所述集群节点在所述预设指标下的实时参数包括预设时间段内埋点业务返回数据的次数以及预设时间段内埋点业务返回数据的次数的增量,其中,所述预设时间段内埋点业务返回数据的次数的增量为所述预设时间段内埋点业务返回数据的次数与前一时间段内所述埋点业务返回数据的次数之间的差值;

7.根据权利要求1所述的方法,其特征在于,所述预设指标包括关键进程的错误日志指标,所述集群节点在所述错误日志指标下的实时参数包括所述关键进程的错误日志的新增数量;

8.根据权利要求7所述的方法,其特征在于,所述预设指标包括集群节点的错误日志指标,所述集群节点在所述集群节点的错误日志指标下的实时参数包括所述集群节点的错误日志的新增数量,所述集群节点在所述预设指标下的历史数据包括所述集群节点在相同时间段的错误日志的新增数量;

9.根据权利要求1所述的方法,其特征在于,所述方法还包括:

10.一种电子设备,其特征在于,包括处理器和存储器,所述存储器中存储可被所述处理器执行的程序或指令,所述程序或指令被所述处理器执行时实现如权利要求1-9任一项所述的集群节点的故障检测方法。

...

【技术特征摘要】

1.一种集群节点的故障检测方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述预设指标包括网络相关指标,所述集群节点在所述预设指标下的实时参数包括丢包率和端口可达性;

3.根据权利要求1所述的方法,其特征在于,所述预设指标包括业务相关指标,所述集群节点在所述预设指标下的实时参数包括业务请求成功率和业务请求响应时间;

4.根据权利要求1所述的方法,其特征在于,所述预设指标包括资源利用率指标,所述集群节点在所述预设指标下的实时参数包括集群节点的实时资源利用率,所述集群节点在所述目标指标下的历史数据包括同时间段的历史资源利用率,所述资源利用率包括cpu利用率、内存利用率、磁盘利用率;

5.根据权利要求1所述的方法,其特征在于,所述预设指标包括进程指标,所述集群节点在所述预设指标下的实时参数包括关键进程id的变化次数;

6.根据权利要求1所述的方法,其特征在于,所述预设指标包括埋点业务指标,所述集群节点在所述预设指标下的实时参数包括预设时间段内...

【专利技术属性】
技术研发人员:高鸿磊张安万江文
申请(专利权)人:云盾智慧安全科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1