一种设备检测方法、装置和通信设备制造方法及图纸

技术编号:33251750 阅读:13 留言:0更新日期:2022-04-30 22:50
本申请公开了一种设备检测方法、装置和通信设备,该方法包括:当第一设备检测到第二设备反馈的应答响应超时时,获取所述第一设备在第一时间段内同步的历史心跳数据,所述历史心跳数据包括第一设备、第二设备和第三设备中每个设备检测的其他两个设备对心跳数据包的应答响应情况;根据所述历史心跳数据中每个设备检测的所述应答响应情况,确定所述第二设备应答响应超时的原因,所述原因包括所述第二设备发生故障或者第二设备与第一设备之间的传输链路发生故障。本方法利用周边设备检测的历史心跳数据和设备自身获取的历史心跳数据对处于异常状态的设备进行检测,提高了分布式网络内设备故障检测的准确率,避免网络波动下导致的误判。的误判。的误判。

【技术实现步骤摘要】
一种设备检测方法、装置和通信设备


[0001]本申请涉及通信领域,尤其是涉及一种设备检测方法、装置和通信设备。

技术介绍

[0002]在分布式网络中,为了及时获取网络中各个网络设备的状态,通常会采用心跳检测法来检测网络中的各个设备是否发生故障。具体地,心跳检测法是指一个设备周期性地向另一个设备发送心跳数据包,然后根据另一个设备反馈的响应数据包情况来确定接收端设备是否处于正常状态。比如图1所示,设备1定期地向设备2发送心跳数据包,然后等待设备2反馈响应数据包,如果在预设时间段内,设备1未接收到设备2发送的响应数据包,则设备1会判定设备2发生了故障,此时需要上报告警信息。
[0003]技术人员在实践过程中发现,在采用心跳检测法对设备的状态进行检测时,可能由于网络波动现象导致系统误判。比如网络波动时,可能出现网络线路时通时断的情况,进而导致发送端设备或者路由器,比如设备1定期发送的心跳数据包丢包,或者称为“概率性丢包”,从而导致接收端的设备2不会发送响应数据包,此时设备1只能判断出设备2发生故障,但实际上有可能是设备1和设备2之间的传输线路发生故障,而设备2本身并未发生故障,因此,采用心跳检测法不能准确地检测出设备实际的状态,准确率较低。

技术实现思路

[0004]本申请实施例提供了一种设备检测方法、装置和通信设备,用于解决分布式网络中发生网络波动时无法准确检测设备状态的技术问题。为了解决该技术问题,本申请公开了以下技术方案:
[0005]第一方面,本申请提供了一种设备检测方法,该方法包括:当第一设备检测到第二设备反馈的应答响应超时时,获取所述第一设备在第一时间段内同步的历史心跳数据,所述历史心跳数据包括所述第一设备、所述第二设备和第三设备中每个设备检测的其他两个设备对心跳数据包的应答响应情况;根据所述历史心跳数据中每个设备检测的所述应答响应情况,确定所述第二设备应答响应超时的原因,所述原因包括所述第二设备发生故障,或者所述第二设备与所述第一设备之间的传输链路发生故障。
[0006]本方法,利用两个周边设备检测的历史心跳数据,和设备自身获取的历史心跳数据对处于异常状态的设备进行检测,通过比较各设备过去一段时间内的超时次数,确定出发生故障的原因是设备本身的故障,或者是概率性丢包导致的链路故障,由于获取的历史心跳数据是多个设备互相检测和上报的心跳超时情况,利用全局信息进行决策,所以相比于单一设备的历史心跳数据检测,本方法提高了分布式网络内设备故障检测的准确率,从而避免网络波动情况下由于概率性丢包导致的误判。
[0007]结合第一方面,在第一方面的一种可能的实现方式中,根据所述历史心跳数据中每个设备检测所述应答响应情况,确定所述第二设备应答响应超时的原因,包括:根据所述每个设备检测的所述应答响应情况分别确定所述第一设备、所述第二设备和所述第三设备
在所述第一时间段内的应答响应超时总数N1,N2和N3;当满足第一条件时,确定所述原因是所述第二设备发生故障,所述第一条件为:所述第二设备对应的所述应答响应超时总数N2最大,且所述第三设备对应的所述应答响应超时总数N3大于0。
[0008]本实现方式中,利用第一条件能够准确地检测出故障是否属于设备本身故障,从而提升了分布式网络在网络波动场景下故障检测的准确率。
[0009]结合第一方面,在第一方面的另一种可能的实现方式中,当满足第二条件时,确定所述原因是,所述第二设备与所述第一设备之间的传输链路发生故障,所述第二条件为:所述第一设备对应的所述应答响应超时总数N1大于0,所述第二设备对应的所述应答响应超时总数N2大于0,且所述第三设备对应的所述应答响应超时总数N3等于0。
[0010]本实现方式中,利用第二条件能够准确地检测出故障是否属于设备与设备之间的传输链路发生故障,从而提升了分布式网络在网络波动场景下故障检测的准确率。
[0011]结合第一方面,在第一方面的又一种可能的实现方式中,所述历史心跳数据包括:
[0012]所述第一设备在第一时间段内统计的所述第二设备反馈应答响应的累计超时次数a
12
,所述第一设备在第一时间段内统计的所述第三设备反馈应答响应的累计超时次数a
13
;所述第二设备在第一时间段内统计的所述第一设备反馈应答响应的累计超时次数a
21
,所述第二设备在第一时间段内统计的所述第三设备反馈应答响应的累计超时次数a
23
;所述第三设备在第一时间段内统计的所述第二设备反馈应答响应的累计超时次数a
32
,所述第三设备在第一时间段内统计的所述第一设备反馈应答响应的累计超时次数a
31
。在上述所包含的历史心跳数据情况下,所述第一条件为:N2>N1,N2>N3,且N3>0;其中,N1=a
12
+a
13
+a
21
+a
31
,N2=a
12
+a
21
+a
23
+a
32
,N3=a
13
+a
23
+a
31
+a
32

[0013]结合第一方面,在第一方面的又一种可能的实现方式中,在上述所包含的历史心跳数据情况下,还包括所述第二条件为N1=N2>0,N3=0。其中,N1=a
12
+a
13
+a
21
+a
31
,N2=a
12
+a
21
+a
23
+a
32
,N3=a
13
+a
23
+a
31
+a
32

[0014]结合第一方面,在第一方面的又一种可能的实现方式中,当所述历史心跳数据包括:所述第一设备在第一时间段内统计的所述第二设备反馈应答响应的累计超时次数a
12
;所述第二设备在第一时间段内统计的所述第一设备反馈应答响应的累计超时次数a
21
;所述第三设备在第一时间段内统计的所述第二设备反馈应答响应的累计超时次数a
32
。在上述所包含的历史心跳数据情况下,所述第一条件为:a
12
>0,a
21
>0,且a
32
>0;所述第二条件为:a
12
>0,a
21
>0,且a
32
=0。
[0015]结合第一方面,在第一方面的又一种可能的实现方式中,当所述历史心跳数据包括:所述第一设备在第一时间段内统计的所述第二设备反馈应答响应的累计超时次数a
12
;所述第二设备在第一时间段内统计的所述第一设备反馈应答响应的累计超时次数a
21
;所述第三设备在第一时间段内统计的所述第二设备反馈应答响应的累计超本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种设备检测方法,其特征在于,所述方法包括:当第一设备检测到第二设备反馈的应答响应超时时,获取所述第一设备在第一时间段内同步的历史心跳数据,所述历史心跳数据包括所述第一设备、所述第二设备和第三设备中每个设备检测的其他两个设备对心跳数据包的应答响应情况;根据所述历史心跳数据中每个设备检测的所述应答响应情况,确定所述第二设备应答响应超时的原因,所述原因包括:所述第二设备发生故障,或者所述第二设备与所述第一设备之间的传输链路发生故障。2.根据权利要求1所述的方法,其特征在于,根据所述历史心跳数据中每个设备检测所述应答响应情况,确定所述第二设备应答响应超时的原因,包括:根据所述每个设备检测的所述应答响应情况分别确定所述第一设备、所述第二设备和所述第三设备在所述第一时间段内的应答响应超时总数N1,N2和N3;当满足第一条件时,确定所述原因是所述第二设备发生故障,所述第一条件为:所述第二设备对应的所述应答响应超时总数N2最大,且所述第三设备对应的所述应答响应超时总数N3大于0。3.根据权利要求2所述的方法,其特征在于,还包括:当满足第二条件时,确定所述原因是所述第二设备与所述第一设备之间的传输链路发生故障,所述第二条件为:所述第一设备对应的所述应答响应超时总数N1大于0,所述第二设备对应的所述应答响应超时总数N2大于0,且所述第三设备对应的所述应答响应超时总数N3等于0。4.根据权利要求2或3所述的方法,其特征在于,所述历史心跳数据包括:所述第一设备在第一时间段内统计的所述第二设备反馈应答响应的累计超时次数a
12
,所述第一设备在第一时间段内统计的所述第三设备反馈应答响应的累计超时次数a
13
,所述第二设备在第一时间段内统计的所述第一设备反馈应答响应的累计超时次数a
21
,所述第二设备在第一时间段内统计的所述第三设备反馈应答响应的累计超时次数a
23
;所述第三设备在第一时间段内统计的所述第二设备反馈应答响应的累计超时次数a
32
,所述第三设备在第一时间段内统计的所述第一设备反馈应答响应的累计超时次数a
31
;所述第一条件为:N2>N1,N2>N3,且N3>0;其中,N1=a
12
+a
13
+a
21
+a
31
,N2=a
12
+a
21
+a
23
+a
32
,N3=a
13
+a
23
+a
31
+a
32
。5.根据权利要求4所述的方法,其特征在于,还包括:所述第二条件为N1=N2>0,N3=0。6.根据权利要求2或3所述的方法,其特征在于,当所述历史心跳数据包括:所述第一设备在第一时间段内统计的所述第二设备反馈应答响应的累计超时次数a
12
;所述第二设备在第一时间段内统计的所述第一设备反馈应答响应的累计超时次数a
21
;所述第三设备在第一时间段内统计的所述第二设备反馈应答响应的累计超时次数a
32
;所述第一条件为:a
12
>0,a
21
>0,且a
32
>0;所述第二条件为:a
12
>0,a
21
>0,且a
32
=0。7.根据权利要求2或3所述的方法,其特征在于,当所述历史心跳数据包括:所述第一设备在第一时间段内统计的所述第二设备反馈应答响应的累计超时次数a
12
;所述第二设备在第一时间段内统计的所述第一设备反馈应答响应的累计超时次数a
21

所述第三设备在第一时间段内统计的所述第二设备反馈应答响应的累计超时次数a
32
,所述第三设备在第一时间段内统计的所述第一设备反馈应答响应的累计超时次数a
31
;所述第一条件为:a
12
>0,a
21
>0,且a
32
+a
23
>0;所述第二条件为:a
12
>0,a
21
>0,且a
32
+a
23
=0。8.根据权利要求1-7任一项所述的方法,其特征在于,获取所述第一设备在第一时间段内同步的所述第三设备上报的历史心跳数据之前,还包括:在两个或两个以上设备中选择所述第三设备,所述第三设备为在所述第一设备向两个或两个以上设备中的每个设备发送获取历史心跳数据的请求的情况下,接收到的第一个历史心跳数据所来自的设备。9.根据权利要求1-8任一项所述的方法,其特征在于,所述第一设备检测到第二设备反馈的应答响应超时之前,还包括:周期性地向网络中的所述第二设备和所述第三设备发送心跳数据包;分别接收来自所述第二设备和所述第三设备根据所述心跳数据包反馈的应答响应;统计所述第一时间段内所述第二设备反馈应答响应的累计超时次数,和,所述第三设备反馈应答响应的累计超时次数。10.一种设备检测装置,其特征在于,所述装置包括:数据同步模块,当第一设备检测到第二设备反馈的应答响应超时时,获取所述第一设备在第一时间段内同步的历史心跳数据,所述历史心跳数据包括所述第一设备、所述第二设...

【专利技术属性】
技术研发人员:帅煜韬
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1