一种故障检测方法及装置制造方法及图纸

技术编号:13792445 阅读:82 留言:0更新日期:2016-10-06 03:48
本发明专利技术提供一种故障检测方法及装置,该方法用于第一设备,包括接收第二设备周期性发送的信息同步报文;在设定时刻到达时,判断所述设定时刻与最近一次接收到所述信息同步报文的时刻之差是否大于设定的超时门限时长;当大于所述超时门限时长时,确定所述第二设备发生故障。本发明专利技术实施例中,利用设备间原有的信息同步报文进行故障检测,不需要额外设计新的报文,从而避免了因单独设计保活报文而引入的系统及网络开销。

【技术实现步骤摘要】

本专利技术涉及通信领域,尤其涉及一种故障检测方法及装置
技术介绍
设备之间很多时候需要信息的共享才能保证特定业务的正常运行。具体地,需要在设备之间传输信息同步报文。一旦其中的某个设备发生故障,则无法继续向其它设备传输信息同步报文,导致设备之间无法进行正常的信息共享,从而影响特定业务的正常运行。目前设备之间的故障检测机制,通常单独设计保活报文(也称为心跳报文),基于对保活报文的处理来进行设备的故障检测。但是,这引入了较大的系统及网络开销。
技术实现思路
有鉴于此,本专利技术提供一种故障检测方法及装置,以减少系统及网络开销。具体地,本专利技术是通过如下技术方案实现的:根据本专利技术实施例的第一方面,提供一种故障检测方法,用于第一设备,包括:接收第二设备周期性发送的信息同步报文;在设定时刻到达时,判断所述设定时刻与最近一次接收到所述信息同步报文的时刻之差是否大于设定的超时门限时长;当大于所述超时门限时长时,确定所述第二设备发生故障。根据本专利技术实施例的第二方面,提供另一种故障检测装置,用于第一设备,包括:接收单元,用于接收第二设备周期性发送的信息同步报文;判断单元,用于在设定时刻到达时,判断所述设定时刻与最近一次接收到所述信息同步报文的时刻之差是否大于设定的超时门限时长;确定单元,用于当大于所述超时门限时长时,确定所述第二设备发生故障。本专利技术实施例中,利用设备间原有的信息同步报文进行故障检测,不需要额外设计新的报文,从而避免了因单独设计保活报文而引入的系统及网络开销。附图说明图1是本专利技术一种应用场景的示意图;图2是本专利技术故障检测方法的一个实施例流程图;图3是本专利技术故障检测方法的另一个实施例流程图;图4是本专利技术故障检测装置所在设备的一种硬件结构图;图5是本专利技术故障检测装置的一个实施例框图。具体实施方式这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本专利技术相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本专利技术的一些方面相一致的装置和方法的例子。在本专利技术使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本专利技术。在本专利技术和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应
当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。应当理解,尽管在本专利技术可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本专利技术范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。参照图1所示的应用场景,第一设备和第二设备之间可以以有线或无线的方式进行通信。第一设备和第二设备之间可以通过各种类型的网络进行通信。第一设备和第二设备需要定时同步它们之间的信息,以便业务处理具有实时性。以第二设备将自身信息同步给第一设备为例,第二设备可以通过信息同步报文,将自身信息同步给第一设备。以第一设备和第二设备均为全局负载均衡设备、二者之间通过骨干网络进行通信为例,第一设备可以为进行全局负载均衡的主设备,需要收集包括第二设备在内的多台邻居设备及自身对域名的解析记录、关联的服务器信息、关联的链路信息,并将所有数据汇总,在有DNS请求时根据汇总的数据对各负载均衡设备提供的解析策略进行算法筛选,选出最优的解析记录的地址回复给请求域名的客户。由此,作为邻居设备,第二设备可以将自身信息实时同步给第一设备。图2是本专利技术故障检测方法的一个实施例流程图,参照图2,本实施例中的方法用于第一设备,包括如下步骤:步骤S201,接收第二设备周期性发送的信息同步报文。本实施例中,第二设备可以以设定周期向第一设备发送信息同步报文,也就是每隔该设备周期向第一设备发送一次信息同步报文,以便将自身信息同步给第一设备。可以结合信息同步数据量和实时性需求来设计该设定周期的大小。以第一设备和第二设备均为全局设备为例,因为全局设备间信息同
步的数据量较大,间隔选取太短将会耗费大量设备性能来处理状态报文,而时间太长信息实时性较差不能及时根据不同负载均衡设备间的真实状态对业务流量进行调度,则综合这些方面,该设定周期可以设定为3秒。第一设备接收到报文时,可以根据接收到的报文更新自身维护的第一设备信息。第一设备可以维护接收时刻参数值,在首次接收到第二设备发来的信息同步报文时,将该参数值设置为该报文的接收时刻,以后每次接收到第二设备发来的信息同步报文,就将该参数值更新为该次接收信息同步报文的时刻。第一设备可以在某次接收到第二设备发来的信息同步报文时或者在此之前(如与第二设备之间用于传输信息同步报文的通道建立完成时)启动一个定时器,该定时器开始计时,并在计时时长达到设定时长时超时。步骤S202,在设定时刻到达时,判断所述设定时刻与最近一次接收到所述信息同步报文的时刻之差是否大于设定的超时门限时长。本步骤中,当定时器超时时,意味着设定时刻到达,此时第一设备可以提取该参数值,并判断当前时刻与提取出的时刻之差是否大于设定的超时门限时长。该超时门限时长可以设定为大于该设定周期的某个值,例如该设定周期的N倍(N大于1)。如果当前时刻与提取出的时刻之差大于该超时门限时长,则表明已经有连续的N个保活报文没有接收到,即可认定第二设备出现故障;否则,重新启动该定时器,也就是将设定时刻推迟该设定时长,以便在推迟后的设定时刻到达时(也就是重启后的该定时器超时时)进行下一次的判断。该超时门限时长的设定不能太短,设定得太短可能导致误将网络或无线链路中的延迟或丢包误认为设备出现故障;也不能设定得太长,设定得太长将导致第二设备故障发现得较慢。仍以第一设备和第二设备均为全局设备为例,在该设定周期设定为3秒的情况下,可以将N设定为5(也就是该设定时长为15秒),即允许有5个报文的容错缓冲。该设定时长可以小于该设定周期,以便在两两相邻报文到达时刻之间都能做一次判断,保证故障检测的实时性,且设定时长设定得越小,故障检测的实时性越强。例如,与上述该设定周期设定为3秒、N设定为5相应,该设定时长可以设定为1秒。步骤S203,当大于所述超时门限时长时,确定所述第二设备发生故障。本步骤中,如果当前时刻与提取出的时刻之差大于该超时门限时长,则则可以确定第二设备发生故障,具体可以表现为:第一设备清除已经缓存的第二设备信息,或者,第一设备进行针对第二设备的故障处理(如告警)。本实施例中,由于利用设备间原有的信息同步报文进行故障检测,不需要额外设计新的报文,从而避免了因单独设计保活报文而引入的系统及网络开销。图3是本专利技术故障检测方法的另一个实施例流程图,参照图2,本实施例中的方法是从第一设备对第二设备进行故障检测的角度来描述的,包括如下步骤:步骤S301,第一设备与第二设备之间建立TCP连接。本实施例中,第一设备和第二设备均为全局负载均衡设备。第二设备为第一设备的邻居设备。第一设备与第二设备之间建本文档来自技高网
...

【技术保护点】
一种故障检测方法,用于第一设备,其特征在于,包括:接收第二设备周期性发送的信息同步报文;在设定时刻到达时,判断所述设定时刻与最近一次接收到所述信息同步报文的时刻之差是否大于设定的超时门限时长;当大于所述超时门限时长时,确定所述第二设备发生故障。

【技术特征摘要】
1.一种故障检测方法,用于第一设备,其特征在于,包括:接收第二设备周期性发送的信息同步报文;在设定时刻到达时,判断所述设定时刻与最近一次接收到所述信息同步报文的时刻之差是否大于设定的超时门限时长;当大于所述超时门限时长时,确定所述第二设备发生故障。2.根据权利要求1所述的方法,其特征在于,还包括:当不大于所述超时门限时长时,将所述设定时刻推迟设定时长。3.根据权利要求2所述的方法,其特征在于,所述设定时长小于所述第二设备发送所述信息同步报文的周期。4.根据权利要求1、2或3所述的方法,其特征在于,所述超时门限时长为所述第二设备发送所述信息同步报文的周期的设定数目倍,所述设定数目为大于1的自然数。5.根据权利要求1、2或3所述的方法,其特征在于,所述判断所述设定时刻与最近一次接收到所述信息同步报文的时刻之差是否大于设定的超时门限时长包括:每次接收到所述第二设备发送的所述信息同步报文时,将所述最近一次接收到所述信息同步报文的时刻设置为该次...

【专利技术属性】
技术研发人员:屈国军
申请(专利权)人:杭州迪普科技有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1