一种基于故障域检测的网络健康监测方法、装置及介质制造方法及图纸

技术编号:35369375 阅读:19 留言:0更新日期:2022-10-29 18:11
本申请涉及网络监测技术领域,公开了一种基于故障域检测的网络健康监测方法、装置及介质,包括:获取分布式集群系统中各节点的网口标记状态和节点隔离状态,并在确定产生新的节点隔离状态为隔离,且节点中所有网口标记状态为故障的目标节点时,若加上目标节点后分布式集群系统当前的隔离节点总数超过故障域,将目标节点中一个网口的网口标记状态标记为正常,并上报故障预警。由此,在产生新的节点隔离状态为隔离,且节点中所有网口标记状态为故障的目标节点时,预先判断加上该目标节点后隔离节点总数是否超过故障域,若是,将其中一个网口的状态标记为正常,进而在即将超过故障域前进行预判,以便及时排除故障,提高分布式集群系统的可靠性。统的可靠性。统的可靠性。

【技术实现步骤摘要】
一种基于故障域检测的网络健康监测方法、装置及介质


[0001]本申请涉及网络监测
,特别是涉及一种基于故障域检测的网络健康监测方法、装置及介质。

技术介绍

[0002]分布式集群系统是实现系统扩展性和高可靠性的重要技术手段,分布式集群系统包括多个节点(例如,计算机节点),节点网络是否正常对于分布式集群网络来说至关重要。
[0003]在对分布式集群系统的网络环境进行健康的诊断时,若网络出现亚健康,则发出亚健康告警提示,以便工作人员及时进行网络维护。通常会对出现问题的网口进行切换或关闭。然而,若bond绑定的2个网口同时出现故障,例如,节点Cluser网络的2个网口出现亚健康,则会对该节点进行隔离处理,隔离处理后的节点无法正常使用,即该节点无法正常进行业务。若隔离节点超过分布式集群系统的故障域时,会导致用户无法正常登陆,任务下发和执行任务。
[0004]由此可见,如何避免隔离节点数量超过故障域导致分布式集群系统无法正常业务,提高分布式集群系统的可靠性,是本领域技术人员亟待解决的问题。

技术实现思路

[0005]本申请的目的是提供一种基于故障域检测的网络健康监测方法、装置及介质,避免分布式集群系统隔离节点数量超过故障域导致系统无法正常业务,提升分布式集群系统的可靠性。
[0006]为解决上述技术问题,本申请提供一种基于故障域检测的网络健康监测方法,包括:
[0007]获取分布式集群系统中各节点的网口标记状态和节点隔离状态;
[0008]在确定产生新的所述节点隔离状态为隔离,且节点中所有所述网口标记状态为故障的目标节点时,判断加上所述目标节点后所述分布式集群系统当前的隔离节点总数是否超过故障域;
[0009]若超过所述故障域,将所述目标节点中一个网口的所述网口标记状态标记为正常,并上报故障预警。
[0010]优选地,在所述获取分布式集群系统中各节点的网口标记状态和节点隔离状态之后还包括:
[0011]在确定产生所述节点隔离状态为未隔离,且对应网口中存在任意一个网口的所述网口标记状态为故障的第一节点时,将所述第一节点中的故障网口关闭;
[0012]在确定产生所述节点隔离状态为隔离,且对应网口中不存在网口的所述网口标记状态为故障的第二节点时,将所述第二节点的节点隔离状态修改为未隔离。
[0013]优选地,所述将所述目标节点中一个网口的所述网口标记状态标记为正常包括:
[0014]按照网络传输顺序将所述目标节点中最后一个网口的所述网口标记状态标记为
正常。
[0015]优选地,所述网口标记状态根据以下步骤得到,包括:
[0016]获取各网口的时延和丢包率;
[0017]判断所述时延是否大于时延阈值,且所述丢包率是否均大于丢包率阈值;
[0018]若是,将对应网口的所述网口标记状态标记为故障,否则,将对应网口的所述网口标记状态标记为正常。
[0019]优选地,若加上所述目标节点后所述分布式集群系统当前的隔离节点总数未超过所述故障域,还包括:
[0020]记录所述目标节点的网口标记状态和节点隔离状态。
[0021]优选地,所述获取分布式集群系统中各节点的网口标记状态和节点隔离状态包括:
[0022]每隔预设时长后,获取所述分布式集群系统中各节点的网口标记状态和节点隔离状态。
[0023]优选地,所述的基于故障域检测的网络健康监测方法,还包括:
[0024]在确定所述分布式集群系统中各节点的网口标记状态或节点隔离状态发生改变时,上报对应的告警信号。
[0025]为了解决上述技术问题,本申请还提供了一种基于故障域检测的网络健康监测装置,包括:
[0026]第一获取模块,用于获取分布式集群系统中各节点的网口标记状态和节点隔离状态;
[0027]第一判断模块,用于在确定产生新的所述节点隔离状态为隔离,且节点中所有所述网口标记状态为故障的目标节点时,判断加上所述目标节点后所述分布式集群系统当前的隔离节点总数是否超过故障域,若超过所述故障域,调用第一标记模块和第一上报模块;
[0028]所述第一标记模块,用于将所述目标节点中一个网口的所述网口标记状态标记为正常;
[0029]所述第一上报模块,用于上报故障预警。
[0030]所述基于故障域检测的网络健康监测装置,还包括:
[0031]关闭模块,用于在确定产生所述节点隔离状态为未隔离,且对应网口中存在任意一个网口的所述网口标记状态为故障的第一节点时,将所述第一节点中的故障网口关闭;
[0032]修改模块,用于在确定产生所述节点隔离状态为隔离,且对应网口中不存在网口的所述网口标记状态为故障的第二节点时,将所述第二节点的节点隔离状态修改为未隔离。
[0033]第二标记模块,用于按照网络传输顺序将所述目标节点中最后一个网口的所述网口标记状态标记为正常。
[0034]读取模块,用于读取获取各网口的时延和丢包率;
[0035]处理模块,用于判断所述时延是否大于时延阈值,且所述丢包率是否均大于丢包率阈值;
[0036]若是,将对应网口的所述网口标记状态标记为故障,否则,将对应网口的所述网口标记状态标记为正常。
[0037]记录模块,用于记录所述目标节点的网口标记状态和节点隔离状态。
[0038]第二获取模块,用于每隔预设时长后,获取所述分布式集群系统中各节点的网口标记状态和节点隔离状态。
[0039]第二上报模块,用于在确定所述分布式集群系统中各节点的网口标记状态或节点隔离状态发生改变时,上报对应的告警信号。
[0040]为了解决上述技术问题,本申请还提供了一种基于故障域检测的网络健康监测装置,包括存储器,用于存储计算机程序;
[0041]处理器,用于执行所述计算机程序时实现所述的基于故障域检测的网络健康监测方法的步骤。
[0042]为了解决上述技术问题,本申请还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现所述的基于故障域检测的网络健康监测方法的步骤。
[0043]本专利技术所提供的一种基于故障域检测的网络健康监测方法,包括:获取分布式集群系统中各节点的网口标记状态和节点隔离状态,并在确定产生新的节点隔离状态为隔离,且节点中所有网口标记状态为故障的目标节点时,判断加上目标节点后分布式集群系统当前的隔离节点总数是否超过故障域,若超过故障域,将目标节点中一个网口的网口标记状态标记为正常,并上报故障预警。由此可见,本申请所提供的技术方案,在产生新的节点隔离状态为隔离,且节点中所有网口标记状态为故障的目标节点时,预先判断加上该目标节点后分布式集群系统当前的隔离节点总数是否超过故障域,若超过故障域,将目标节点中一个网口的网口标记状态标记为正常,进而在分布式集群系统即将超过故障域前进行了预判,以便提醒工作人员及时进行故障排除,保证分布式集群系统正常业务,提本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于故障域检测的网络健康监测方法,其特征在于,包括:获取分布式集群系统中各节点的网口标记状态和节点隔离状态;在确定产生新的所述节点隔离状态为隔离,且节点中所有所述网口标记状态为故障的目标节点时,判断加上所述目标节点后所述分布式集群系统当前的隔离节点总数是否超过故障域;若超过所述故障域,将所述目标节点中一个网口的所述网口标记状态标记为正常,并上报故障预警。2.根据权利要求1所述的基于故障域检测的网络健康监测方法,其特征在于,在所述获取分布式集群系统中各节点的网口标记状态和节点隔离状态之后还包括:在确定产生所述节点隔离状态为未隔离,且对应网口中存在任意一个网口的所述网口标记状态为故障的第一节点时,将所述第一节点中的故障网口关闭;在确定产生所述节点隔离状态为隔离,且对应网口中不存在网口的所述网口标记状态为故障的第二节点时,将所述第二节点的节点隔离状态修改为未隔离。3.根据权利要求1所述的基于故障域检测的网络健康监测方法,其特征在于,所述将所述目标节点中一个网口的所述网口标记状态标记为正常包括:按照网络传输顺序将所述目标节点中最后一个网口的所述网口标记状态标记为正常。4.根据权利要求1所述的基于故障域检测的网络健康监测方法,其特征在于,所述网口标记状态根据以下步骤得到,包括:读取各网口的时延和丢包率;判断所述时延是否大于时延阈值,且所述丢包率是否均大于丢包率阈值;若是,将对应网口的所述网口标记状态标记为故障,否则,将对应网口的所述网口标记状态标记为正常。5.根据权利要求1所述的基于故障域检测的网络健康监测方法,其特征在于,若加上所述目标节点...

【专利技术属性】
技术研发人员:张鹏高矗
申请(专利权)人:济南浪潮数据技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1