System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及分布式文件存储,特别是涉及一种异常网卡处理方法、装置、计算机设备。
技术介绍
1、网卡异常,也称之为网络亚健康,是指网卡硬件可以正常运行但是性能严重下降的一种状态。一般的分布式系统都能很好的应对网络故障问题,因为其基本就是要保证系统高可用,有冗余。但很少能高效的解决网卡异常问题,当网络硬件进入亚健康状态后,即进入网卡异常后,若存储系统未采取有效监控和容错措施,则会导致存储系统响应主机的时延增大、iops/bps降低,甚至会因无法响应主机导致主机业务中断。
2、导致网卡异常的原因有很多,包括网卡自身问题以及外部问题,自身问题例如物理网卡存在问题,或者网卡驱动存在问题等等,外部问题例如高温会导致物理硬件受损、传输的光纤线受到挤压、内核网络参数配置不当等。
3、由于网卡异常的原因复杂,因此,相关技术中,发现网络异常时,一般是先生成此网络异常的提示信息推送至技术人员,然后由技术人员排查导致网络异常的原因,这使得网卡异常处理不及时,造成较久的网卡异常。
技术实现思路
1、基于此,有必要针对上述技术问题,提供一种能够提升网卡异常处理时效的异常网卡处理方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
2、第一方面,本申请提供了一种异常网卡处理方法。所述方法应用于分布式系统的集群服务端节点,所述分布式系统还包括多个分布式节点,所述方法包括:
3、在接收到分布式节点上报的待确认异常网卡的网络地址后,根据所述待确认异常网卡的网络地址
4、在所述待确认异常网卡与各所述其他网卡之间收发时延检测报文的平均时延到达预设阈值的情况下,确定所述待确认异常网卡为异常网卡;
5、查询所述异常网卡是否存在可替代网卡;
6、在查询到所述异常网卡存在可替代网卡的情况下,重启所述异常网卡。
7、分布式节点不再周期性检测自身网卡异常问题,而是通过记录与其他分布式节点收发普通报文时的时延,确定对方分布式节点的网卡是否存在网卡异常,然后集群服务端节点再次确认异常网卡,减少分布式节点对于异常网卡监测的日常消耗。在检测到异常网卡后,通过重启该异常网卡,及时处理异常网卡带来的网络异常,即使重启该异常网卡未能解决网络问题,由于有可替代网卡正常工作,因此重启该异常网卡也不会造成业务中断等不良影响。
8、在其中一个实施例中,所述查询所述异常网卡是否存在可替代网卡,包括:
9、遍历所述异常网卡所在分布式节点的网卡列表,查询所述异常网卡是否存在备用网卡,以及查询是否存在与所述异常网卡处于同一组的其他网卡;
10、在查询到所述异常网卡存在备用网卡或查询到存在与所述异常网卡处于同一组的其他网卡的情况下,确定所述异常网卡存在可替代网卡。
11、通过查询异常网卡是否存在备用网卡或是否存在与异常网卡属于同一组的网卡,确定异常网卡关闭后,是否有其他网卡收发原本异常网卡收发的报文。
12、在其中一个实施例中,所述在查询到所述异常网卡存在备用网卡或查询到存在与所述异常网卡处于同一组的其他网卡的情况下,确定所述异常网卡存在可替代网卡,包括:
13、查询各个网卡对应的故障信息及告警信息;
14、在查询到所述异常网卡存在备用网卡并且所述备用网卡不存在故障信息及告警信息,或查询到存在与所述异常网卡处于同一组的其他网卡且与所述异常网卡处于同一组的其他网卡不存在故障信息及告警信息的情况下,确定所述异常网卡存在可替代网卡。
15、若其他网卡存在故障或异常,异常网卡关闭后,会加重网络延时,即,关闭异常网卡会造成更严重的网络问题,因此,只有其他网卡不存在故障信息或告警信息时,可以确定异常网卡关闭后,可替代网卡可正常替异常网卡收发报文。
16、在其中一个实施例中,所述分布式系统为分布式存储系统,所述方法还包括:
17、在未查询到所述异常网卡的可替代网卡的情况下,或查询所述异常网卡存在告警信息的情况下,查询所述分布式系统当前是否存在由所述异常网卡对应的分布式节点引起的服务降级及数据降级;
18、在查询到不存在由所述异常网卡对应的存储节点引起的服务降级查询及数据降级查询的情况下,将所述异常网卡移除所述分布式系统。
19、对于分布式存储系统,在对异常网卡处理前,确定当前是否存在由异常网卡所在分布式节点造成服务降级或数据降级,即,确定移除异常网卡后网络状况是否会更差,若确定当前存在由异常网卡所在分布式节点,说明移除异常网卡后,不会进一步的使分布式系统服务降级或者数据降级,将异常网卡移除分布式系统。
20、在其中一个实施例中,所述在查询到所述异常网卡存在可替代网卡的情况下,重启所述异常网卡,包括:
21、在查询到所述异常网卡存在可替代网卡的情况下,查询所述异常网卡是否存在重启记录;
22、在未查询到所述异常网卡对应的重启记录的情况下,重启所述异常网卡;
23、记录所述异常网卡此次重启记录;
24、在查询到所述异常网卡对应的重启记录的情况下,移除所述异常网卡。
25、通过查询历史重启记录,确定异常网卡之前是否已通过重启尝试解决网络异常,若查询到重启记录,确定曾重启该异常网卡但未解决该异常网卡引起的网络异常。
26、在其中一个实施例中,所述方法还包括:
27、在所述待确认异常网卡与其他各个网卡之间收发检测报文的平均时延到达预设阈值的情况下,生成告警信息并提示用户;
28、在检测到所述用户针对所述告警信息对应的所述异常网卡的异常处理操作后,删除所述告警信息。
29、群服务端节点虽然已处理异常网卡造成的异常,但异常网卡可能并未得到解决,如驱动、配置导致的问题,或物理网卡存在问题等,需要用户介入对异常网卡进行处理,集群服务端节点通过告警信息提示用户需要处理的异常网卡。
30、第二方面,本申请还提供了一种异常网卡处理装置。所述装置包括:
31、接收模块,用于在接收到分布式节点上报的待确认异常网卡的网络地址后,根据所述待确认异常网卡的网络地址,向所述待确认异常网卡发送检测指令,以使所述待确认异常网卡向分布式系统的其他网卡发送时延检测报文;
32、确认模块,用于在所述待确认异常网卡与各所述其他网卡之间收发时延检测报文的平均时延到达预设阈值的情况下,确定所述待确认异常网卡为异常网卡;
33、查询模块,用于查询所述异常网卡是否存在可替代网卡;
34、重启模块,用于在查询到所述异常网卡存在可替代网卡的情况下,重启所述异常网卡。
35、第三方面,本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
36、在本文档来自技高网...
【技术保护点】
1.一种异常网卡处理方法,其特征在于,所述方法应用于分布式系统的集群服务端节点,所述分布式系统还包括多个分布式节点,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述查询所述异常网卡是否存在可替代网卡,包括:
3.根据权利要求2所述的方法,其特征在于,所述在查询到所述异常网卡存在备用网卡或查询到存在与所述异常网卡处于同一组的其他网卡的情况下,确定所述异常网卡存在可替代网卡,包括:
4.根据权利要求1所述的方法,其特征在于,所述分布式系统为分布式存储系统,所述方法还包括:
5.根据权利要求1所述的方法,其特征在于,所述在查询到所述异常网卡存在可替代网卡的情况下,重启所述异常网卡,包括:
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
7.一种异常网卡处理装置,其特征在于,所述装置应用于分布式系统的集群服务端节点,所述分布式系统还包括多个分布式节点,所述装置包括:
8.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
10.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
...【技术特征摘要】
1.一种异常网卡处理方法,其特征在于,所述方法应用于分布式系统的集群服务端节点,所述分布式系统还包括多个分布式节点,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述查询所述异常网卡是否存在可替代网卡,包括:
3.根据权利要求2所述的方法,其特征在于,所述在查询到所述异常网卡存在备用网卡或查询到存在与所述异常网卡处于同一组的其他网卡的情况下,确定所述异常网卡存在可替代网卡,包括:
4.根据权利要求1所述的方法,其特征在于,所述分布式系统为分布式存储系统,所述方法还包括:
5.根据权利要求1所述的方法,其特征在于,所述在查询到所述异常网卡存在可替代网卡的情况下,重启所述异常网卡,包括:
<...【专利技术属性】
技术研发人员:王宁宁,王有富,孙莹,惠润海,刘建锋,
申请(专利权)人:曙光信息产业股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。