故障检测及恢复方法和系统技术方案

技术编号:10266254 阅读:153 留言:0更新日期:2014-07-30 14:23
本发明专利技术涉及模块化通信网络设备。本发明专利技术公开了一种故障检测及恢复方法和系统。本发明专利技术的故障检测及恢复方法,包括如下步骤:a、在第一寄存器中写入第一标识,在第二寄存器中写入第二标识;1b、检测所述第一寄存器中的第一标识;1c、判断第一标识是否发生变化,是则表示子卡故障,进入步骤1d;否则等待设定的时间后返回1b;1d、对子卡执行卸载和重新加载动作;2b、检测所述第二寄存器中的第二标识;2c、判断第二标识是否发生变化,是则表示子卡故障,进入步骤2d;否则等待设定的时间后返回步骤2b;步骤1b~1d和步骤2b~2d并行执行或先后执行。本发明专利技术同时公开了故障检测及恢复系统。本发明专利技术减少了故障影响的业务中断时间,同时节约了人力投入成本。

【技术实现步骤摘要】
故障检测及恢复方法和系统
本专利技术涉及网络通信领域,特别涉及模块化通信网络设备子卡故障自动检测及恢复的方法。
技术介绍
本专利技术所述的网络设备包括交换机和路由设备等。模块化子卡的出现提升了通信业务的可重载性,例如同一台交换机可以使用不同功能的模块化子卡实现不同的业务,而无需使用不同类型的交换机来实现业务的更换。但由于子卡的特性,子卡的维护也成为了子卡使用中的一大问题。为了实现网络设备交换端口的模块化,有时候网络设备上的交换芯片和物理层芯片部署到不同的印刷电路板(PCB)板上,一般部署有交换芯片和CPU(中央处理器)的板卡称之为母卡,只部署物理层芯片的板卡称为子卡。通常子卡上的物理层芯片的供电由母卡提供,同时母卡上的交换芯片通过MDIO(ManagementDataInterface,管理数据接口)通道管理物理层芯片的寄存器,母卡上的CPU通过管理子卡上的CPLD(复杂可编程逻辑器件)来管理子卡的相关供电、温度等物理状态。由于子卡的特性,在实际使用过程中会发生两类故障造成业务中断,一类是当供电发生电压暂降的时候,母卡未掉电重启,子卡发生了掉电重启。此时的问题在于系统未感知到子卡的掉电,而子卡上的物理层芯片由于掉电和重新上电而进入了初始状态,这时子卡的实际芯片内容和系统中保存的管理内容不一致。第二类故障是当发生了较为严重的电击之后,物理层芯片会出现端口连接链路连接失败而无法通过再次使能链路连接正常的情况。这个问题的原因是物理层芯片的PMD(PhysicalMediumDependent,物理介质关联层接口),由于电击无法正常识别对端设备发送的物理信号,导致端口链路连接失败的情况。由于子卡本身承载了一部分业务,当出现故障的时候会长时间影响客户的相关业务内容,同时修复该故障又需要相关的人力投入。为了保证用户的数据端口的稳定性,同时减少人工恢复的消耗,需要有效的手段来快速的定位及解决子卡故障。
技术实现思路
本专利技术的目的就是提供一种故障检测及恢复方法,自动检测子卡故障并进行修复,保证业务数据的稳定传输。本专利技术的技术方案是,故障检测及恢复方法,包括如下步骤:a、在第一寄存器中写入第一标识,在第二寄存器中写入第二标识;1b、检测所述第一寄存器中的第一标识;1c、判断第一标识是否发生变化,是则表示子卡故障,进入步骤1d;否则等待设定的时间后返回1b;1d、对子卡执行卸载和重新加载动作;2b、检测所述第二寄存器中的第二标识;2c、判断第二标识是否发生变化,是则表示子卡故障,进入步骤2d;否则等待设定的时间后返回步骤2b;2d、对子卡执行物理介质关联层接口的重启动作;步骤1b~1d和步骤2b~2d并行执行或先后执行。进一步的,步骤1d中对子卡执行卸载和重新加载动作3次。更进一步的,完成步骤1d后,执行步骤:1e、检测故障是否恢复,是则等待设定的时间后返回1b;否则记录故障日志。相应的,步骤2d中对子卡执行物理介质关联层接口的重启动作3次。进一步的,完成步骤2d后,执行步骤:2e、检测故障是否恢复,是则等待设定的时间后返回2b;否则记录故障日志。具体的,所述第一寄存器为CPLD寄存器。具体的,所述第二寄存器为物理层芯片寄存器。本专利技术的另一个目的是,提供一种故障检测及恢复系统,包括初始化模块、寄存器检测模块、自动修复模块;所述初始化模块,用于初始化系统,在第一寄存器中写入第一标识,在第二寄存器中写入第二标识;所述寄存器检测模块,用于检测第一寄存器的第一标识和第二寄存器的第二标识,并判断所述标识是否发生变化,是则表示子卡故障,否则间隔一定时间后继续检测;所述自动修复模块,用于对子卡进行故障恢复,对子卡执行卸载和重新加载动作或对子卡执行PMD的重启动作。进一步的,所述自动修复模块3次恢复不成功则记录故障日志。具体的,所述第一寄存器为CPLD寄存器,所述第二寄存器为物理层芯片寄存器。本专利技术的有益效果是,解决了现有网络设备模块化子卡,在恶劣环境下出故障维护难,影响用户业务时间长的问题,用户无需人工恢复子卡的故障,故障检测和恢复自动完成,减少了故障影响的业务中断时间,同时节约了人力投入成本。附图说明图1是本专利技术的流程示意图;图2是本专利技术系统结构示意图。具体实施方式下面结合附图及具体实施方式,详细描述本专利技术的技术方案。本专利技术的子卡故障包括两种故障类型:掉电故障和端口链路连接故障。相应的故障恢复也是针对上述两种故障的恢复。通常情况下在子卡插入系统的时候,系统管理模块会在子卡上的CPLD寄存器内写入第一标识值,在上电情况下此寄存器内的该值是不会变化的,当此寄存器的值变化(如芯片默认值)的时候,就说明发生了子卡掉电,此时就需要执行子卡软件层面的卸载和加载过程,才能保证系统管理层的相关管理信息重新加载在子卡上,这样才能把管理信息所包含的内容写到子卡上物理层芯片的相关管理寄存器内,使其生效。对于端口链路故障,当子卡上的交换端口正常工作状态下发生了链路连接失败,通过读取物理层芯片状态寄存器的值,判断其是否接收到对端的信号,是否为人为的关闭端口链路动作,如果都不是则说明出现了故障,此时对子卡上的PMD执行一次重启动作,使得PMD恢复正常,从而使得整个数据端口恢复正常。如图1所示,本专利技术的子卡故障检测及恢复方法具体步骤如下:步骤a、在第一寄存器中写入第一标识,在第二寄存器中写入第二标识。根据不同的子卡类型,第一寄存器和第二寄存器各有不同,其中写入的第一标识和第二标识分别用于掉电检测和端口连接链路连接失败检测。这里的第一寄存器为CPLD寄存器,其中存储的标识为第一标识。第二寄存器为物理层芯片寄存器,其对应的标识为第二标识。该步骤是系统的初始化过程,子卡插入系统的时候,对应的子卡初始化动作包括三个部分,第一判断插入的子卡是否为需要执行故障检测的子卡类型,再把对应的子卡信息加入到系统管理结构中。第二是初始化检测标识,把子卡的CPLD寄存器写入第一标识,如某个特殊值用于掉电故障检测。在物理层芯片寄存器写入第二标识用于连接失败故障检测。子卡掉电故障检测和恢复步骤:步骤1b、检测所述第一寄存器中的第一标识;步骤1c、判断第一标识是否发生变化,是则表示子卡故障,进入步骤1d;否则等待设定的时间后返回1b;步骤1d、对子卡执行卸载和重新加载动作。这一过程中,系统会轮询读取子卡CPLD寄存器中的值,当发现该值发生变化,变为初始值时说明发生了掉电,此时调用修复模块来执行子卡的卸载和再次加载动作。执行完成之后,会再次读取CPLD寄存器的内容,判断整个修复过程是否成功,当发现修复成功后进行下下一个轮询,如果失败的话,会重复卸载和再次加载动作3次,如果还是不能恢复,为了系统的可靠性需要记录日志进行分析。设定的等待时间间隔可以由用户设定。子卡端口连接链路连接失败故障检测和步骤:步骤2b、检测所述第二寄存器中的第二标识;步骤2c、判断第二标识是否发生变化,是则表示子卡故障,进入步骤2d;否则等待一段时间t2后返回步骤2b;步骤2d、对子卡执行PMD层的重启动作。该过程中,系统会去轮询子卡上物理层芯片内各个端口的物理层芯片寄存器状态,首先获取端口的端口状态,查看端口是链路连接正常还是链路连接失败的,当端口为链路连接失败时,获取是否收到对端发送过来的信号,当发现收到对端发过来的信本文档来自技高网
...
故障检测及恢复方法和系统

【技术保护点】
故障检测及恢复方法,包括如下步骤:a、在第一寄存器中写入第一标识,在第二寄存器中写入第二标识;1b、检测所述第一寄存器中的第一标识;1c、判断第一标识是否发生变化,是则表示子卡故障,进入步骤1d;否则等待设定的时间后返回1b;1d、对子卡执行卸载和重新加载动作;2b、检测所述第二寄存器中的第二标识;2c、判断第二标识是否发生变化,是则表示子卡故障,进入步骤2d;否则等待设定的时间后返回步骤2b;2d、对子卡执行物理介质关联层接口的重启动作;步骤1b~1d和步骤2b~2d并行执行或先后执行。

【技术特征摘要】
1.故障检测及恢复方法,包括如下步骤:a、在子卡的第一寄存器中写入第一标识,在子卡的第二寄存器中写入第二标识;1b、检测所述第一寄存器中的第一标识;1c、判断第一标识是否发生变化,是则表示子卡故障,进入步骤1d;否则等待设定的时间后返回1b;1d、对子卡执行卸载和重新加载动作;2b、检测所述第二寄存器中的第二标识;2c、判断第二标识是否发生变化,是则表示子卡故障,进入步骤2d;否则等待设定的时间后返回步骤2b;2d、对子卡执行物理介质关联层接口的重启动作;步骤1b~1d和步骤2b~2d并行执行或先后执行。2.根据权利要求1所述的故障检测及恢复方法,其特征在于,执行完步骤1d之后,再次读取所述第一寄存器的内容,如果判断整个修复过程失败,则对子卡执行卸载和重新加载动作3次。3.根据权利要求2所述的故障检测及恢复方法,其特征在于,在对子卡执行卸载和重新加载动作3次后,执行步骤:1e、检测故障是否恢复,是则等待设定的时间后返回1b;否则记录故障日志。4.根据权利要求1所述的故障检测及恢复方法,其特征在于,执行完步骤2d之后,再获取端口状态,如果端口状态未恢复正常,则对子卡执行物理介质关联层接口的重启动作...

【专利技术属性】
技术研发人员:杨庆辰秦佳
申请(专利权)人:迈普通信技术股份有限公司
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1