【技术实现步骤摘要】
通信设备软件故障检测收集恢复方法和系统
本专利技术涉及通信领域和故障检测
,具体涉及一种通信设备软件故障检测收集恢复方法和系统。
技术介绍
随着通信技术的不断发展,对通信设备(例如:路由器、交换机、综合接入设备)所承担的业务功能越来越复杂。在通信设备运行过程中,每个设备都有MTBF(MeanTimeBetweenFailure,平均故障间隔时间)的指标要求。所述故障可分为硬件故障和软件故障。对于硬件故障,网络管理员可以通过观察设备上的报警灯,很容易判断故障原因,及时采取维修措施排除故障。对于软件故障,由于故障种类繁多,所以网络管理员很难判断出故障原因。传统的通信设备软件故障收集,一般需要外界下指令或者命令,才进行故障信息收集。在用户现场环境下,用户为了快速恢复通信设备正常使用,一般情况对整机直接进行重启,从而导致不能收集到发生故障时的信息。另外,传统的软件故障收集,一般情况下,都是登陆到设备,查看设备各种运行信息、异常信息,容易出现遗漏,导致现场信息收集不完整。这些都给后期技术人员排查故障原因造成了极大的困难。一方面,通信设备软件在运行过程中不可避免发生故障;另一方面,各行各业对于发生故障时的及时修复要求也随之提高。传统的恢复方法,一般是单一应用模块发生故障时,直接重启整机软件。而在分布式系统中,各个应用模块独立存在,独自完成不同的任务,当系统中任何一个模块出现故障时,都会引起整个软件系统重新启动,可能会导致严重的后果。因此,在相关技术中存在实时故障检测水平低、故障信息不能自动收集、故障不能及时恢复的问题。
技术实现思路
本专利技术的目的在于针对现有技术 ...
【技术保护点】
一种通信设备软件故障检测、收集、恢复的方法,其特征在于,包括应用模块故障检测的步骤和单板系统软件故障检测的步骤;所述应用模块故障检测的步骤如下:通信设备单板实时对通信设备系统中的多个应用模块进行检测,检测应用模块是否出现故障;若是,对出现故障的应用模块进行故障信息收集;收集应用模块故障时的信息、运行信息和读取网络处理器的一些关键寄存器状态;打包形成异常信息文件,保存到本地存储模块,并上传至预置的运营商服务器;对出现故障的应用模块进行重启;所述单板系统软件故障检测的步骤如下:通信设备控制平面与单板实时保活;检测单板系统软件是否出现异常;若出现单板软件故障时,则对单板进行硬件复位。
【技术特征摘要】
1.一种通信设备软件故障检测、收集、恢复的方法,其特征在于,包括应用模块故障检测的步骤和单板系统软件故障检测的步骤;所述应用模块故障检测的步骤如下:通信设备单板实时对通信设备系统中的多个应用模块进行检测,检测应用模块是否出现故障;若是,对出现故障的应用模块进行故障信息收集;收集应用模块故障时的信息、运行信息和读取网络处理器的一些关键寄存器状态;打包形成异常信息文件,保存到本地存储模块,并上传至预置的运营商服务器;对出现故障的应用模块进行重启;所述单板系统软件故障检测的步骤如下:通信设备控制平面与单板实时保活;检测单板系统软件是否出现异常;若出现单板软件故障时,则对单板进行硬件复位。2.根据权利1所述的一种通信设备软件故障检测、收集、恢复的方法,其特征在于,所述检测单板系统软件是否出现异常的步骤,具体如下:通过通信设备单板的实时多任务系统预设检测任务,实时读取多任务系统中的应用模块状态;通过所述的检测任务发现应用模块是否存在,若不存在的应用模块则出现故障;若应用模块存在,所述的检测任务继续判断应用模块是否存在调度异常,通过所述检测任务检测出预设时间内未能成功访问的应用模块,作为出现故障的应用模块;通过所述检测任务依次创建故障信息收集任务和故障重启任务。3.根据权利2所述的一种通信设备软件故障检测、收集、恢复的方法,其特征在于,所述出现故障的检测任务继续判断应用模块是否存在调度异常的步骤,具体如下:通过所述故障信息收集任务收集应用模块故障时的信息;通过所述故障信息收集任务收集应用模块运行的信息;通过所述故障信息收集任务收集网络处理器一些关键寄存器状态;通过所述故障信息收集任务对收集到的信息打包成异常信息文件,所述异常信息文件名以特定名字加时间信息命名;通过所述故障信息收集任务创建故障存储任务;所述出现故障的创建故障重启任务的步骤,具体如下:通过所述故障重启任务释放出现故障的应用模块所占资源;通过所述故障重启任务重启出现故障的应用模块;所述通过所述故障信息收集任务创建故障存储任务的步骤,具体如下:计算异常信息文件的大小;计算本地存储剩余空间的大小;判断本地存储剩余空间的大小是否小于异常信息文件大小;若是,根据异常信息文件名的时间信息排序,先删除旧的异常信息文件;本地存储完毕之后,检查异常信息文件数目,是否超过预设的最大异常信息文件数目;若是,删除一个旧的异常信息文件;若预设远端故障服务器,将异常信息文件发送至远端服务器。4.根据权利1所述的一种通信设备软件故障检测、收集、恢复的方法和系统,其特征在于,所述单板系统软件故障检测的步骤,还包括以下步骤:通过所述通信设备控制平面预设机箱管理任务,与其他单板的机箱管理任务建立连接;单板的机箱管理任务发送保活报文到控制平面;控制平面机箱管理任务在预设时间内未收到某单板的保活报文,则此单板的系统软件出现故障;收集故障单板相关的运行信息、配置信息;对出现故障的单板进行重启。5.一种通信设备软件故障检测、收集、恢复的系统,其特征在于,包括:故障检测模块,用于实时对通信设备系统中的多个应用模块进行检测,检测应用模块是...
【专利技术属性】
技术研发人员:罗福云,李振华,刘赫,秦骏,
申请(专利权)人:深圳市风云实业有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。