通信设备软件故障检测收集恢复方法和系统技术方案

技术编号:15518525 阅读:143 留言:0更新日期:2017-06-04 08:42
本发明专利技术提供一种通信设备软件故障检测收集恢复方法和系统,其中通信设备软件故障检测收集恢复方法包括应用模块故障的检测的步骤和单板系统软件故障的步骤;该通信设备软件故障检测收集恢复系统包括:故障检测模块、故障收集模块、故障存储模块、机箱管理模块及故障恢复模块;本发明专利技术在通信设备发生应用模块故障和单板系统软件故障时,能快速感知故障,并收集足够多的异常信息,有利于故障后分析具体的原因,并自动恢复软件系统到正常运行状态,有效地缩短通信设备的故障时间。

【技术实现步骤摘要】
通信设备软件故障检测收集恢复方法和系统
本专利技术涉及通信领域和故障检测
,具体涉及一种通信设备软件故障检测收集恢复方法和系统。
技术介绍
随着通信技术的不断发展,对通信设备(例如:路由器、交换机、综合接入设备)所承担的业务功能越来越复杂。在通信设备运行过程中,每个设备都有MTBF(MeanTimeBetweenFailure,平均故障间隔时间)的指标要求。所述故障可分为硬件故障和软件故障。对于硬件故障,网络管理员可以通过观察设备上的报警灯,很容易判断故障原因,及时采取维修措施排除故障。对于软件故障,由于故障种类繁多,所以网络管理员很难判断出故障原因。传统的通信设备软件故障收集,一般需要外界下指令或者命令,才进行故障信息收集。在用户现场环境下,用户为了快速恢复通信设备正常使用,一般情况对整机直接进行重启,从而导致不能收集到发生故障时的信息。另外,传统的软件故障收集,一般情况下,都是登陆到设备,查看设备各种运行信息、异常信息,容易出现遗漏,导致现场信息收集不完整。这些都给后期技术人员排查故障原因造成了极大的困难。一方面,通信设备软件在运行过程中不可避免发生故障;另一方面,各行各业对于发生故障时的及时修复要求也随之提高。传统的恢复方法,一般是单一应用模块发生故障时,直接重启整机软件。而在分布式系统中,各个应用模块独立存在,独自完成不同的任务,当系统中任何一个模块出现故障时,都会引起整个软件系统重新启动,可能会导致严重的后果。因此,在相关技术中存在实时故障检测水平低、故障信息不能自动收集、故障不能及时恢复的问题。
技术实现思路
本专利技术的目的在于针对现有技术的不足,提供一种通信设备软件故障检测收集恢复方法和系统,该通信设备软件故障检测收集恢复方法和系统可以很好地解决上述问题。为达到上述要求,本专利技术采取的技术方案是:提供一种通信设备软件故障检测收集恢复方法和系统,该通信设备软件故障检测收集恢复方法和系统包括应用模块故障的方法和单板系统软件故障检测的步骤;应用模块故障检测的步骤如下:通信设备单板实时对通信设备系统中的多个应用模块进行检测,检测应用模块是否出现故障;若是,对出现故障的应用模块进行故障信息收集;收集应用模块故障时的信息、运行信息和读取网络处理器的一些关键寄存器状态;打包形成异常信息文件,保存到本地存储模块,并上传至预置的运营商服务器;对出现故障的应用模块进行重启;所述单板系统软件故障检测的步骤如下:通信设备控制平面与单板实时保活;检测单板系统软件是否出现异常;若出现单板软件故障时,则对单板进行硬件复位。该通信设备软件故障检测收集恢复系统包括:故障检测模块,用于实时对通信设备系统中的多个应用模块进行检测,检测应用模块是否出现故障;故障收集模块,用于应用模块出现故障时,收集应用模块的信息及读取网络处理器一些关键寄存器状态,打包形成异常信息文件;故障恢复模块,用于应用模块出现故障时,对出现故障的应用模块进行重启;故障存储模块,用于应用模块出现故障时,对收集到异常信息文件存储到本地存储,并上传至预设的运营商服务器;机箱管理模块,用于单板系统软件故障检测,定时检测单板系统软件是否出现故障,对出现故障的单板进行重启。该通信设备软件故障检测收集恢复方法和系统具有的优点如下:本专利技术在通信设备发生应用模块故障和单板系统软件故障时,能快速感知故障,并收集足够多的异常信息,有利于故障后分析具体的原因,并自动恢复软件系统到正常运行状态,有效地缩短通信设备的故障时间。附图说明此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,在这些附图中使用相同的参考标号来表示相同或相似的部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:图1示意性地示出了根据本申请一个实施例的模块故障检测的方法流程图。图2示意性地示出了根据本申请一个实施例的单板系统软件故障检测的步骤流程图。图3示意性地示出了根据本申请一个实施例的应用模块故障检测、收集、恢复系统的结构框图。图4示意性地示出了根据本申请一个实施例的单板系统软件故障检测、收集、恢复系统的结构框图。具体实施方式为使本申请的目的、技术方案和优点更加清楚,以下结合附图及具体实施例,对本申请作进一步地详细说明。在以下描述中,对“一个实施例”、“实施例”、“一个示例”、“示例”等等的引用表明如此描述的实施例或示例可以包括特定特征、结构、特性、性质、元素或限度,但并非每个实施例或示例都必然包括特定特征、结构、特性、性质、元素或限度。另外,重复使用短语“根据本申请的一个实施例”虽然有可能是指代相同实施例,但并非必然指代相同的实施例。为简单起见,以下描述中省略了本领域技术人员公知的某些技术特征。根据本申请的一个实施例,提供一种通信设备软件故障检测收集恢复方法,如图1至图2所示,包括应用模块故障检测的步骤和单板系统软件故障检测的步骤;所述应用模块故障检测的步骤如下:通信设备单板实时对通信设备系统中的多个应用模块进行检测,检测应用模块是否出现故障;若是,对出现故障的应用模块进行故障信息收集;收集应用模块故障时的信息、运行信息和读取网络处理器的一些关键寄存器状态;打包形成异常信息文件,保存到本地存储模块,并上传至预置的运营商服务器;对出现故障的应用模块进行重启;所述单板系统软件故障检测的步骤如下:通信设备控制平面与单板实时保活;检测单板系统软件是否出现异常;若出现单板软件故障时,则对单板进行硬件复位。根据本申请的一个实施例,该通信设备软件故障检测收集恢复方法的检测单板系统软件是否出现异常的步骤,具体如下:通过通信设备单板的实时多任务系统预设检测任务,实时读取多任务系统中的应用模块状态;通过所述的检测任务发现应用模块是否存在,若不存在的应用模块则出现故障;若应用模块存在,所述的检测任务继续判断应用模块是否存在调度异常,通过所述检测任务检测出预设时间内未能成功访问的应用模块,作为出现故障的应用模块;通过所述检测任务依次创建故障信息收集任务和故障重启任务。根据本申请的一个实施例,该通信设备软件故障检测收集恢复方法的出现故障的检测任务继续判断应用模块是否存在调度异常的步骤,具体如下:通过所述故障信息收集任务收集应用模块故障时的信息;通过所述故障信息收集任务收集应用模块运行的信息;通过所述故障信息收集任务收集网络处理器一些关键寄存器状态;通过所述故障信息收集任务对收集到的信息打包成异常信息文件,所述异常信息文件名以特定名字加时间信息命名;通过所述故障信息收集任务创建故障存储任务;所述出现故障的创建故障重启任务的步骤,具体如下:通过所述故障重启任务释放出现故障的应用模块所占资源;通过所述故障重启任务重启出现故障的应用模块;所述通过所述故障信息收集任务创建故障存储任务的步骤,具体如下:计算异常信息文件的大小;计算本地存储剩余空间的大小;判断本地存储剩余空间的大小是否小于异常信息文件大小;若是,根据异常信息文件名的时间信息排序,先删除旧的异常信息文件;本地存储完毕之后,检查异常信息文件数目,是否超过预设的最大异常信息文件数目;若是,删除一个旧的异常信息文件;若预设远端故障服务器,将异常信息文件发送至远端服务器。根据本申请的一个实施例,该通信设备软件故障检测收集恢复方法的本文档来自技高网...
通信设备软件故障检测收集恢复方法和系统

【技术保护点】
一种通信设备软件故障检测、收集、恢复的方法,其特征在于,包括应用模块故障检测的步骤和单板系统软件故障检测的步骤;所述应用模块故障检测的步骤如下:通信设备单板实时对通信设备系统中的多个应用模块进行检测,检测应用模块是否出现故障;若是,对出现故障的应用模块进行故障信息收集;收集应用模块故障时的信息、运行信息和读取网络处理器的一些关键寄存器状态;打包形成异常信息文件,保存到本地存储模块,并上传至预置的运营商服务器;对出现故障的应用模块进行重启;所述单板系统软件故障检测的步骤如下:通信设备控制平面与单板实时保活;检测单板系统软件是否出现异常;若出现单板软件故障时,则对单板进行硬件复位。

【技术特征摘要】
1.一种通信设备软件故障检测、收集、恢复的方法,其特征在于,包括应用模块故障检测的步骤和单板系统软件故障检测的步骤;所述应用模块故障检测的步骤如下:通信设备单板实时对通信设备系统中的多个应用模块进行检测,检测应用模块是否出现故障;若是,对出现故障的应用模块进行故障信息收集;收集应用模块故障时的信息、运行信息和读取网络处理器的一些关键寄存器状态;打包形成异常信息文件,保存到本地存储模块,并上传至预置的运营商服务器;对出现故障的应用模块进行重启;所述单板系统软件故障检测的步骤如下:通信设备控制平面与单板实时保活;检测单板系统软件是否出现异常;若出现单板软件故障时,则对单板进行硬件复位。2.根据权利1所述的一种通信设备软件故障检测、收集、恢复的方法,其特征在于,所述检测单板系统软件是否出现异常的步骤,具体如下:通过通信设备单板的实时多任务系统预设检测任务,实时读取多任务系统中的应用模块状态;通过所述的检测任务发现应用模块是否存在,若不存在的应用模块则出现故障;若应用模块存在,所述的检测任务继续判断应用模块是否存在调度异常,通过所述检测任务检测出预设时间内未能成功访问的应用模块,作为出现故障的应用模块;通过所述检测任务依次创建故障信息收集任务和故障重启任务。3.根据权利2所述的一种通信设备软件故障检测、收集、恢复的方法,其特征在于,所述出现故障的检测任务继续判断应用模块是否存在调度异常的步骤,具体如下:通过所述故障信息收集任务收集应用模块故障时的信息;通过所述故障信息收集任务收集应用模块运行的信息;通过所述故障信息收集任务收集网络处理器一些关键寄存器状态;通过所述故障信息收集任务对收集到的信息打包成异常信息文件,所述异常信息文件名以特定名字加时间信息命名;通过所述故障信息收集任务创建故障存储任务;所述出现故障的创建故障重启任务的步骤,具体如下:通过所述故障重启任务释放出现故障的应用模块所占资源;通过所述故障重启任务重启出现故障的应用模块;所述通过所述故障信息收集任务创建故障存储任务的步骤,具体如下:计算异常信息文件的大小;计算本地存储剩余空间的大小;判断本地存储剩余空间的大小是否小于异常信息文件大小;若是,根据异常信息文件名的时间信息排序,先删除旧的异常信息文件;本地存储完毕之后,检查异常信息文件数目,是否超过预设的最大异常信息文件数目;若是,删除一个旧的异常信息文件;若预设远端故障服务器,将异常信息文件发送至远端服务器。4.根据权利1所述的一种通信设备软件故障检测、收集、恢复的方法和系统,其特征在于,所述单板系统软件故障检测的步骤,还包括以下步骤:通过所述通信设备控制平面预设机箱管理任务,与其他单板的机箱管理任务建立连接;单板的机箱管理任务发送保活报文到控制平面;控制平面机箱管理任务在预设时间内未收到某单板的保活报文,则此单板的系统软件出现故障;收集故障单板相关的运行信息、配置信息;对出现故障的单板进行重启。5.一种通信设备软件故障检测、收集、恢复的系统,其特征在于,包括:故障检测模块,用于实时对通信设备系统中的多个应用模块进行检测,检测应用模块是...

【专利技术属性】
技术研发人员:罗福云李振华刘赫秦骏
申请(专利权)人:深圳市风云实业有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1