本发明专利技术提供一种linux服务器分布式故障检测和恢复方法,所述在linux服务器中设置故障检测模块、中央控制模块、故障恢复模块、以及配置中心模块;所述故障检测模块对linux服务器分布式故障进行检测,并采集服务器故障信息;所述配置中心模块配置基础信息和配置故障检测模块、中央控制模块、故障恢复模块;所述中央控制模块接收故障信息,并对故障类型进行分析处理,通过配置中心模块的配置进行告警或者恢复操作的触发;所述故障恢复模块对不同的故障类型进行恢复操作。本发明专利技术实现接口的自我检测,应用故障的告警和切换,帮助业务快速恢复故障。
【技术实现步骤摘要】
本专利技术涉及信息科技
,尤其涉及一种linux服务器分布式故障检测和恢复方法。
技术介绍
目前的开源的工具多数只是监控工具,并不能很好的实现故障的发现和故障流程的联动,导致系统运维需要用多个系统结合来实现故障的发现和处理。现在很多的linux服务器后台用PHP,如手游的服务端后台;其架构上多采用nginx(代理服务器)+php(语言)+mysql(数据库)的方式对服务器接口进行分布式的部署,一旦服务器规模多了就容易产生某个服务器环境或者程序异常导致的接口不一致引发数据异常。现有技术公开了一种“资源服务优化配置容错管理实现系统”,见公开号为:CN102916830A,公开日为:2013-02-06的中国专利,其根据资源服务优化配置过程中故障产生的原因及分类,设计相应的容错管理实现机制,实现相应的故障检测和消解。具体包括信息服务模块、资源服务优化配置模块、故障检测模块和故障恢复模块,具有良好的模块性、可维护性、扩展性,能有效检测和消解资源服务优化配置过程中的各种故障,提高整个服务制造系统的稳定性和资源服务优化配置的可靠性。该专利技术能有效检测到服务制造系统资源服务优化配置过程中由虚拟连接、资源、任务、应用等引起的常见故障,并对其提供相应的良好的消解策略,有效提高服务制造系统资源服务优化配置的可靠性和服务质量。该专利技术是针对系统资源服务的优化配置,并非本专利申请是对服务器分布式故障的检测和恢复,解决的技术问题和方案不相同。
技术实现思路
本专利技术要解决的技术问题,在于提供一种linux服务器分布式故障检测和恢复方法,实现接口的自我检测,应用故障的告警和切换,帮助业务快速恢复故障;缩短从故障检测到故障恢复的时间。本专利技术是这样实现的:一种linux服务器分布式故障检测和恢复方法,其特征在于:所述在linux服务器中设置故障检测模块、中央控制模块、故障恢复模块、以及配置中心模块;所述故障检测模块对linux服务器分布式故障进行检测,并采集服务器故障信息;所述配置中心模块配置基础信息和配置故障检测模块、中央控制模块、故障恢复模块;所述中央控制模块接收故障信息,并对故障类型进行分析处理,通过配置中心模块的配置进行告警或者恢复操作的触发;所述故障恢复模块对不同的故障类型进行恢复操作。进一步的,所述故障检测模块对linux服务器分布式故障进行检测,并采集服务器故障信息具体为:所述故障检测模块通过agent技术将服务器接口的状态值,上报给中央控制模块;通过agent技术将系统的状态通过心跳方式上报中央控制模块;通过接口调用将当前的应用状态通过心跳方式上报中央控制模块。进一步的,所述系统的状态包括cpu、内存、或网络状态。进一步的,所述中央控制模块的操作具体为:中央控制模块接收并记录服务器状态到数据库;中央控制模块不停轮询当前服务器状态,依据配置中心模块的配置进行下一步告警或者恢复操作的触发。进一步的,所述配置中心模块的操作具体为:配置服务器节点所对应的模块、基础信息、通用策略以及模块策略;下发agent技术相关配置信息;为故障恢复模块的故障提供切换依据。进一步的,所述所述故障恢复模块对不同的故障类型进行恢复操作,具体为:故障恢复模块检测到是硬件故障类型,直接根据中央控制模块查询配置中心模块的策略进行替换更新操作或者直接集群屏蔽;检测到是业务故障类型的,根据业务故障类型策略定制进行自动的恢复操作;检测故障恢复结果是否成功;并根据恢复的结果发送故障恢复信息。本专利技术具有如下优点:本专利技术通过故障检测模块、中央控制模块、故障恢复模块、以及配置中心模块的配合操作,使得开发者只关心游戏开发,无需关心环境的稳定一致;灵活可移植性高,业务可根据业务特点定制模块策略;缩短从故障检测到故障恢复的时间;自动化的故障恢复策略减少人为干预带来的不稳定因素。附图说明下面参照附图结合实施例对本专利技术作进一步的说明。图1为本专利技术方法实现的原理框图。图2为本专利技术的方法流程示意图。具体实施方式请参阅图1和图2所示,一种linux服务器分布式故障检测和恢复方法,所述在linux服务器中设置故障检测模块、中央控制模块、故障恢复模块、以及配置中心模块;所述故障检测模块对linux服务器分布式故障进行检测,并采集服务器故障信息;所述配置中心模块配置基础信息和配置故障检测模块、中央控制模块、故障恢复模块;所述中央控制模块接收故障信息,并对故障类型进行分析处理,通过配置中心模块的配置进行告警或者恢复操作的触发;所述故障恢复模块对不同的故障类型进行恢复操作。其中,所述故障检测模块对linux服务器分布式故障进行检测,并采集服务器故障信息具体为:所述故障检测模块通过agent技术(agent技术是一种处于一定环境下包装的计算机系统,为实现设计目的,能在该环境下灵活的,自主的活动。)将服务器接口的状态值,上报给中央控制模块;通过agent技术将系统的状态通过心跳方式上报中央控制模块;所述系统的状态包括cpu、内存、或网络状态。通过设定的接口调用将当前的应用状态通过心跳方式上报中央控制模块。在本专利技术中,所述中央控制模块的操作具体为:中央控制模块接收并记录服务器状态到数据库;中央控制模块不停轮询当前服务器状态,依据配置中心模块的配置进行下一步告警或者恢复操作的触发。所述配置中心模块的操作具体为:配置服务器节点所对应的模块、基础信息、通用策略以及模块策略;下发agent技术相关配置信息;为故障恢复模块的故障提供切换依据。所述所述故障恢复模块对不同的故障类型进行恢复操作,具体为:故障恢复模块检测到是硬件故障类型,直接根据中央控制模块查询配置中心模块的策略进行替换更新操作或者直接集群屏蔽;检测到是业务故障类型的,根据业务故障类型策略定制进行自动的恢复操作;检测故障恢复结果是否成功;并根据恢复的结果发送故障恢复信息。总之,本专利技术通过故障检测模块、中央控制模块、故障恢复模块、以及配置中心模块的配合操作,实现接口的自我检测,应用故障的告警和切换,帮助业务快速恢复故障;缩短从故障检测到故障恢复的时间。虽然以上描述了本专利技术的具体实施方式,但是熟悉本
的技术人员应当理解,我们所描述的具体的实施例只是说明性的,而不是用于对本专利技术的范围的限定,熟悉本领域的技术人员在依照本专利技术的精神所作的等效的修饰以及变化,都应当涵盖在本专利技术的权利要求所保护的范围内。本文档来自技高网...
【技术保护点】
一种linux服务器分布式故障检测和恢复方法,其特征在于:所述在linux服务器中设置故障检测模块、中央控制模块、故障恢复模块、以及配置中心模块;所述故障检测模块对linux服务器分布式故障进行检测,并采集服务器故障信息;所述配置中心模块配置基础信息和配置故障检测模块、中央控制模块、故障恢复模块;所述中央控制模块接收故障信息,并对故障类型进行分析处理,通过配置中心模块的配置进行告警或者恢复操作的触发;所述故障恢复模块对不同的故障类型进行恢复操作。
【技术特征摘要】
1.一种linux服务器分布式故障检测和恢复方法,其特征在于:所述在linux服务器中设置故障检测模块、中央控制模块、故障恢复模块、以及配置中心模块;所述故障检测模块对linux服务器分布式故障进行检测,并采集服务器故障信息;所述配置中心模块配置基础信息和配置故障检测模块、中央控制模块、故障恢复模块;所述中央控制模块接收故障信息,并对故障类型进行分析处理,通过配置中心模块的配置进行告警或者恢复操作的触发;所述故障恢复模块对不同的故障类型进行恢复操作。2.根据权利要求1所述的linux服务器分布式故障检测和恢复方法,其特征在于:所述故障检测模块对linux服务器分布式故障进行检测,并采集服务器故障信息具体为:所述故障检测模块通过agent技术将服务器接口的状态值,上报给中央控制模块;通过agent技术将系统的状态通过心跳方式上报中央控制模块;通过接口调用将当前的应用状态通过心跳方式上报中央控制模块。3.根据权利要求2所述的linux服务器分布式故障检测和恢复方法,其特征在于:所述...
【专利技术属性】
技术研发人员:林智明,唐光宇,蔡泸炜,龚文飞,陈文静,许元敬,许美娟,李嘉莉,黄晗,林密英,刘林,蒋滢芳,陈翔,林珍,陈平,
申请(专利权)人:福州智永信息科技有限公司,
类型:发明
国别省市:福建;35
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。