分布式系统的故障处理方法、装置及电子设备制造方法及图纸

技术编号:23851636 阅读:39 留言:0更新日期:2020-04-18 08:57
本发明专利技术涉及分布式系统的故障处理方法、装置及电子设备。该方法包括:接收分布式系统中的目标服务器发送的故障信息;根据故障信息确定目标服务器的故障类型;根据故障类型生成相应的维修任务并发送至维修业务终端;获取维修业务终端反馈的维修任务的执行进度;以及向目标服务器发送探活请求,以获取目标服务器的存活状态;如果存活状态为可登录状态,则向目标服务器发送初始化配置指令,以将目标服务器恢复工作状态;如果存活状态为非可登录状态并且执行进度为完成状态,则从分布式系统删除目标服务器。

Fault handling method, device and electronic equipment of distributed system

【技术实现步骤摘要】
分布式系统的故障处理方法、装置及电子设备
本专利技术涉及分布式系统领域,更具体地,涉及一种分布式系统的故障处理方法、一种分布式系统的故障处理装置、一种电子设备、一种分布式系统的故障处理系统以及一种计算机可读存储介质。
技术介绍
分布式存储系统,是将数据分散存储在多台独立的设备上。传统的网络存储系统采用集中的存储服务器存放所有数据,存储服务器成为系统性能的瓶颈,也是可靠性和安全性的焦点,不能满足大规模存储应用的需要。分布式网络存储系统采用可扩展的系统结构,利用多台存储服务器分担存储负荷,利用位置服务器定位存储信息,它不但提高了系统的可靠性、可用性和存取效率,还易于扩展。对于大规模分布式存储而言机器的故障频率较高,需要人工判断故障,然后人工发单去维修,处理周期长无法监控与跟踪,自动化程度低。另外人工发现的时候往往机器已经无法登陆,不利于及时发现和处理故障。因此,有必要提出一种新的分布式系统的故障处理方案。
技术实现思路
本专利技术的一个目的是提供一种分布式系统的故障处理的新技术方案。根据本专利技术的第一方面,提供了一种分布式系统的故障处理方法,应用于控制服务器,包括:接收所述分布式系统中的目标服务器发送的故障信息;根据所述故障信息确定所述目标服务器的故障类型;根据所述故障类型生成相应的维修任务并发送至维修业务终端;获取所述维修业务终端反馈的所述维修任务的执行进度;以及向所述目标服务器发送探活请求,以获取所述目标服务器的存活状态;如果所述存活状态为可登录状态,则向所述目标服务器发送初始化配置指令,以将所述目标服务器恢复工作状态;如果所述存活状态为非可登录状态并且所述执行进度为完成状态,则从所述分布式系统删除所述目标服务器。可选地,如果所述存活状态为非可登录状态并且所述执行进度为完成状态,还包括:停止对所述目标服务器进行状态监测。可选地,所述故障类型包括系统盘故障、主机总线适配器故障、内存故障中的任意一种或者任意多种的组合。根据本专利技术的第二方面,提供了一种分布式系统的故障处理方法,应用于所述分布式系统中的每个服务器,包括:获取自身的故障信息;将所述故障信息发送至控制服务器,以使所述控制服务器确定故障类型;响应于所述控制服务器发送的探活请求,反馈自身的存活状态;当自身的存活状态为可登录状态时,接收所述控制服务器发送的所述初始化配置指令;响应于所述初始化配置指令,初始化自身的配置参数,以恢复为工作状态。可选地,所述获取自身的故障信息,包括:根据自身的系统日志和/或PCI总线信息获取所述故障信息。根据本专利技术的第三方面,提供了一种分布式系统的故障处理装置,应用于控制服务器,包括:故障信息接收模块,用于接收所述分布式系统中的目标服务器发送的故障信息;故障分析模块,用于根据所述故障信息确定所述目标服务器的故障类型;任务生成和发送模块,用于根据所述故障类型生成相应的维修任务并发送至维修业务终端;维修进度获取模块,用于获取所述维修业务终端反馈的所述维修任务的执行进度;以及探活模块,用于向所述目标服务器发送探活动请求,以获取所述目标服务器的存活状态;指令发送模块,用于:如果所述存活状态为可登录状态,则向所述目标服务器发送初始化配置指令,以将所述目标服务器恢复工作状态;如果所述存活状态为非可登录状态并且所述执行进度为完成状态,则从所述分布式系统删除所述目标服务器。可选地,所述装置还包括用于监测服务器状态的监测模块,所述监测模块被配置为如果所述存活状态为非可登录状态并且所述执行进度为完成状态,停止对所述目标服务器进行状态监测。可选地,所述故障类型包括系统盘故障、主机总线适配器故障、内存故障中的任意一种或者任意多种的组合。根据本专利技术的第四方面,提供了一种分布式系统的故障处理装置,应用于所述分布式系统中的每个服务器,包括:故障信息获取模块,用于获取自身的故障信息;故障信息发送模块,用于将所述故障信息发送至控制服务器,以使所述控制服务器确定故障类型;状态反馈模块,用于响应于所述控制服务器发送的探活请求,反馈自身的存活状态;指令接收模块,用于当自身的存活状态为可登录状态时,接收所述控制服务器发送的所述初始化配置指令;初始化模块,用于响应于所述初始化配置指令,初始化自身的配置参数,以恢复为工作状态。可选地,所述故障信息获取模块被配置为根据自身的系统日志和/或PCI总线信息获取所述故障信息。根据本专利技术的第五方面,提供了一种电子设备,包括处理器和存储器,所述存储器存储有能够被所述处理器执行的机器可执行指令,所述处理器执行所述机器可执行指令以实现本专利技术第一方面或者第二方面所述的分布式系统的故障处理方法。根据本专利技术的第六方面,提供了一种故障处理系统,包括分布式处理系统、维修业务终端以及执行本专利技术第一方面所述的方法的控制服务器,其中,所述分布式处理系统包括至少一个执行本专利技术第二方面所述的方法的目标服务器;所述控制服务器分别与所述维修业务终端以及每个所述目标服务器通信连接。根据本专利技术的第七方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有可执行指令,所述可执行指令在被处理器调用和执行时,所述可执行指令促使处理器实现本专利技术第一方面或者第二方面所述的分布式系统的故障处理方法。本专利技术实施例中分布式系统的故障处理方法,通过控制服务器来根据目标服务器的故障信息确定目标服务器的故障类型,并根据故障类型生成维修任务发送中维修业务端,以实现向自动化的发单维修处理,有利于缩短修复期限,降低人力成本,此外,控制服务器还可以根据维修进度和及检测当前目标服务器的状态,来进行分布式系统的维护,可以提高分布式系统的稳定性和数据可靠性。通过以下参照附图对本专利技术的示例性实施例的详细描述,本专利技术的其它特征及其优点将会变得清楚。附图说明被结合在说明书中并构成说明书的一部分的附图示出了本专利技术的实施例,并且连同其说明一起用于解释本专利技术的原理。图1是可用于实现本专利技术实施例的故障处理系统的示意图。图2是可用于实现本专利技术实施例的电子设备的结构示意图。图3是根据本专利技术实施例的分布式系统的故障处理方法的流程图。图4示出了本专利技术的实施例的一个具体例子的流程图。具体实施方式现在将参照附图来详细描述本专利技术的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本专利技术的范围。以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本专利技术及其应用或使用的任何限制。对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,技术、方法和设备应当被视为说明书的一部分。在这里示出和讨论的所有例子中,任何具体值应被解释为仅仅是本文档来自技高网...

【技术保护点】
1.一种分布式系统的故障处理方法,应用于控制服务器,包括:/n接收所述分布式系统中的目标服务器发送的故障信息;/n根据所述故障信息确定所述目标服务器的故障类型;/n根据所述故障类型生成相应的维修任务并发送至维修业务终端;/n获取所述维修业务终端反馈的所述维修任务的执行进度;以及/n向所述目标服务器发送探活请求,以获取所述目标服务器的存活状态;/n如果所述存活状态为可登录状态,则向所述目标服务器发送初始化配置指令,以将所述目标服务器恢复工作状态;/n如果所述存活状态为非可登录状态并且所述执行进度为完成状态,则从所述分布式系统删除所述目标服务器。/n

【技术特征摘要】
1.一种分布式系统的故障处理方法,应用于控制服务器,包括:
接收所述分布式系统中的目标服务器发送的故障信息;
根据所述故障信息确定所述目标服务器的故障类型;
根据所述故障类型生成相应的维修任务并发送至维修业务终端;
获取所述维修业务终端反馈的所述维修任务的执行进度;以及
向所述目标服务器发送探活请求,以获取所述目标服务器的存活状态;
如果所述存活状态为可登录状态,则向所述目标服务器发送初始化配置指令,以将所述目标服务器恢复工作状态;
如果所述存活状态为非可登录状态并且所述执行进度为完成状态,则从所述分布式系统删除所述目标服务器。


2.根据权利要求1所述的方法,其中,如果所述存活状态为非可登录状态并且所述执行进度为完成状态,还包括:
停止对所述目标服务器进行状态监测。


3.根据权利要求1所述的方法,其中,所述故障类型包括系统盘故障、主机总线适配器故障、内存故障中的任意一种或者任意多种的组合。


4.一种分布式系统的故障处理方法,应用于所述分布式系统中的每个服务器,包括:
获取自身的故障信息;
将所述故障信息发送至控制服务器,以使所述控制服务器确定故障类型;
响应于所述控制服务器发送的探活请求,反馈自身的存活状态;
当自身的存活状态为可登录状态时,接收所述控制服务器发送的所述初始化配置指令;
响应于所述初始化配置指令,初始化自身的配置参数,以恢复为工作状态。


5.根据权利要求1所述的方法,其中,所述获取自身的故障信息,包括:
根据自身的系统日志和/或PCI总线信息获取所述故障信息。


6.一种分布式系统的故障处理装置,应用于控制服务器,包括:
故障信息接收模块,用于接收所述分布式系统中的目标服务器发送的故障信息;
故障分析模块,用于根据所述故障信息确定所述目标服务器的故障类型;...

【专利技术属性】
技术研发人员:魏子昂
申请(专利权)人:北京金山云网络技术有限公司北京金山云科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1