故障恢复方法、计算机设备及存储介质技术

技术编号:26259095 阅读:21 留言:0更新日期:2020-11-06 17:53
本发明专利技术涉及安全监控技术领域,提供一种故障恢复方法、计算机设备及存储介质,包括:在监控到服务器发生故障后获取服务器的标识信息;识别故障的故障类型;并当匹配出与所述故障类型对应的故障恢复作业流标识后,生成第一故障告警指令;使用钩子功能钩住第一故障告警指令,并发送携带有服务器的标识信息及故障恢复作业流标识的第二故障告警指令至故障自动处理系统中,使得故障自动处理系统反馈回故障恢复指令;通过服务器的客户端调用故障恢复指令中的故障恢复作业流脚本执行故障恢复指令。本发明专利技术通过将故障对应的解决办法封装成故障恢复作业流脚本,在故障发生时由监控系统触发故障自动处理系统调用故障恢复流作业流脚本,自动化解故障。

【技术实现步骤摘要】
故障恢复方法、计算机设备及存储介质
本专利技术涉及安全监控
,具体涉及一种故障恢复方法、计算机设备及存储介质。
技术介绍
目前的服务器管理系统中,由故障监测平台(或称Uwork)实时监测所有维护的服务器是否发生故障,当服务器发生故障时,则发出告警信息,通知相关人员(如服务器负责人、运维人员等)及时处理,相关人员则登录故障监测平台,对故障进行手动恢复。现有的服务器故障恢复方案,必须人工介入,因此人工成本高,操作效率低,可靠性差。
技术实现思路
鉴于以上内容,有必要提出一种故障恢复方法、计算机设备及存储介质,通过将每个故障对应的解决办法封装成故障恢复作业流脚本,在故障发生时由监控系统触发故障自动处理系统调用故障恢复流作业流脚本,将故障自动化解。本专利技术的第一方面提供一种故障恢复方法,应用于监控系统中,所述方法包括:监控服务器是否发生故障,并在监控到所述服务器发生故障后获取所述服务器的标识信息;识别所述故障的故障类型;匹配是否存在与所述故障类型对应的故障恢复作业流标识;当匹配出与所述故障类型对应的故障恢复作业流标识后,生成第一故障告警指令;使用钩子功能钩住所述第一故障告警指令,并发送携带有所述服务器的标识信息及所述故障恢复作业流标识的第二故障告警指令至故障自动处理系统中,使得所述故障自动处理系统根据所述第二故障告警指令反馈回故障恢复指令;通过所述服务器的客户端调用所述故障恢复指令中的故障恢复作业流脚本执行所述故障恢复指令。根据本专利技术的一个可选的实施例,所述监控服务器是否发生故障包括:获取所述服务器的客户端上报的日志,所述日志中记录有多个数据;比较每个数据与对应的数据阈值;当有至少一个数据大于对应的数据阈值时,确定监控到所述服务器发生故障;当所有的数据小于或者等于对应的数据阈值时,确定监控到所述服务器正常运行。根据本专利技术的一个可选的实施例,所述识别所述故障的故障类型包括:确定所述多个数据中大于数据阈值的目标数据;采用正则匹配的方法对预设关键词与所述目标数据进行匹配;当从所述目标数据中匹配出与所述预设关键词相同的目标关键词时,根据预设监控规则表确定所述目标关键词对应的故障类型。根据本专利技术的一个可选的实施例,当所有的数据小于或者等于对应的数据阈值时,所述方法还包括:输入每个数据至故障预测分类器中;通过所述故障预测分类器预测出所述每个数据的风险故障类型及概率;将最大概率对应的风险故障类型作为目标风险故障类型;向所述服务器发送携带有所述目标风险故障类型的风险告警信号。根据本专利技术的一个可选的实施例,所述故障预测分类器的训练过程包括:获取所述每个数据对应的历史数据及所述历史数据的故障类型;根据所述每个历史数据及对应的故障类型构建数据数组;输入所述数据数组至卷积神经网络中进行训练得到所述故障预测分类器。根据本专利技术的一个可选的实施例,所述方法还包括:当匹配出不存在与所述故障类型对应的故障恢复作业流标识时,发送预设通知信息至运维服务人员,使得所述运维服务人员手动处理故障恢复。本专利技术的第二方面提供一种故障恢复方法,应用于故障自动处理系统中,所述方法包括:接收监控系统发送的携带有服务器的标识信息及故障恢复作业流标识的故障告警信号;匹配出与所述故障恢复作业流标识对应的故障恢复作业流脚本;将携带有所述故障恢复作业流脚本的故障恢复指令发送至与所述服务器的标识信息对应的服务器,使得所述服务器的客户端调用所述故障恢复作业流脚本执行所述故障恢复指令。根据本专利技术的一个可选的实施例,所述方法还包括:获取运维服务系统中的多个故障类型及每个故障类型的故障恢复策略;根据所述每个故障类型的故障恢复策略配置故障恢复作业流脚本;为所述故障恢复作业流脚本设置故障恢复作业流标识;发送所述故障恢复作业流标识至所述监控系统。本专利技术的第三方面提供一种计算机设备,所述计算机设备包括处理器,所述处理器用于执行存储器中存储的计算机程序时实现所述故障恢复方法。本专利技术的第四方面提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现所述故障恢复方法。综上所述,本专利技术所述的故障恢复方法、计算机设备及存储介质,通过监控系统和故障自动处理系统相配合的方式对发生故障的服务器进行故障恢复,通过故障自动处理系统将每个故障对应的解决办法封装成故障恢复作业流脚本,在故障发生时由监控系统触发故障自动处理系统调用故障恢复流作业流脚本,将故障自动化解,去掉其中人工参与的过程,实现故障的快速恢复。附图说明图1是本专利技术实施例一提供的故障恢复方法的流程图。图2是本专利技术实施例二提供的故障恢复方法的流程图。图3是本专利技术实施例三提供的故障恢复装置的结构图。图4是本专利技术实施例四提供的故障恢复装置的结构图。图5是本专利技术实施例五提供的计算机设备的结构示意图。具体实施方式为了能够更清楚地理解本专利技术的上述目的、特征和优点,下面结合附图和具体实施例对本专利技术进行详细描述。需要说明的是,在不冲突的情况下,本专利技术的实施例及实施例中的特征可以相互组合。除非另有定义,本文所使用的所有的技术和科学术语与属于本专利技术的
的技术人员通常理解的含义相同。本文中在本专利技术的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本专利技术。实施例一图1是本专利技术实施例一提供的故障恢复方法的流程图。所述故障恢复方法具体包括以下步骤,根据不同的需求,该流程图中步骤的顺序可以改变,某些可以省略。S11,监控系统监控服务器是否发生故障,并在监控到所述服务器发生故障后获取所述服务器的标识信息。故障恢复系统包括监控系统和故障自动处理系统两个子系统,其中监控系统负责监控服务器是否发生故障,并在监控到服务器发生故障时,获取发生故障的服务器的标识信息。所述标识信息可以包括:服务器的IP地址,服务器的MAC地址、服务器的设备识别号。所述标识信息用于唯一表示服务器。在一个可选的实施例中,所述监控服务器是否发生故障包括:获取所述服务器的客户端上报的日志,所述日志中记录有多个数据;比较每个数据与对应的数据阈值;当有至少一个数据大于对应的数据阈值时,确定监控到所述服务器发生故障;当所有的数据小于或者等于对应的数据阈值时,确定监控到所述服务器正常运行。在该可选的实施例中,所述监控系统同时对接多个服务器,每个服务器中事先安装有客户端,所述客户端定时或者不定时的向监控系统主动上报对应服务器的日志。所述客户端还可以在接收到监控系统定期或者不定期发送的日志上报指令时,上报对应服务器的日志。所述多个数据可以包括,但不限于:CPU使用率、内存使用率、本文档来自技高网
...

【技术保护点】
1.一种故障恢复方法,应用于监控系统中,其特征在于,所述方法包括:/n监控服务器是否发生故障,并在监控到所述服务器发生故障后获取所述服务器的标识信息;/n识别所述故障的故障类型;/n匹配是否存在与所述故障类型对应的故障恢复作业流标识;/n当匹配出存在与所述故障类型对应的故障恢复作业流标识后,生成第一故障告警指令;/n使用钩子功能钩住所述第一故障告警指令,并发送携带有所述服务器的标识信息及所述故障恢复作业流标识的第二故障告警指令至故障自动处理系统中,使得所述故障自动处理系统根据所述第二故障告警指令反馈回故障恢复指令;/n通过所述服务器的客户端调用所述故障恢复指令中的故障恢复作业流脚本执行所述故障恢复指令。/n

【技术特征摘要】
1.一种故障恢复方法,应用于监控系统中,其特征在于,所述方法包括:
监控服务器是否发生故障,并在监控到所述服务器发生故障后获取所述服务器的标识信息;
识别所述故障的故障类型;
匹配是否存在与所述故障类型对应的故障恢复作业流标识;
当匹配出存在与所述故障类型对应的故障恢复作业流标识后,生成第一故障告警指令;
使用钩子功能钩住所述第一故障告警指令,并发送携带有所述服务器的标识信息及所述故障恢复作业流标识的第二故障告警指令至故障自动处理系统中,使得所述故障自动处理系统根据所述第二故障告警指令反馈回故障恢复指令;
通过所述服务器的客户端调用所述故障恢复指令中的故障恢复作业流脚本执行所述故障恢复指令。


2.如权利要求1所述的方法,其特征在于,所述监控服务器是否发生故障包括:
获取所述服务器的客户端上报的日志,所述日志中记录有多个数据;
比较每个数据与对应的数据阈值;
当有至少一个数据大于对应的数据阈值时,确定监控到所述服务器发生故障;
当所有的数据小于或者等于对应的数据阈值时,确定监控到所述服务器正常运行。


3.如权利要求2所述的方法,其特征在于,所述识别所述故障的故障类型包括:
确定所述多个数据中大于数据阈值的目标数据;
采用正则匹配的方法对预设关键词与所述目标数据进行匹配;
当从所述目标数据中匹配出与所述预设关键词相同的目标关键词时,根据预设监控规则表确定所述目标关键词对应的故障类型。


4.如权利要求2所述的方法,其特征在于,当所有的数据小于或者等于对应的数据阈值时,所述方法还包括:
输入每个数据至故障预测分类器中;
通过所述故障预测分类器预测出所述每个数据的风险故障类型及概率;
将最大概率对应的风险故障类型作为目标风险故障类型;
向所述服务器发送携带有所述目标风险故障类型的风险告警信号。
...

【专利技术属性】
技术研发人员:郑磊
申请(专利权)人:平安证券股份有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1