一种集群故障处理方法、装置、设备及可读存储介质制造方法及图纸

技术编号:31082587 阅读:19 留言:0更新日期:2021-12-01 12:29
本申请公开了一种集群故障处理方法、装置、电子设备及计算机可读存储介质,该方法包括:根据检查项清单,对目标集群进行状态检测,得到状态参数值;对状态参数值进行故障识别;若识别到故障参数值,则根据故障参数值的故障参数类型选择对应的目标修复程序;利用目标修复程序进行故障处理;通过预设用于修复不同类型故障的故障修复程序,并在检测到故障参数值后根据故障参数类型选择对应的目标修复程序进行故障处理,可以自动完成集群故障的修复,提高了故障修复效率。提高了故障修复效率。提高了故障修复效率。

【技术实现步骤摘要】
一种集群故障处理方法、装置、设备及可读存储介质


[0001]本申请涉及计算机
,特别涉及一种集群故障处理方法、集群故障处理装置、电子设备及计算机可读存储介质。

技术介绍

[0002]Ambari是一种基于Web(即网页)的Hadoop(一种由Apache基金会所开发的分布式系统基础架构)分布式集群配置管理平台,支持Apache Hadoop大数据组件的自动化安装、管理、运维等功能,用户通过此平台能以界面的方式对大数据组件进行安装和使用。Ambari自身提供的和集群健康相关的功能包括告警,告警反应的是机器或者服务的某一项运行指标是否超过了告警阈值。然而对于检查出来的告警或者故障,仍需要人工手动进行排查解决,效率较低。
[0003]因此,如何解决相关技术存在的故障处理效率低的问题,是本领域技术人员需要解决的技术问题。

技术实现思路

[0004]有鉴于此,本申请的目的在于提供一种集群故障处理方法、集群故障处理装置、电子设备及计算机可读存储介质,可以自动完成集群故障的修复,提高了故障修复效率。
[0005]为解决上述技术问题,本申请提供了一种集群故障处理方法,包括:
[0006]根据检查项清单,对目标集群进行状态检测,得到状态参数值;
[0007]对所述状态参数值进行故障识别;
[0008]若识别到故障参数值,则根据所述故障参数值的故障参数类型选择对应的目标修复程序;
[0009]利用所述目标修复程序进行故障处理。
[0010]可选地,所述根据所述故障参数值的故障参数类型选择对应的目标修复程序,包括:
[0011]获取参数类型与故障修复程序之间的对应关系;
[0012]基于所述对应关系,从多个故障修复程序中确定与所述故障参数类型对应的所述目标修复程序。
[0013]可选地,还包括:
[0014]统计各个故障参数类型的出现频率;
[0015]获取高频参数类型出现时采集的运行参数;所述高频参数类型的出现频率大于非高频参数类型的出现频率;
[0016]将各个所述运行参数输入原因识别模型,得到若干个所述高频参数类型分别对应的若干个故障原因;
[0017]基于所述故障原因,更新所述对应关系中各个所述高频参数类型分别对应的各个目标关系。
[0018]可选地,所述基于所述故障原因,更新所述对应关系中所述高频参数类型对应的目标关系,包括:
[0019]利用与所述目标故障原因匹配的所述故障修复程序替代所述目标关系中的所述故障修复程序。
[0020]可选地,所述根据所述故障参数值的故障参数类型选择对应的目标修复程序,包括:
[0021]获取所述故障参数类型出现时采集的目标运行参数;
[0022]将所述目标运行参数输入原因识别模型,得到候选故障原因;
[0023]将所述候选故障原因对应的故障修复程序确定为所述目标修复程序。
[0024]可选地,所述对所述状态参数值进行故障识别,包括:
[0025]将各个状态参数值与对应检测项的异常区间进行比对;
[0026]若处于所述异常区间,则确定所述状态参数值为故障参数值。
[0027]可选地,还包括:
[0028]基于所述故障参数值和/或故障参数类型生成报告,并将所述报告按照预设方式输出。
[0029]本申请还提供了一种集群故障处理装置,包括:
[0030]状态检测模块,用于根据检查项清单,对目标集群进行状态检测,得到状态参数值;
[0031]故障识别模块,用于对所述状态参数值进行故障识别;
[0032]程序选择模块,用于若识别到故障参数值,则根据所述故障参数值的故障参数类型选择对应的目标修复程序;
[0033]故障处理模块,用于利用所述目标修复程序进行故障处理。
[0034]本申请还提供了一种电子设备,包括存储器和处理器,其中:
[0035]所述存储器,用于保存计算机程序;
[0036]所述处理器,用于执行所述计算机程序,以实现上述的集群故障处理方法。
[0037]本申请还提供了一种计算机可读存储介质,用于保存计算机程序,其中,所述计算机程序被处理器执行时实现上述的集群故障处理方法。
[0038]本申请提供的集群故障处理方法,根据检查项清单,对目标集群进行状态检测,得到状态参数值;对状态参数值进行故障识别;若识别到故障参数值,则根据故障参数值的故障参数类型选择对应的目标修复程序;利用目标修复程序进行故障处理。
[0039]可见,该方法在进行状态检测得到状态参数值后,对其进行故障识别,判断状态参数值是否正常。若识别到故障参数值,说明集群出现故障,通过状态参数值表现出来。各个状态参数值具有对应的参数类型,不同的参数类型从不同角度表征集群状态,不同类型的故障参数值表明了集群的不同类型的故障。为了进行故障自动修复,预设有多个故障修复程序,分别对应于不同类型的故障,即对应于不同的参数类型。在出现故障参数值后,说明集群发生了与故障参数类型相关的故障,因此选择与其对应的目标修复程序,进而利用其进行故障处理。通过预设用于修复不同类型故障的故障修复程序,并在检测到故障参数值后根据故障参数类型选择对应的目标修复程序进行故障处理,可以自动完成集群故障的修复,提高了故障修复效率,解决了相关技术存在的故障处理效率低的问题。
[0040]此外,本申请还提供了一种集群故障处理装置、电子设备及计算机可读存储介质,同样具有上述有益效果。
附图说明
[0041]为了更清楚地说明本申请实施例或相关技术中的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
[0042]图1为本申请实施例提供的一种集群故障处理方法流程图;
[0043]图2为本申请实施例提供的一种具体的集群故障处理方法流程图;
[0044]图3为本申请实施例提供的一种具体的健康巡检系统结构图;
[0045]图4为本申请实施例提供的一种集群故障处理装置的结构示意图;
[0046]图5为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
[0047]为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0048]请参考图1,图1为本申请实施例提供的一种集群故障处理方法流程图。
[0049]该方法包括:
[0050]S101:根据检查项清单,对目标集群进行状态检测,得到状态参数值。
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种集群故障处理方法,其特征在于,包括:根据检查项清单,对目标集群进行状态检测,得到状态参数值;对所述状态参数值进行故障识别;若识别到故障参数值,则根据所述故障参数值的故障参数类型选择对应的目标修复程序;利用所述目标修复程序进行故障处理。2.根据权利要求1所述的集群故障处理方法,其特征在于,所述根据所述故障参数值的故障参数类型选择对应的目标修复程序,包括:获取参数类型与故障修复程序之间的对应关系;基于所述对应关系,从多个故障修复程序中确定与所述故障参数类型对应的所述目标修复程序。3.根据权利要求2所述的集群故障处理方法,其特征在于,还包括:统计各个故障参数类型的出现频率;获取高频参数类型出现时采集的运行参数;所述高频参数类型的出现频率大于非高频参数类型的出现频率;将各个所述运行参数输入原因识别模型,得到若干个所述高频参数类型分别对应的若干个故障原因;基于数量最多的所述故障原因,更新所述对应关系中各个所述高频参数类型分别对应的各个目标关系。4.根据权利要求3所述的集群故障处理方法,其特征在于,所述基于数量最多的所述故障原因,更新所述对应关系中各个所述高频参数类型分别对应的各个目标关系,包括:利用与所述数量最多的所述故障原因相匹配的所述故障修复程序替代所述目标关系中的所述故障修复程序。5.根据权利要求1所述的集群故障处理方法,其特征在于,所述根据所述故障参数值的故障参数...

【专利技术属性】
技术研发人员:武鹏颜秉珩
申请(专利权)人:浪潮电子信息产业股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1