本公开提供了一种处理系统故障的方法
【技术实现步骤摘要】
处理系统故障的方法、装置、设备及存储介质
[0001]本公开涉及计算机
、
金融科技
、
智能运维
、
大数据
和人工智能
,更具体地涉及一种处理系统故障的方法
、
装置
、
设备
、
介质和程序产品
。
技术介绍
[0002]传统的人工运维主要依赖于人工和已有的运维经验来解决故障
。
自动化运维主要依赖运维专家库,将系统中产生的异常错误与专家库中的数据进行匹配,然后得到解决方案,根据解决方案来解决故障
。
[0003]在实现本公开构思的过程中,专利技术人发现相关技术中至少存在如下问题:对于人工运维,当面对海量告警时,依靠人工来解决相关故障的时间会大大增加,运维效率低
。
对于自动化运维,得到的解决方案不精准
。
技术实现思路
[0004]鉴于上述问题,本公开提供了一种处理系统故障的方法
、
装置
、
设备
、
介质和程序产品
。
[0005]本公开的第一个方面,提供了一种处理系统故障的方法,包括:
[0006]获取与子系统对应的目标告警信息,其中,上述目标告警信息包括单指标信息和多指标信息;
[0007]获取与上述单指标信息和上述多指标信息分别对应的预设阈值;
[0008]根据上述预设阈值,对上述单指标信息和上述多指标信息进行分析,得到故障指标信息;
[0009]根据上述故障指标信息和故障树,得到故障原因,其中,上述故障树包括与各个指标信息对应的故障原因;
[0010]根据上述故障原因,对上述故障进行处理
。
[0011]根据本公开的实施例,上述获取与上述单指标信息和上述多指标信息分别对应的预设阈值包括:
[0012]针对单指标信息和上述多指标信息中的每个目标指标信息,获取与上述目标指标信息对应的历史异常指标信息;
[0013]将上述历史异常指标信息划分为多个子序列;
[0014]对上述多个子序列进行特征提取,得到特征向量;
[0015]利用半监督学习算法对上述特征向量进行特征处理,得到与上述目标指标信息对应的预设阈值
。
[0016]根据本公开的实施例,上述预设阈值包括与上述单指标信息对应的第一阈值,上述根据上述预设阈值,对上述单指标信息和上述多指标信息进行分析,得到故障指标信息包括:
[0017]在上述单指标信息在第一阈值范围内的情况下,将上述单指标信息确定为上述故障指标信息
。
[0018]根据本公开的实施例,上述预设阈值包括与上述多指标信息包括的每个指标信息分别对应的第二阈值,上述根据上述预设阈值,对上述单指标信息和上述多指标信息进行分析,得到故障指标信息包括:
[0019]在多指标信息包括的每个指标信息信息均在与上述每个指标信息信息各自对应的第二阈值范围内的情况下,将上述多指标信息确定为上述故障指标信息
。
[0020]根据本公开的实施例,上述获取与子系统对应的目标告警信息包括:
[0021]获取与上述子系统对应的原始告警信息;
[0022]利用有监督学习算法对上述原始告警信息进行过滤,得到上述目标告警信息
。
[0023]根据本公开的实施例,上述根据上述故障原因,对上述故障进行处理包括:
[0024]根据上述故障原因及解决方案专家库,得到故障解决方法;
[0025]根据上述故障解决方法,对故障进行处理
。
[0026]根据本公开的实施例,在上述获取与子系统对应的目标告警信息之前,还包括:
[0027]将上述子系统的安装包缓存于产品仓库,其中,上述产品仓库中存储有目标主机的主机地址
、
安装端口号和安装脚本的地址;
[0028]利用上述产品仓库将上述子系统安装于上述目标主机中
。
[0029]本公开的第二方面提供了一种处理系统故障的装置,包括:
[0030]第一获取模块,用于获取与子系统对应的目标告警信息,其中,上述目标告警信息包括单指标信息和多指标信息;
[0031]第二获取模块,用于获取与上述单指标信息和上述多指标信息分别对应的预设阈值;
[0032]第一得到模块,用于根据上述预设阈值,对上述单指标信息和上述多指标信息进行分析,得到故障指标信息;
[0033]第二得到模块,用于根据上述故障指标信息和故障树,得到故障原因,其中,上述故障树包括与各个指标信息对应的故障原因;
[0034]处理模块,用于根据上述故障原因,对上述故障进行处理
。
[0035]本公开的第三方面提供了一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,其中,当上述一个或多个程序被上述一个或多个处理器执行时,使得一个或多个处理器执行上述处理系统故障的方法
。
[0036]本公开的第四方面还提供了一种计算机可读存储介质,其上存储有可执行指令,该指令被处理器执行时使处理器执行上述处理系统故障的方法
。
[0037]本公开的第五方面还提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述处理系统故障的方法
。
[0038]根据本公开的实施例,本公开实施例提供的处理系统故障的方法,在获取与子系统对应的目标告警信息,目标告警信息包括单指标信息和多指标信息,和获取与单指标信息和多指标信息分别对应的预设阈值后,通过根据预设阈值,对单指标信息和多指标信息进行分析,得到故障指标信息,可以快速得到考虑了多指标信息之间的关联性及单指标信息的单一性的故障指标信息,然后根据故障指标信息和故障树,得到故障原因,实现根据故
障指标信息和故障树对故障进行根因分析,得到较精准的故障原因,然后根据故障原因,对故障进行处理,可以精准快速的对故障进行处理
。
附图说明
[0039]通过以下参照附图对本公开实施例的描述,本公开的上述内容以及其他目的
、
特征和优点将更为清楚,在附图中:
[0040]图1示意性示出了根据本公开实施例的处理系统故障的方法的应用场景图;
[0041]图2示意性示出了根据本公开实施例的处理系统故障的方法的流程图;
[0042]图3示意性示出了根据本公开实施例的处理系统故障的系统的示意图;
[0043]图4示意性示出了根据本公开实施例的处理系统故障的装置的结构框图;以及
[0044]图5示意性示出了根据本公开实施例的适于实现处理系统故障的方法的电子设备的方框图
。
具体实施方式
[0045]以下,将参照附图来描述本公开的实施例
。
但是应该理解,这些描述只是示例性的,而并非要限制本公开的本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.
一种处理系统故障的方法,包括:获取与子系统对应的目标告警信息,其中,所述目标告警信息包括单指标信息和多指标信息;获取与所述单指标信息和所述多指标信息分别对应的预设阈值;根据所述预设阈值,对所述单指标信息和所述多指标信息进行分析,得到故障指标信息;根据所述故障指标信息和故障树,得到故障原因,其中,所述故障树包括与各个指标信息对应的故障原因;根据所述故障原因,对所述故障进行处理
。2.
根据权利要求1所述的方法,其中,所述获取与所述单指标信息和所述多指标信息分别对应的预设阈值包括:针对单指标信息和所述多指标信息中的每个目标指标信息,获取与所述目标指标信息对应的历史异常指标信息;将所述历史异常指标信息划分为多个子序列;对所述多个子序列进行特征提取,得到特征向量;利用半监督学习算法对所述特征向量进行特征处理,得到与所述目标指标信息对应的预设阈值
。3.
根据权利要求1或2所述的方法,其中,所述预设阈值包括与所述单指标信息对应的第一阈值,所述根据所述预设阈值,对所述单指标信息和所述多指标信息进行分析,得到故障指标信息包括:在所述单指标信息在第一阈值范围内的情况下,将所述单指标信息确定为所述故障指标信息
。4.
根据权利要求1或2所述的方法,其中,所述预设阈值包括与所述多指标信息包括的每个指标信息分别对应的第二阈值,所述根据所述预设阈值,对所述单指标信息和所述多指标信息进行分析,得到故障指标信息包括:在多指标信息包括的每个指标信息信息均在与所述每个指标信息信息各自对应的第二阈值范围内的情况下,将所述多指标信息确定为所述故障指标信息
。5.
根据权利要求1所述的方法,其中,所述获取与子系统对应的目标告警信息包括:获取与所述子系统对应的原始告警信息;利用有监督学习算法对所述原...
【专利技术属性】
技术研发人员:朱孟祺,李杰超,肖瑶,蒋佳维,李学智,
申请(专利权)人:建信金融科技有限责任公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。