故障设备排查方法、装置、存储介质和数据中心制造方法及图纸

技术编号:33132240 阅读:36 留言:0更新日期:2022-04-17 00:51
本申请公开了一种故障设备排查方法、装置、存储介质和数据中心,对日志告警进行解析,得到发生告警的设备,并将发生告警的设备,标识为告警设备。依据告警设备以及关系链,确定受告警设备影响的设备。将告警设备以及受告警设备影响的设备,均标识为目标设备。运行健康检查脚本,得到目标设备的状态。在确定目标设备的状态为故障的情况下,运行故障隔离脚本,使得目标设备与其它设备隔离开来。在确定目标设备维护结束后,运行故障恢复脚本,使得目标设备回归工作。相较于现有技术,无需用户人工访问各个管理系统进行故障设备的追溯排查,并还能为人工维护故障设备提供方便,可见,本申请所示方案能够有效提高故障设备的排查效率以及维护效率。以及维护效率。以及维护效率。

【技术实现步骤摘要】
故障设备排查方法、装置、存储介质和数据中心


[0001]本申请涉及数据库
,尤其涉及一种故障设备排查方法、装置、存储介质和数据中心。

技术介绍

[0002]大型企业级数据中心通常采用网络管理系统、存储管理系统、云管理平台、应用运营运维平台、配置管理系统、监控系统、性能和日志管理系统等不同管理系统来管理数据中心网络、存储、主机、应用、基础配置、监控告警和日志性能等不同领域,安排不同人员维护这些管理系统,并处理相关告警。此外,这些管理系统并非相互隔离,彼此之间存在很大关联性。
[0003]目前,无论是数据中心的主机、存储、网络出现报错或告警,当前处置方法是对受其影响的主机、存储设备、设备、应用进行检查或故障隔离,具体的,不同领域运维人员通过各个领域的管理系统进行运维处置,遇到关联场景需要协查处置时,需要拉应急处置会议,不同领域共享处置信息进行协查处置,由于数据中心规模庞大,涉及相关领域运维处置时,必须人为进行相互协调,尤其针对故障设备的排查,其排查效率显得十分低下。

技术实现思路

[0004]本申请提供了一种故障设备排查方法、装置、存储介质和数据中心,目的在于提高故障设备的排查效率。
[0005]为了实现上述目的,本申请提供了以下技术方案:
[0006]一种故障设备排查方法,包括:
[0007]从各个管理系统中获取系统数据;所述系统数据包括结构化数据和非结构化数据;所述结构化数据包括各个设备之间的对应关系;所述非结构化数据包括日志告警;
[0008]对所述日志告警进行解析,得到发生告警的设备,并将所述发生告警的设备,标识为告警设备;
[0009]依据所述告警设备以及关系链,确定受所述告警设备影响的设备;所述关系链基于所述各个设备之间的对应关系所确定;
[0010]将所述告警设备以及所述受所述告警设备影响的设备,均标识为目标设备;
[0011]对于每个所述目标设备,从预先构建的脚本库中,获取与所述目标设备对应的健康检查脚本、故障隔离脚本、故障恢复脚本;
[0012]运行所述健康检查脚本,得到所述目标设备的状态;
[0013]在确定所述目标设备的状态为故障的情况下,运行所述故障隔离脚本,使得所述目标设备与其它设备隔离开来;
[0014]在确定所述目标设备维护结束后,运行所述故障恢复脚本,使得所述目标设备回归工作。
[0015]可选的,所述各个设备之间的对应关系包括:主机和应用的对应关系,服务器和主
机的对应关系,交换机和物理机的端口的对应关系,存储和主机的对应关系,存储和SAN交换机的对应关系,交换机和主机的位置的对应关系,物理机和虚拟机的对应关系,应用和容器的对应关系,容器、pod以及主机的对应关系,以及主机和网络的对应关系;
[0016]所述基于所述各个设备之间的对应关系,确定所述关系链的过程,包括:
[0017]基于所述主机和应用的对应关系、所述存储和主机的对应关系、所述主机和应用的对应关系、所述存储和SAN交换机的对应关系、所述存储和主机的对应关系、所述主机和应用的对应关系,生成第一关系链;所述第一关系链包括存储、主机、应用的对应关系,存储、存储端口、交换机端口、主机端口、主机、应用的对应关系,网络附属存储、卷、主机的对应关系,以及云文件存储、卷、主机的对应关系;
[0018]基于所述交换机和主机的位置的对应关系、所述主机和应用的对应关系、所述交换机和物理机的端口的对应关系,生成第二关系链;所述第二关系链包括核心交换机、汇聚交换机、汇接交换机、架顶交换机、主机端口、主机、应用的对应关系;
[0019]基于所述主机和应用的对应关系、所述物理机和虚拟机的对应关系,生成第三关系链;所述第三关系链包括应用、虚拟机、物理机、网络的对应关系,以及应用、虚拟机、物理机、存储的对应关系;
[0020]基于所述应用和容器的对应关系、所述容器、pod以及主机的对应关系、所述存储和主机的对应关系,生成第四关系链;所述第四关系链包括应用、容器、pod、主机、存储的对应关系;
[0021]基于所述应用和容器的对应关系、所述容器、pod以及主机的对应关系、所述主机和网络的对应关系,生成第五关系链;所述第五关系链包括应用、容器、pod、主机、网络的对应关系。
[0022]可选的,所述依据所述告警设备以及关系链,确定受所述告警设备影响的设备,包括:
[0023]在所述告警设备的类型为存储的情况下,基于所述第一关系链所示的对应关系,确定受所述告警设备影响的存储端口、交换机端口、主机端口、主机、卷以及应用;
[0024]在所述告警设备的类型为网络的情况下,基于所述第二关系链所示的对应关系,确定受所述告警设备影响的存储、主机、主机端口以及应用;
[0025]在所述告警设备的类型为虚拟机的情况下,基于所述第三关系链所示的对应关系,确定受所述告警设备影响的应用、物理机、网络以及存储;
[0026]在所述告警设备的类型为容器的情况下,基于所述第四关系链所示的对应关系,确定受所述告警设备影响的应用、pod、主机以及存储;
[0027]在所述告警设备的类型为容器的情况下,基于所述第五关系链所示的对应关系,确定受所述告警设备影响的应用、pod、主机以及网络。
[0028]可选的,所述脚本库的预先构建过程,包括:
[0029]获取各个所述设备的预设健康检查流程、预设故障隔离流程、预设故障恢复流程;
[0030]依据每个所述设备的预设健康检查流程,生成与每个所述设备对应的健康检查脚本;
[0031]依据每个所述设备的预设故障隔离流程,生成与每个所述设备对应的故障隔离脚本;
[0032]依据每个所述设备的预设故障恢复流程,生成与每个所述设备对应的故障恢复脚本;
[0033]基于与每个所述设备对应的健康检查脚本、故障隔离脚本、故障恢复脚本,构建脚本库。
[0034]可选的,所述非结构化数据还包括每个所述设备的配置信息;
[0035]所述从各个管理系统中获取系统数据之后,还包括:
[0036]对于每个所述设备,对所述设备的配置信息进行分析,得到所述设备的配置分析结果;
[0037]在所述设备的配置分析结果指示所述设备的配置参数不合理的情况下,向用户发送所述设备配置不合理的提示。
[0038]可选的,所述非结构化数据还包括每个所述设备的性能信息;
[0039]所述从各个管理系统中获取系统数据之后,还包括:
[0040]对于每个所述设备,对所述设备的性能信息进行分析,得到所述设备的性能参数;
[0041]在所述设备的性能参数小于预设阈值的情况下,向用户发送所述设备性能不足的提示。
[0042]一种故障设备排查装置,包括:
[0043]数据获取单元,用于从各个管理系统中获取系统数据;所述系统数据包括结构化数据和非结构化数据;所述结构化数据包括各个设备之间的对应关系;所述本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种故障设备排查方法,其特征在于,包括:从各个管理系统中获取系统数据;所述系统数据包括结构化数据和非结构化数据;所述结构化数据包括各个设备之间的对应关系;所述非结构化数据包括日志告警;对所述日志告警进行解析,得到发生告警的设备,并将所述发生告警的设备,标识为告警设备;依据所述告警设备以及关系链,确定受所述告警设备影响的设备;所述关系链基于所述各个设备之间的对应关系所确定;将所述告警设备以及所述受所述告警设备影响的设备,均标识为目标设备;对于每个所述目标设备,从预先构建的脚本库中,获取与所述目标设备对应的健康检查脚本、故障隔离脚本、故障恢复脚本;运行所述健康检查脚本,得到所述目标设备的状态;在确定所述目标设备的状态为故障的情况下,运行所述故障隔离脚本,使得所述目标设备与其它设备隔离开来;在确定所述目标设备维护结束后,运行所述故障恢复脚本,使得所述目标设备回归工作。2.根据权利要求1所述的方法,其特征在于,所述各个设备之间的对应关系包括:主机和应用的对应关系,服务器和主机的对应关系,交换机和物理机的端口的对应关系,存储和主机的对应关系,存储和SAN交换机的对应关系,交换机和主机的位置的对应关系,物理机和虚拟机的对应关系,应用和容器的对应关系,容器、pod以及主机的对应关系,以及主机和网络的对应关系;所述基于所述各个设备之间的对应关系,确定所述关系链的过程,包括:基于所述主机和应用的对应关系、所述存储和主机的对应关系、所述主机和应用的对应关系、所述存储和SAN交换机的对应关系、所述存储和主机的对应关系、所述主机和应用的对应关系,生成第一关系链;所述第一关系链包括存储、主机、应用的对应关系,存储、存储端口、交换机端口、主机端口、主机、应用的对应关系,网络附属存储、卷、主机的对应关系,以及云文件存储、卷、主机的对应关系;基于所述交换机和主机的位置的对应关系、所述主机和应用的对应关系、所述交换机和物理机的端口的对应关系,生成第二关系链;所述第二关系链包括核心交换机、汇聚交换机、汇接交换机、架顶交换机、主机端口、主机、应用的对应关系;基于所述主机和应用的对应关系、所述物理机和虚拟机的对应关系,生成第三关系链;所述第三关系链包括应用、虚拟机、物理机、网络的对应关系,以及应用、虚拟机、物理机、存储的对应关系;基于所述应用和容器的对应关系、所述容器、pod以及主机的对应关系、所述存储和主机的对应关系,生成第四关系链;所述第四关系链包括应用、容器、pod、主机、存储的对应关系;基于所述应用和容器的对应关系、所述容器、pod以及主机的对应关系、所述主机和网络的对应关系,生成第五关系链;所述第五关系链包括应用、容器、pod、主机、网络的对应关系。3.根据权利要求2所述的方法,其特征在于,所述依据所述告警设备以及关系链,确定
受所述告警设备影响的设备,包括:在所述告警设备的类型为存储的情况下,基于所述第一关系链所示的对应关系,确定受所述告警设备影响的存储端口、交换机端口、主机端口、主机、卷以及应用;在所述告警设备的类型为网络的情况下,基于所述第二关系链所示的对应关系,确定受所述告警设备影响的存储、主机、主机端口以及应用;在所述告警设备的类型为虚拟机的情况下,基于所述第三关系链所示的对应关系,确定受所述告警设备影响的应用、物理机、网络以及存储;在所述告警设备的类型为...

【专利技术属性】
技术研发人员:徐凯
申请(专利权)人:中国建设银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1