存储集群运行状态的预测方法及装置制造方法及图纸

技术编号:36574160 阅读:52 留言:0更新日期:2023-02-04 17:31
本申请实施例提供了一种存储集群运行状态的预测方法及装置,其中,该方法包括:检测分布式存储集群中的IO业务阻塞事件;在检测到分布式存储集群中发生IO业务阻塞事件的情况下,获取发生IO业务阻塞事件的目标存储节点的运行数据;根据运行数据预测目标存储节点在当前时刻之后的目标时间段存在阻塞风险的目标风险等级;根据目标风险等级预测分布式存储集群在目标时间段的目标运行状态。通过本申请,解决相关技术中对分布式存储集群运行状态的监测的效率较低问题,达到提高对分布式存储集群运行状态的监测效率效果。运行状态的监测效率效果。运行状态的监测效率效果。

【技术实现步骤摘要】
存储集群运行状态的预测方法及装置


[0001]本申请实施例涉及计算机领域,具体而言,涉及一种存储集群运行状态的预测方法及装置。

技术介绍

[0002]随着云计算、大数据等新型技术的发展,各种应用的数据量的不断增大,分布式存储系统作为海量数据存储的场景越来越多,存储的性能要求也越来越高。软件应用对分布式存储系统的性能指标要求主要体现在延迟、带宽、IOPS(Input/Output Operations Per Second,用于计算机存储设备性能测试的量测方法)等方面,而这些指标压力过大时,通常会表现出分布式存储系统中产生IO(Input/Output,输入/输出)阻塞情况,当分布式存储系统中产生大量IO阻塞,而不能尽快疏散时,直接影响前端应用的数据写入,产生读写报错,严重的还会出现业务宕机,数据丢失的情况。但目前,管理人员只有在分布式存储系统出现非常严重的IO阻塞进而导致分布式存储系统宕机的情况下,才得知分布式存储系统存在非常严重的IO阻塞,才会对宕机的分布式存储系统进行维护,这也对分布式存储系统上的业务数据造成了影响,因此,如何有效的对分布式存储系统的运行状态进行监测是行业内技术人员急需解决的技术问题。

技术实现思路

[0003]本申请实施例提供了一种存储集群运行状态的预测方法及装置,以至少解决相关技术中对分布式存储集群运行状态的监测的效率较低的问题。
[0004]根据本申请的一个实施例,提供了一种存储集群运行状态的预测方法,包括:检测分布式存储集群中的IO业务阻塞事件;在检测到所述分布式存储集群中发生所述IO业务阻塞事件的情况下,获取发生所述IO业务阻塞事件的目标存储节点的运行数据,其中,所述运行数据用于指示所述目标存储节点在发生所述IO业务阻塞事件的当前时刻对IO业务的处理情况;根据所述运行数据预测所述目标存储节点在所述当前时刻之后的目标时间段存在阻塞风险的目标风险等级,其中,所述目标风险等级用于指示所述目标存储节点在所述目标时间段发生所述IO业务阻塞事件的概率;根据目标风险等级预测所述分布式存储集群在所述目标时间段的目标运行状态。
[0005]可选的,所述根据所述运行数据预测所述目标存储节点在所述当前时刻之后的目标时间段存在阻塞风险的目标风险等级,包括:根据所述运行数据确定所述目标存储节点中包括的具有目标硬盘属性的硬盘的目标硬盘数量,以及所述目标存储节点中部署的CPU(central processing unit,中央处理器)的目标负载参数,其中,具有所述目标硬盘属性的硬盘对IO业务的处理能力低于目标处理能力,所述目标负载参数用于指示所述目标存储节点中部署的CPU的负载情况;根据所述目标硬盘数量和所述目标负载参数预测所述目标风险等级。
[0006]可选的,所述根据所述运行数据确定所述目标存储节点中包括的具有目标硬盘属
性的硬盘的目标硬盘数量,以及所述目标存储节点中部署的CPU的目标负载参数,包括:从所述运行数据所包括的参考硬盘中统计具有所述目标硬盘属性的硬盘的所述目标硬盘数量,其中,所述参考硬盘为所述目标存储节点中产生所述IO业务阻塞事件的硬盘;根据所述运行数据所包括的所述目标存储节点的业务负载计算所述目标存储节点中部署的CPU在所述当前时刻的目标平均负载作为所述目标负载参数。
[0007]可选的,所述从所述运行数据所包括的参考硬盘中统计具有所述目标硬盘属性的硬盘的所述目标硬盘数量,包括:从所述参考硬盘中统计具有故障属性的硬盘的第一硬盘数量,和/或,从所述参考硬盘中统计具有目标处理速率的硬盘的第二硬盘数量,其中,所述目标处理速率低于目标速率阈值;将所述第一硬盘数量,所述第二硬盘数量,或者,所述第一硬盘数量与所述第二硬盘数量的和值确定为所述目标硬盘数量。
[0008]可选的,所述根据所述目标硬盘数量和所述目标负载参数预测所述目标风险等级,包括:获取具有对应关系的硬盘数量区间,平均负载区间和风险等级,其中,所述具有对应关系的硬盘数量区间,平均负载区间和风险等级是根据历史产生的所述IO业务阻塞事件的数据构建的;从所述具有对应关系的硬盘数量区间,平均负载区间和风险等级中查找与所述目标硬盘数量和所述目标平均负载对应的所述目标风险等级。
[0009]可选的,所述从所述具有对应关系的硬盘数量区间,平均负载区间和风险等级中查找与所述目标硬盘数量和所述目标平均负载对应的所述目标风险等级,包括:在所述目标硬盘数量小于第一阈值,所述目标平均负载小于第二阈值的情况下,确定所述目标风险等级为第一风险等级;在所述目标硬盘数量小于所述第一阈值,所述目标平均负载大于或者等于所述第二阈值的情况下,确定所述目标风险等级为第二风险等级,其中,所述第二风险等级高于所述第一风险等级;在所述目标硬盘数量大于或者等于所述第一阈值,所述目标平均负载小于所述第二阈值的情况下,确定所述目标风险等级为第三风险等级,其中,所述第三风险等级高于或者等于所述第二风险等级;在所述目标硬盘数量大于或者等于所述第一阈值,所述目标平均负载大于或者等于所述第二阈值的情况下,确定所述目标风险等级为第四风险等级,其中,所述第四风险等级高于所述第三风险等级。
[0010]可选的,在所述获取发生所述IO业务阻塞事件的目标存储节点的运行数据之前,所述方法还包括:获取所述IO业务阻塞事件的阻塞事件信息;根据所述阻塞事件信息确定所述分布式存储集群在所述目标时间段内的参考阻塞风险等级。
[0011]可选的,所述根据所述阻塞事件信息确定所述分布式存储集群在所述目标时间段内的所述参考阻塞风险等级,包括:在所述IO业务阻塞事件的事件数量小于第三阈值,并且,所述IO业务阻塞事件的持续时间小于第四阈值的情况下,确定所述参考阻塞风险等级为第一阻塞风险等级,其中,所述阻塞事件信息包括所述事件数量和所述持续时间;在所述IO业务阻塞事件的所述事件数量大于或者等于所述第三阈值,和/或,所述IO业务阻塞事件的所述持续时间大于或者等于第四阈值的情况下,根据所述分布式存储集群中所述IO业务阻塞事件的增长幅度确定所述参考阻塞风险等级,其中,所述阻塞事件信息还包括所述增长幅度。
[0012]可选的,所述根据所述分布式存储集群中所述IO业务阻塞事件的增长幅度确定所述参考阻塞风险等级,包括:在所述增长幅度小于目标幅度的情况下,确定所述参考阻塞风险等级为第二阻塞风险等级,其中,所述第二阻塞风险等级高于所述第一阻塞风险等级;在
所述增长幅度大于或者等于所述目标幅度的情况下,确定所述参考阻塞风险等级为第三阻塞风险等级,其中,所述第三阻塞风险等级高于所述第二阻塞风险等级。
[0013]可选的,所述获取所述IO业务阻塞事件的阻塞事件信息,包括:按照预定查询周期通过grep命令查询目标日志中是否存在目标关键字,得到查询结果,其中,所述目标关键字为与所述IO业务阻塞事件对应的关键字,所述目标日志用于记录所述分布式存储集群的运行状态;根据所述查询结果确定所述阻塞事件信息。
[0014]可选的,在所述按照预定查询周期通过grep命令查询目标日志中是否存在目本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种存储集群运行状态的预测方法,其特征在于,包括:检测分布式存储集群中的IO业务阻塞事件;在检测到所述分布式存储集群中发生所述IO业务阻塞事件的情况下,获取发生所述IO业务阻塞事件的目标存储节点的运行数据,其中,所述运行数据用于指示所述目标存储节点在发生所述IO业务阻塞事件的当前时刻对IO业务的处理情况;根据所述运行数据预测所述目标存储节点在所述当前时刻之后的目标时间段存在阻塞风险的目标风险等级,其中,所述目标风险等级用于指示所述目标存储节点在所述目标时间段发生所述IO业务阻塞事件的概率;根据目标风险等级预测所述分布式存储集群在所述目标时间段的目标运行状态。2.根据权利要求1所述的方法,其特征在于,所述根据所述运行数据预测所述目标存储节点在所述当前时刻之后的目标时间段存在阻塞风险的目标风险等级,包括:根据所述运行数据确定所述目标存储节点中包括的具有目标硬盘属性的硬盘的目标硬盘数量,以及所述目标存储节点中部署的CPU的目标负载参数,其中,具有所述目标硬盘属性的硬盘对IO业务的处理能力低于目标处理能力,所述目标负载参数用于指示所述目标存储节点中部署的CPU的负载情况;根据所述目标硬盘数量和所述目标负载参数预测所述目标风险等级。3.根据权利要求2所述的方法,其特征在于,所述根据所述运行数据确定所述目标存储节点中包括的具有目标硬盘属性的硬盘的目标硬盘数量,以及所述目标存储节点中部署的CPU的目标负载参数,包括:从所述运行数据所包括的参考硬盘中统计具有所述目标硬盘属性的硬盘的所述目标硬盘数量,其中,所述参考硬盘为所述目标存储节点中产生所述IO业务阻塞事件的硬盘;根据所述运行数据所包括的所述目标存储节点的业务负载计算所述目标存储节点中部署的CPU在所述当前时刻的目标平均负载作为所述目标负载参数。4.根据权利要求3所述的方法,其特征在于,所述从所述运行数据所包括的参考硬盘中统计具有所述目标硬盘属性的硬盘的所述目标硬盘数量,包括:从所述参考硬盘中统计具有故障属性的硬盘的第一硬盘数量,和/或,从所述参考硬盘中统计具有目标处理速率的硬盘的第二硬盘数量,其中,所述目标处理速率低于目标速率阈值;将所述第一硬盘数量,所述第二硬盘数量,或者,所述第一硬盘数量与所述第二硬盘数量的和值确定为所述目标硬盘数量。5.根据权利要求3所述的方法,其特征在于,所述根据所述目标硬盘数量和所述目标负载参数预测所述目标风险等级,包括:获取具有对应关系的硬盘数量区间,平均负载区间和风险等级,其中,所述具有对应关系的硬盘数量区间,平均负载区间和风险等级是根据历史产生的所述IO业务阻塞事件的数据构建的;从所述具有对应关系的硬盘数量区间,平均负载区间和风险等级中查找与所述目标硬盘数量和所述目标平均负载对应的所述目标风险等级。6.根据权利要求5所述的方法,其特征在于,所述从所述具有对应关系的硬盘数量区间,平均负载区间和风险等级中查找与所述目标硬盘数量和所述目标平均负载对应的所述
目标风险等级,包括:在所述目标硬盘数量小于第一阈值,所述目标平均负载小于第二阈值的情况下,确定所述目标风险等级为第一风险等级;在所述目标硬盘数量小于所述第一阈值,所述目标平均负载大于或者等于所述第二阈值的情况下,确定所述目标风险等级为第二风险等级,其中,所述第二风险等级高于所述第一风险等级;在所述目标硬盘数量大于或者等于所述第一阈值,所述目标平均负载小于所述第二阈值的情况下,确定所述目标风险等级为第三风险等级,其中,所述第三风险等级高于或者等于所述第二风险等级;在所述目标硬盘数量大于或者等于所述第一阈值,所述目标平均负载大于或者等于所述第二阈值的情况下,确定所述目标风险等级为第四风险等级,其中,所述第四风险等级高于所述第三风险等级。7.根据权利要求1所述的方法,其特征在于,在所述获取发生所述IO业务阻塞事件的目标存储节点的运行数据之前,所述方法还包括:获取所述IO业务阻塞事件的阻塞事件信息;根据所述阻塞事件信息确定所述分布式存储集群在所述目标时间段内的参考阻塞风险等级。8.根据权利要求7所述的方法,其特征在于,所述根据所述阻塞事件信息确定所述分布式存储集群在所述目标时间段内的所述参考阻塞风险等级,包括:在所述IO业务阻塞事件的事件数量小于第三阈值,并且,所述IO业务阻塞事件的持续时间小于第四阈值的情况下,确定所述参考阻塞风险等级为第一阻塞风险等级,其中,所述阻塞事件信息包括所述事件数量和所述持续时间;在所述IO业务阻塞事件的所述事件数量大于或者等于所述第三阈值,和/或,所述IO业务阻塞事件的所述持续时间大于或者等于第四阈值的情况下,根据所述分布式存储集群中所述IO业务阻塞事件的增长幅度确定所述参考阻塞风险等级,其中,所述阻塞事件信息还包括所述增长幅度。9.根据权利要求8所述的方法,其特征在于,所述根据所述分布式存储集群中所述IO业务阻塞事件的增长幅度确定所述参考阻塞风险等级,包括:在所述增长幅度小于目标幅度的情况下,确定所述参考阻塞风险等级为第二阻塞风险等级,其中,所述第二阻塞风险等级高于所述第一阻塞风险等级;在所述增长幅度大于或者等于所述目标幅度的情况下,确定所述参考阻塞风险等级为第三阻塞风险等级,其中,所述第三阻塞风险等级高于所述第二阻塞风...

【专利技术属性】
技术研发人员:黄远超
申请(专利权)人:苏州浪潮智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1