一种慢盘检测方法及设备技术

技术编号:38632673 阅读:10 留言:0更新日期:2023-08-31 18:30
本申请实施例公开一种慢盘检测方法及设备,方法包括:获取目标设备的设备输入输出IO服务时间,设备IO服务时间包括N1个盘符中每个盘符对应的IO服务时间;基于设备IO服务时间和K1个聚类中心,确定K1个距离;K1和N1为正整数;一个聚类中心对应一个慢盘检测阈值;从K1个距离中确定目标距离,从K1个聚类中心中确定目标距离对应的目标聚类中心,并确定目标聚类中心对应的目标慢盘检测阈值;基于目标慢盘检测阈值和各盘符对应的IO服务时间,对目标设备中各盘符所标识的硬盘或者逻辑硬盘进行慢盘检测。通过本申请实施例可以提升慢盘识别的准确性。通过本申请实施例可以提升慢盘识别的准确性。通过本申请实施例可以提升慢盘识别的准确性。

【技术实现步骤摘要】
一种慢盘检测方法及设备


[0001]本申请涉及服务器
,尤其涉及一种慢盘检测方法及设备。

技术介绍

[0002]在各行业数字化转型不断深入的背景下,业务高可用性及连续性需求愈加明显。作为提供算力的基础设施,计算设备的运行状态的异常将直接对上层业务带来冲击。以计算设备为服务器为例,目前,服务器硬件故障将由基板管理控制器(Baseboard Management Controller,BMC)准确检测且及时告警,现场运维人员根据告警进行快速地隔离及更换处理。
[0003]在这个过程中,服务器中的盘符所标识的硬盘或者磁盘阵列性能的异常下跌同样会严重拖慢整个业务的正常运行,对于实时性较强的业务场景会造成十分严重的影响,而由于硬盘或者磁盘阵列的磁性退化、坏道或振动等原因,硬盘或者磁盘阵列会出现输入输出(IO,Input/out)响应慢、性能降低等问题,这种硬盘或者磁盘阵列就会被称为慢盘,慢盘并非坏盘;因此,传统的BMC故障检测及告警方案已无法覆盖慢盘场景,且传统的磁盘阵列卡(RAID,Redundant Arrays of Independent Disks)和南桥(Platform Controller Hub,PCH)仅能实现对盘符所标识的硬盘或者磁盘阵列对应的成员盘的运行状态进行判断和上报,无法对慢盘场景作出准确识别。

技术实现思路

[0004]本申请实施例提供了一种慢盘检测方法及设备,可以提升慢盘识别的准确性。
[0005]第一方面,本申请实施例提供了一种慢盘检测方法,该方法包括:获取目标设备的设备输入输出IO服务时间,设备IO服务时间包括N1个盘符中每个盘符对应的IO服务时间;基于设备IO服务时间和K1个聚类中心,确定K1个距离;K1和N1为正整数;一个聚类中心对应一个慢盘检测阈值;从K1个距离中确定目标距离,从K1个聚类中心中确定目标距离对应的目标聚类中心,并确定目标聚类中心对应的目标慢盘检测阈值;基于目标慢盘检测阈值和各盘符对应的IO服务时间,对目标设备中各盘符所标识的硬盘或者逻辑硬盘进行慢盘检测。
[0006]在该技术方案中,可以实现从盘符对应的IO性能的角度对慢盘场景作出准确识别,同时,通过设备IO服务时间与聚类中心之间的距离可以选择合适的目标慢盘检测阈值,解决了慢盘检测阈值单一固化的问题,提升了慢盘检测的精准性和有效性。
[0007]在一种实现方式中,该方法还包括:将M个训练样本输入到聚类模型,得到聚类模型输出的K1个聚类集合以及K1个聚类中心,一个聚类集合对应一个聚类中心;基于K1个聚类中心,生成K1个慢盘检测阈值;其中,M个训练样本中的每个训练样本均包括N1个盘符中每个盘符对应的历史IO服务时间。
[0008]在该技术方案中,通过利用聚类模型生成K1个聚类中心,从而可以实现可差异化定制慢盘检测阈值,解决慢盘检测阈值单一固化的问题,提升了慢盘检测的准确性。此外,
由于聚类模型具备无监督学习特性,因此可以差异化定制不同厂商、不同类型、不同型号的硬盘或者逻辑硬盘在不同场景下的慢盘检测阈值,提升慢盘检测阈值定制的灵活性。
[0009]在一种实现方式中,该方法还包括:将M个第一训练样本输入到聚类模型,得到聚类模型输出的K2个初始聚类集合以及K2个初始聚类中心,一个初始聚类集合对应一个初始聚类中心;K2为正整数;基于K2个初始聚类中心,生成K2个初始慢盘检测阈值;将M个第二训练样本输入到聚类模型,得到聚类模型输出的K1个聚类集合以及K1个聚类中心;K1为正整数;基于K1个聚类中心,生成K1个参考慢盘检测阈值;基于K1个参考慢盘检测阈值,更新K2个初始慢盘检测阈值,得到K1个慢盘检测阈值;其中,每个第一训练样本均包括N2个盘符中每个盘符对应的历史IO服务时间,每个第二训练样本均包括N1个盘符中每个盘符对应的历史IO服务时间,N2均为正整数。
[0010]在该技术方案中,通过对初始慢盘检测阈值进行更新,可以解决硬盘性能变化,硬盘更换以及业务场景变化等情况对慢盘检测标准带来的冲击,从而可以一套可差异化定制、可动态调节的慢盘检测阈值,进而让后续的慢盘检测更具实时性,更加贴合实际,降低慢盘对客户业务造成的影响。
[0011]在一种实现方式中,将M个第二训练样本输入到聚类模型,包括:当K2个初始慢盘检测阈值的生成时间与当前时间之间的时间差大于或等于时间阈值时,将M个第二训练样本输入到聚类模型。
[0012]在一种实现方式中,将M个第二训练样本输入到聚类模型,包括:在检测到目标设备中的盘符对应的属性信息发生变化的情况下,将M个第二训练样本输入到聚类模型;其中,属性信息包括硬盘序列号或者逻辑磁盘的RAID信息,RAID信息包括以下至少一项:逻辑磁盘对应的RAID卡型号、RAID组数量、RAID组级别、RAID组读写策略和RAID组中的成员盘信息。
[0013]在一种实现方式中,将M个第二训练样本输入到聚类模型,包括:
[0014]当接收到检测阈值更新触发指令时,将M个第二训练样本输入到聚类模型。
[0015]在一种实现方式中,目标慢盘检测阈值中包括N1个盘符中每个盘符对应的检测阈值;基于目标慢盘检测阈值和各盘符对应的IO服务时间,对目标设备中各盘符所标识的硬盘或者逻辑硬盘进行慢盘检测,包括:从目标检测阈值中确定目标盘符对应的检测阈值;目标盘符为N1个盘符中的任一盘符;若目标盘符对应的IO服务时间大于目标盘符对应的检测阈值,则基于第二参数的参数值,更新第一参数的参数值,得到第一参数的参数更新值;以及,初始化第二参数的参数值,得到第二参数的参数更新值;第一参数用于表示目标盘符对应的IO服务时间大于目标盘符对应的检测阈值的次数;第二参数用于表示目标盘符正常的次数,目标盘符正常是指目标盘符对应的IO服务时间小于或等于目标盘符对应的检测阈值,且第一参数的参数值大于0;若第一参数的参数更新值大于次数阈值,则确定目标盘符所标识的硬盘或逻辑磁盘为慢盘,次数阈值大于0。
[0016]在该技术方案中,通过引入第一参数和第二参数对各个盘符所标识的硬盘或者逻辑硬盘进行慢盘检测,提升了对盘符检测的准确性,且每次采样到N1个盘符中每个盘符对应的IO服务时间时,均会选取相应合适的目标慢盘检测阈值,实现了慢盘检测阈值的可差异性定制以及解决了慢盘检测阈值单一固化的问题,使得慢盘检测更加具备时效性和准确性。
[0017]在一种实现方式中,该方法还包括:若第一参数的参数更新值小于或等于次数阈值,且第一参数的参数更新值大于或等于0,则继续获取目标设备的设备IO服务时间。
[0018]在一种实现方式中,该方法还包括:若第一参数的参数更新值小于0,则初始化第一参数的参数更新值,并继续获取目标设备的设备IO服务时间。
[0019]在一种实现方式中,该方法还包括:若目标盘符对应的IO服务时间小于或等于目标盘符对应的检测阈值,且第一参数的参数值大于0,则更新第二参数的参数值,得到第二参数的参数更新值,并继续获取目标设备的设备IO服务时间。
[002本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种慢盘检测方法,其特征在于,包括:获取目标设备的设备输入输出IO服务时间,所述设备IO服务时间包括N1个盘符中每个盘符对应的IO服务时间;基于所述设备IO服务时间和K1个聚类中心,确定K1个距离;K1和N1为正整数;一个聚类中心对应一个慢盘检测阈值;从所述K1个距离中确定目标距离,从所述K1个聚类中心中确定所述目标距离对应的目标聚类中心,并确定所述目标聚类中心对应的目标慢盘检测阈值;基于所述目标慢盘检测阈值和各盘符对应的IO服务时间,对所述目标设备中各盘符所标识的硬盘或者逻辑硬盘进行慢盘检测。2.如权利要求1所述的方法,其特征在于,所述方法还包括:将M个训练样本输入到聚类模型,得到所述聚类模型输出的K1个聚类集合以及K1个聚类中心,一个聚类集合对应一个聚类中心;基于所述K1个聚类中心,生成K1个慢盘检测阈值;其中,所述M个训练样本中的每个训练样本均包括所述N1个盘符中每个盘符对应的历史IO服务时间。3.如权利要求1所述的方法,其特征在于,所述方法还包括:将M个第一训练样本输入到聚类模型,得到所述聚类模型输出的K2个初始聚类集合以及K2个初始聚类中心,一个初始聚类集合对应一个初始聚类中心;所述K2为正整数;基于所述K2个初始聚类中心,生成K2个初始慢盘检测阈值;将M个第二训练样本输入到所述聚类模型,得到所述聚类模型输出的K1个聚类集合以及K1个聚类中心;所述K1为正整数;基于所述K1个聚类中心,生成K1个参考慢盘检测阈值;基于所述K1个参考慢盘检测阈值,更新所述K2个初始慢盘检测阈值,得到K1个慢盘检测阈值;其中,每个第一训练样本均包括N2个盘符中每个盘符对应的历史IO服务时间,每个第二训练样本均包括所述N1个盘符中每个盘符对应的历史IO服务时间,N2均为正整数。4.如权利要求1所述的方法,其特征在于,所述目标慢盘检测阈值中包括N1个盘符中每个盘符对应的检测阈值;所述基于所述目标慢盘检测阈值和各盘符对应的IO服务时间,对所述目标设备中各盘符所标识的硬盘或者逻辑硬盘进行慢盘检测,包括:从所述目标检测阈值中确定目标盘符对应的检测阈值;目标盘符为N1个盘符中的任一盘符;若所述目标盘符对应的IO服务时间大于所述目标盘符对应的检测阈值,则基于第二参数的参数值,更新第一参数的参数...

【专利技术属性】
技术研发人员:吕晓喆肖艳林
申请(专利权)人:超聚变数字技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1