System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于服务器的硬盘共模故障分析方法、装置、设备、介质制造方法及图纸_技高网

基于服务器的硬盘共模故障分析方法、装置、设备、介质制造方法及图纸

技术编号:44625949 阅读:4 留言:0更新日期:2025-03-17 18:23
本发明专利技术涉及磁盘技术领域,公开了一种基于服务器的硬盘共模故障分析方法、装置、设备、介质,该方法包括:根据预收集的服务器的硬盘的类型与故障模式数据,确定故障相关部件;基于故障相关部件,确定主要故障因子;分析主要故障因子,建立与主要故障因子对应的故障模型,并基于故障模型确定服务器的共模故障因子。本发明专利技术的方案通过对服务器的硬盘的类型与故障模式进行分类,以硬盘共模故障的角度出发,通过对硬盘工作环境和使用模式的深入分析,有效地识别潜在的故障因子,并基于对主要故障因子的分析,针对主要故障因子分别建立对应的故障模型,从而实现共模失效风险的分析,提高识别潜在问题的能力,为后续可采取针对性的预防措施提供数据基础。

【技术实现步骤摘要】

本专利技术涉及磁盘,具体涉及一种基于服务器的硬盘共模故障分析方法、装置、设备、介质


技术介绍

1、随着云计算、人工智能和大数据等新兴产业的快速发展,服务器行业也进入了一个快速发展的阶段。越来越多的公司和行业开始建设自己的机房,机架式服务器因此得到了广泛应用。在这些服务器中,硬盘作为关键部件,其可靠性至关重要。根据某云服务厂商的统计数据,hdd(机械硬盘,hard disk drive)的平均年故障率约为1.4%,ssd(固态硬盘,solid state drive)的平均年故障率则为1%左右。硬盘作为数据存储的主要载体,其故障可能导致业务延迟或中断、系统卡顿或宕机,甚至可能导致关键数据的不可恢复丢失。

2、在相关技术中,对于硬盘故障的预测,往往关注于某个硬盘单体的故障或者寿命进行预测,主要通过监控硬盘自身s.m.a.r.t(自动检测分析及报告技术,self-monitoringanalysis and report technology)参数,使用离线训练确定的算法和模型进行预测,预测硬盘未来发生故障的时间或概率实现。然而,相关技术中对故障发生的具体原因分析不足,尤其是在面对同一客户或机房中硬盘批量故障的情况下,缺乏共模失效风险的分析,欠缺识别潜在问题的能力,无法为故障预防措施、研发设计和测试完善提供有力支撑。


技术实现思路

1、有鉴于此,本专利技术提供了一种基于服务器的硬盘共模故障分析方法、装置、设备、介质,以解决缺乏公模风险分析与潜在问题识别的技术问题。

<p>2、第一方面,本专利技术提供了一种基于服务器的硬盘共模故障分析方法,方法包括:根据预收集的服务器的硬盘的类型与故障模式数据,确定故障相关部件; 基于故障相关部件,确定主要故障因子;分析主要故障因子,建立与主要故障因子对应的故障模型,并基于所述故障模型确定待测服务器的共模故障因子。

3、结合第一方面,在第一方面的一种可能的实现方式中,根据服务器的硬盘的类型与故障模式,确定故障相关部件,包括:基于服务器的硬盘的类型和硬盘的部件的功能类别,确定第一模块、第二模块以及第三模块;基于第一模块、第二模块、第三模块的故障模式,分别确定与第一模块、第二模块、第三模块对应的故障相关部件。

4、结合第一方面,在第一方面的一种可能的实现方式中,基于故障相关部件,确定主要故障因子,包括:分别基于第一模块、第二模块、第三模块对应的故障相关部件,确定每个模块对应故障相关部件的影响因素以及影响因素之间的关联关系;分别基于每个模块对应的关联关系与影响因素,确定对应模块的主要故障因子。

5、结合第一方面,在第一方面的一种可能的实现方式中,分别基于每个模块对应的关联关系与影响因素,确定对应模块的主要故障因子,包括:基于与第一模块的影响因素之间的关联关系,筛选与第一模块对应的影响因素,确定其中的主要影响因素;分析主要影响因素,确定产生主要影响因素的第一影响因子;基于主要影响因素与第一影响因子,确定与第一模块对应的主要故障因子。

6、结合第一方面,在第一方面的一种可能的实现方式中,分别基于每个模块对应的关联关系与影响因素,确定对应模块的主要故障因子,包括:基于与第二模块的影响因素之间的关联关系,分析与第二模块对应的影响因素,确定与第二模块对应的主要故障因子。

7、结合第一方面,在第一方面的一种可能的实现方式中,分别基于每个模块对应的关联关系与影响因素,确定对应模块的主要故障因子,包括:基于与第三模块的影响因素之间的关联关系,确定与服务器的工作环境相符的环境因素;基于环境因素,确定与第三模块对应的主要故障因子。

8、结合第一方面,在第一方面的一种可能的实现方式中,分析主要故障因子,建立与主要故障因子对应的故障模型,包括:分析主要故障因子,确定与主要故障因子对应的参数信息的类型;响应于主要故障因子对应的参数信息具有对应阈值,分别基于对应阈值建立与主要故障因子对应的故障判定模型;响应于主要故障因子对应的参数信息不具有对应阈值,分别基于主要故障因子对应的参数信息建立与主要故障因子对应的故障物理模型。

9、结合第一方面,在第一方面的一种可能的实现方式中,主要故障因子对应的参数信息包括:磁头飞行高度,所述分别基于对应阈值建立与主要故障因子对应的故障判定模型的步骤包括:

10、通过如下公式建立与磁头飞行高度对应的故障判定模型:

11、

12、其中, hfafh-t表示磁头飞行高度阈值,表示第 i个磁盘的第 j个磁头的飞行高度,表示第 i个磁盘所有磁头的平均飞行高度, a表示参数离差。

13、结合第一方面,在第一方面的一种可能的实现方式中,主要故障因子对应的参数信息包括:坏扇区数量,所述分别基于对应阈值建立与主要故障因子对应的故障判定模型的步骤包括:

14、通过如下公式建立与坏扇区数量对应的故障判定模型:

15、

16、其中, hglist-t表示坏扇区数量阈值,表示第 i个磁盘的坏扇区数量,表示第 i个磁盘 t2时刻的坏扇区数量,表示第 i个磁盘 t1时刻的坏扇区数量, b表示参数离差。

17、结合第一方面,在第一方面的一种可能的实现方式中,主要故障因子对应的参数信息包括:高频振动,所述分别基于对应阈值建立与主要故障因子对应的故障判定模型的步骤包括:

18、通过如下公式建立与高频振动对应的故障判定模型:

19、

20、其中, hfre-t表示高频振动阈值,表示磁盘的振动频率。

21、结合第一方面,在第一方面的一种可能的实现方式中,主要故障因子对应的参数信息包括:冲击,所述分别基于对应阈值建立与主要故障因子对应的故障判定模型的步骤包括:

22、通过如下公式建立与冲击对应的故障判定模型:

23、

24、其中, hg-t表示冲击阈值,表示磁盘的冲击 g值。

25、结合第一方面,在第一方面的一种可能的实现方式中,主要故障因子对应的参数信息包括:电压,所述分别基于所述主要故障因子对应的参数信息建立与主要故障因子对应的故障物理模型的步骤包括:

26、通过如下公式建立与浮栅氧化层退化对应的故障物理模型:

27、

28、其中, aftddb表示与浮栅氧化层退化对应的故障物理模型本文档来自技高网...

【技术保护点】

1.一种基于服务器的硬盘共模故障分析方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述根据服务器的硬盘的类型与故障模式,确定故障相关部件,包括:

3.根据权利要求2所述的方法,其特征在于,所述基于所述故障相关部件,确定主要故障因子,包括:

4.根据权利要求3所述的方法,其特征在于,所述分别基于每个模块对应的所述关联关系与所述影响因素,确定对应模块的主要故障因子,包括:

5.根据权利要求3所述的方法,其特征在于,所述分别基于每个模块对应的所述关联关系与所述影响因素,确定对应模块的主要故障因子,包括:

6.根据权利要求3所述的方法,其特征在于,所述分别基于每个模块对应的所述关联关系与所述影响因素,确定对应模块的主要故障因子,包括:

7.根据权利要求1所述的方法,其特征在于,所述分析所述主要故障因子,建立与主要故障因子对应的故障模型,包括:

8.根据权利要求7所述的方法,其特征在于,所述主要故障因子对应的参数信息包括:磁头飞行高度,所述分别基于对应阈值建立与主要故障因子对应的故障判定模型的步骤包括:

9.根据权利要求7所述的方法,其特征在于,所述主要故障因子对应的参数信息包括:坏扇区数量,所述分别基于对应阈值建立与主要故障因子对应的故障判定模型的步骤包括:

10.根据权利要求7所述的方法,其特征在于,所述主要故障因子对应的参数信息包括:高频振动,所述分别基于对应阈值建立与主要故障因子对应的故障判定模型的步骤包括:

11.根据权利要求7所述的方法,其特征在于,所述主要故障因子对应的参数信息包括:冲击,所述分别基于对应阈值建立与主要故障因子对应的故障判定模型的步骤包括:

12.根据权利要求7所述的方法,其特征在于,所述主要故障因子对应的参数信息包括:电压,所述分别基于所述主要故障因子对应的参数信息建立与主要故障因子对应的故障物理模型的步骤包括:

13.根据权利要求7所述的方法,其特征在于,所述主要故障因子对应的参数信息包括:电流,所述分别基于所述主要故障因子对应的参数信息建立与主要故障因子对应的故障物理模型的步骤包括:

14.根据权利要求7所述的方法,其特征在于,所述主要故障因子对应的参数信息包括:温度,所述分别基于所述主要故障因子对应的参数信息建立与主要故障因子对应的故障物理模型的步骤包括:

15.根据权利要求1所述的方法,其特征在于,所述基于所述故障模型确定待测服务器的共模故障因子的步骤包括:

16.根据权利要求15所述的方法,其特征在于,所述获取待测服务器与所述主要故障因子对应的参数信息,包括:

17.一种基于服务器的硬盘共模故障分析装置,其特征在于,所述装置包括:

18.根据权利要求17所述的装置,其特征在于,所述装置,还包括:

19.一种计算机设备,其特征在于,包括:

20.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机指令,所述计算机指令用于使计算机执行权利要求1至16中任一项所述的基于服务器的硬盘共模故障分析方法。

...

【技术特征摘要】

1.一种基于服务器的硬盘共模故障分析方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述根据服务器的硬盘的类型与故障模式,确定故障相关部件,包括:

3.根据权利要求2所述的方法,其特征在于,所述基于所述故障相关部件,确定主要故障因子,包括:

4.根据权利要求3所述的方法,其特征在于,所述分别基于每个模块对应的所述关联关系与所述影响因素,确定对应模块的主要故障因子,包括:

5.根据权利要求3所述的方法,其特征在于,所述分别基于每个模块对应的所述关联关系与所述影响因素,确定对应模块的主要故障因子,包括:

6.根据权利要求3所述的方法,其特征在于,所述分别基于每个模块对应的所述关联关系与所述影响因素,确定对应模块的主要故障因子,包括:

7.根据权利要求1所述的方法,其特征在于,所述分析所述主要故障因子,建立与主要故障因子对应的故障模型,包括:

8.根据权利要求7所述的方法,其特征在于,所述主要故障因子对应的参数信息包括:磁头飞行高度,所述分别基于对应阈值建立与主要故障因子对应的故障判定模型的步骤包括:

9.根据权利要求7所述的方法,其特征在于,所述主要故障因子对应的参数信息包括:坏扇区数量,所述分别基于对应阈值建立与主要故障因子对应的故障判定模型的步骤包括:

10.根据权利要求7所述的方法,其特征在于,所述主要故障因子对应的参数信息包括:高频振动,所述分别基于对应阈值建立与主要故障因子对应的故障判定模型的步骤包括:

<...

【专利技术属性】
技术研发人员:薛奎娇王守昊
申请(专利权)人:浪潮商用机器有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1