故障的预测方法、装置、设备及存储介质制造方法及图纸

技术编号:39418715 阅读:21 留言:0更新日期:2023-11-19 16:08
本申请提供的一种故障的预测方法、装置、设备及存储介质,通过获取集群中节点的节点信息、所述节点的硬件信息及所述节点的硬件的位置信息;将所述节点信息、所述硬件信息和所述位置信息分别进行标准化处理;将标准化处理后的所述节点信息、硬件信息和位置信息输入至预先建立好的目标模型中输出所述节点的内存的故障时间,能够实现对内存故障进行预测,从而可以提前预防故障,优化维护计划。优化维护计划。优化维护计划。

【技术实现步骤摘要】
故障的预测方法、装置、设备及存储介质


[0001]本申请涉及故障预测
,特别地涉及一种故障的预测方法、装置、设备及存储介质。

技术介绍

[0002]在大数据领域中,CDH(Cloudera Distribution of Hadoop)集群已成为一种被广泛采用的大数据处理平台,能够为各类企业和组织提供高效的数据处理和存储能力。然而,集群节点可能会遭遇内存故障等问题,这些问题可能源于硬件缺陷、软件错误、资源竞争或内存泄漏等原因。当集群内存突发故障会对集群的稳定性和服务质量造成重大影响,导致数据丢失、作业失败或服务中断等问题,从而对企业的运营产生负面影响。因此,预测集群不同节点下一次内存故障的时间变得尤为重要。

技术实现思路

[0003]针对上述问题,本申请提供一种故障的预测方法、装置、设备及存储介质,能够实现对内存故障进行预测。
[0004]本申请实施例提供一种故障的预测方法,包括:
[0005]获取集群中节点的节点信息、所述节点的硬件信息及所述节点的硬件的位置信息;
[0006]将所述节点信息、所述硬件信息和所述位置信息分别进行标准化处理;
[0007]将标准化处理后的所述节点信息、硬件信息和位置信息输入至预先建立好的目标模型中输出所述节点的内存的故障时间。
[0008]在一些实施例中,所述方法还包括:
[0009]获取集群中节点的初始样本数据,所述初始样本数据包括:节点的样本节点信息、节点的样本硬件信息、节点的硬件的样本位置信息、节点的内存的样本故障时间;
[0010]对所述初始样本数据进行标准化处理,得到样本数据集;
[0011]将所述样本数据集划分为训练集和测试集;
[0012]基于所述训练集训练多个机器学习模型,得到各个机器学习模型对应的初始模型;
[0013]基于所述测试集从所述初始模型中确定所述目标模型。
[0014]在一些实施例中,所述机器学习模型包括:对抗网络模型和预测模型,所述基于所述训练集训练多个机器学习模型,得到各个机器学习模型对应的初始模型,包括:
[0015]将所述训练集中的样本数据输入至对各个抗网络模型的生成器中生成假样本数据;
[0016]将所述训练集中的样本数据和所述假样本数据输入至对各个抗网络模型的判别器中对数据的真实性进行分类,得到分类数据;
[0017]基于所述分类数据训练各个预测模型,得到各个机器学习模型对应的初始模型。
[0018]在一些实施例中,所述基于所述测试集从所述初始模型中确定所述目标模型,包括:
[0019]将所述测试集中的样本数据输入至各个初始模型中得到各个预测结果;
[0020]基于各个预测结果及对应的样本数据的样本故障时间从所述初始模型中确定目标模型。
[0021]在一些实施例中,所述基于各个预测结果及对应的样本数据的样本故障时间从所述初始模型中确定目标模型,包括:
[0022]求取各个预测结果与对应的样本故障时间之间的均方根误差,得到各个预测结果对应的计算结果;
[0023]将计算结果最小对应的初始模型确定为目标模型。
[0024]在一些实施例中,样本节点信息包括:时间戳、内存使用率、CPU使用率、磁盘使用率、系统进程数和节点服务器的温度,所述样本硬件信息包括:硬件型号、硬件的出厂日期,所述对所述初始样本数据进行标准化处理,包括:
[0025]对时间戳、内存使用率、CPU使用率和磁盘使用率进行Z

score标准化;
[0026]将系统进程数进行Log函数转换;
[0027]对节点服务器的温度进行离散化处理;
[0028]将所述硬件型号、硬件的出厂日期和样本位置信息进行独热编码处理。
[0029]在一些实施例中,所述方法还包括:
[0030]确定所述目标模型的预测准确率是否小于准确率阈值或所述集群的节点的新样本数据与所述初始样本数据的比例是否达到预设比例阈值;
[0031]在所述目标模型的预测准确率小于准确率阈值或所述集群的节点的新样本数据与述初始样本数据的比例达到预设比例阈值的情况下,重新训练模型。
[0032]本申请实施例提供一种故障的预测装置,包括:
[0033]获取模块,用于获取集群中节点的节点信息、所述节点的硬件信息及所述节点的硬件的位置信息;
[0034]标准化处理模块,用于将所述节点信息、所述硬件信息和所述位置信息分别进行标准化处理;
[0035]预测模块,用于将标准化处理后的所述节点信息、硬件信息和位置信息输入至预先建立好的目标模型中输出所述节点的内存的故障时间。
[0036]本申请实施例提供一种电子设备,包括存储器和处理器,所述存储器上存储有计算机程序,该计算机程序被所述处理器执行时,执行上述任意一项所述故障的预测方法。
[0037]本申请实施例提供一种计算机可读存储介质,该计算机可读存储介质存储的计算机程序,能够被一个或多个处理器执行,能够用来实现上述所述故障的预测方法。
[0038]本申请提供的一种故障的预测方法、装置、设备及存储介质,通过获取集群中节点的节点信息、所述节点的硬件信息及所述节点的硬件的位置信息;将所述节点信息、所述硬件信息和所述位置信息分别进行标准化处理;将标准化处理后的所述节点信息、硬件信息和位置信息输入至预先建立好的目标模型中输出所述节点的内存的故障时间,能够实现对内存故障进行预测,从而可以提前预防故障,优化维护计划。
附图说明
[0039]在下文中将基于实施例并参考附图来对本申请进行更详细的描述。
[0040]图1为本申请实施例提供的一种故障的预测方法的实现流程示意图;
[0041]图2为本申请实施例提供的一种目标模型的建立方法的实现流程示意图;
[0042]图3为本申请实施例提供的一种故障的预测方法的实现流程示意图;
[0043]图4为本申请实施例提供的电子设备的组成结构示意图。
[0044]在附图中,相同的部件使用相同的附图标记,附图并未按照实际的比例绘制。
具体实施方式
[0045]为了使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请作进一步地详细描述,所描述的实施例不应视为对本申请的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
[0046]在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
[0047]如果申请文件中出现“第一\第二\第三”的类似描述则增加以下的说明,在以下的描述中,所涉及的术语“第一\第二\第三”仅仅是是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种故障的预测方法,其特征在于,包括:获取集群中节点的节点信息、所述节点的硬件信息及所述节点的硬件的位置信息;将所述节点信息、所述硬件信息和所述位置信息分别进行标准化处理;将标准化处理后的所述节点信息、硬件信息和位置信息输入至预先建立好的目标模型中输出所述节点的内存的故障时间。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:获取集群中节点的初始样本数据,所述初始样本数据包括:节点的样本节点信息、节点的样本硬件信息、节点的硬件的样本位置信息、节点的内存的样本故障时间;对所述初始样本数据进行标准化处理,得到样本数据集;将所述样本数据集划分为训练集和测试集;基于所述训练集训练多个机器学习模型,得到各个机器学习模型对应的初始模型;基于所述测试集从所述初始模型中确定所述目标模型。3.根据权利要求2所述的方法,其特征在于,所述机器学习模型包括:对抗网络模型和预测模型,所述基于所述训练集训练多个机器学习模型,得到各个机器学习模型对应的初始模型,包括:将所述训练集中的样本数据输入至对各个对抗网络模型的生成器中生成假样本数据;将所述训练集中的样本数据和所述假样本数据输入至对各个对抗网络模型的判别器中对数据的真实性进行分类,得到分类数据;基于所述分类数据训练各个预测模型,得到各个机器学习模型对应的初始模型。4.根据权利要求3所述的方法,其特征在于,所述基于所述测试集从所述初始模型中确定所述目标模型,包括:将所述测试集中的样本数据输入至各个初始模型中得到各个预测结果;基于各个预测结果及对应的样本数据的样本故障时间从所述初始模型中确定目标模型。5.根据权利要求4所述的方法,其特征在于,所述基于各个预测结果及对应的样本数据的样本故障时间从所述初始模型中确定目标模型,包括:求取各个预测结果与对应的样本故障时间...

【专利技术属性】
技术研发人员:杨嵩瑶赵化臣
申请(专利权)人:珠海联云科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1