本申请涉及一种数据标签的修正方法、装置、设备、存储介质和程序产品,涉及人工智能领域。包括:若故障预测模型检测到存在故障硬盘,则确定故障硬盘中各数据对包含的两个存储数据之间的第一特征距离,以及各数据对中每一存储数据与各数据对的参考数据之间的第二特征距离;故障硬盘中任意两个存储数据均构成一个数据对;参考数据为故障硬盘中除数据对之外的其他任一存储数据;根据各数据对的第一特征距离和第二特征距离,以及各存储数据的健康度标签,确定各存储数据的标签修正策略;根据各存储数据的标签修正策略,对各存储数据的健康度标签进行修正;修正健康度标签后的各存储数据用于对故障预测模型进行再训练。以提高故障预测模型的准确性。测模型的准确性。测模型的准确性。
【技术实现步骤摘要】
数据标签的修正方法、装置、设备、存储介质和程序产品
[0001]本申请涉及人工智能
,特别是涉及一种数据标签的修正方法、装置、设备、存储介质和程序产品。
技术介绍
[0002]随着计算机技术在各领域的发展,存储系统已经应用在各个领域。存储系统,例如硬盘,是各领域数据中心最重要的组成部分。
[0003]目前,为了保证数据的正常存储,在使用硬盘存储数据的过程中,需要通过故障预测模型实时对硬盘的存储数据进行故障预测,并为各存储数据标注健康度标签,例如,对于检测结果为异常的数据,将其健康度标签标注为故障,对于检测结果为正常的数据,将其健康度标签标注为健康。当检测到硬盘中的存储数据出现故障的健康度标签时,会输出硬盘故障报警信息,提醒运维人员更换硬盘。
[0004]由于硬盘故障报警是否及时且精准,完全依赖故障预测模型的训练结果的准确性,所以如何提高故障预测模型的准确性,是硬盘故障检测领域亟需解决的问题。
技术实现思路
[0005]基于此,有必要针对上述技术问题,提供一种能够提高故障预测模型准确性的数据标签的修正方法、装置、设备、存储介质和程序产品。
[0006]第一方面,本申请提供了一种数据标签的修正方法。该方法包括:
[0007]若故障预测模型检测到存在故障硬盘,则确定故障硬盘中各数据对包含的两个存储数据之间的第一特征距离,以及各数据对中每一存储数据与各数据对的参考数据之间的第二特征距离;其中,故障硬盘中任意两个存储数据均构成一个数据对;各数据对的参考数据为故障硬盘中除数据对之外的其他任一存储数据;
[0008]根据各数据对的第一特征距离和第二特征距离,以及各存储数据的健康度标签,确定各存储数据的标签修正策略;
[0009]根据各存储数据的标签修正策略,对各存储数据的健康度标签进行修正;修正健康度标签后的各存储数据用于对故障预测模型进行再训练。
[0010]在其中一个实施例中,确定故障硬盘中各数据对包含的两个存储数据之间的第一特征距离,以及各数据对中每一存储数据与各数据对的参考数据之间的第二特征距离,包括:
[0011]将故障硬盘中各存储数据映射到同一空间,得到各存储数据在同一空间下的空间特征;
[0012]根据各数据对包含的两个存储数据的空间特征,确定各数据对的第一特征距离;
[0013]根据各数据对中每一存储数据的空间特征,以及各数据对的参考数据的空间特征,确定各数据对中每一存储数据与各数据对的参考数据之间的第二特征距离。
[0014]在其中一个实施例中,根据各数据对的第一特征距离和第二特征距离,以及各存
储数据的健康度标签,确定各存储数据的标签修正策略,包括:
[0015]根据各数据对的第一特征距离和第二特征距离,以及各数据对包含的两个存储数据的健康度标签的一致性,确定各数据对包含的两个存储数据之间的邻接关系;
[0016]根据各数据对包含的两个存储数据之间的邻接关系,以及各存储数据的健康度标签,确定各存储数据的标签修正策略。
[0017]在其中一个实施例中,第二特征距离包括第一子距离和第二子距离;根据各数据对的第一特征距离和第二特征距离,以及各数据对包含的两个存储数据的健康度标签的一致性,确定各数据对包含的两个存储数据之间的邻接关系,包括:
[0018]针对每一数据对,若该数据对的第一子距离和第二子距离之和大于第一特征距离,且该数据对包含的两个存储数据的健康度标签一致,则确定该数据对包含的两个存储数据之间的邻接关系为邻接。
[0019]在其中一个实施例中,根据各数据对包含的两个存储数据之间的邻接关系,以及各存储数据的健康度标签,确定各存储数据的标签修正策略,包括:
[0020]根据各数据对包含的两个存储数据之间的邻接关系,确定每一存储数据对应的邻接数据;
[0021]根据每一存储数据的健康度标签,以及每一存储数据对应的邻接数据的健康度标签,确定每一存储数据的标签修正策略。
[0022]在其中一个实施例中,根据每一存储数据的健康度标签,以及每一存储数据对应的邻接数据的健康度标签,确定每一存储数据的标签修正策略,包括:
[0023]根据每一存储数据的健康度标签,以及每一存储数据对应的邻接数据的健康度标签,确定每一存储数据的标签准确性类别;其中,标签准确性类别包括:正确、错误和待定;
[0024]根据每一存储数据的标签准确性类别,为每一存储数据确定标签修正策略。
[0025]在其中一个实施例中,根据每一存储数据的健康度标签,以及每一存储数据对应的邻接数据的健康度标签,确定每一存储数据的标签准确性类别,包括:
[0026]根据每一存储数据的健康度标签,以及每一存储数据对应的邻接数据的健康度标签,确定每一存储数据的同标签邻接占比;
[0027]根据每一存储数据的同标签邻接占比,确定每一存储数据的标签准确性类别。
[0028]在其中一个实施例中,根据每一存储数据的标签准确性类别,为每一存储数据确定标签修正策略,包括:
[0029]根据每一存储数据的标签准确性类别,判断标签准确性类别为错误的存储数据的占比是否小于预设占比阈值;
[0030]若是,则根据每一存储数据的标签准确性类别,为每一存储数据确定标签修正策略。
[0031]第二方面,本申请还提供了一种数据标签的修正装置。该装置包括:
[0032]距离确定模块,用于若故障预测模型检测到存在故障硬盘,则确定故障硬盘中各数据对包含的两个存储数据之间的第一特征距离,以及各数据对中每一存储数据与各数据对的参考数据之间的第二特征距离;其中,故障硬盘中任意两个存储数据均构成一个数据对;各数据对的参考数据为故障硬盘中除数据对之外的其他任一存储数据;
[0033]策略确定模块,用于根据各数据对的第一特征距离和第二特征距离,以及各存储
数据的健康度标签,确定各存储数据的标签修正策略;
[0034]标签修正模块,用于根据各存储数据的标签修正策略,对各存储数据的健康度标签进行修正;修正健康度标签后的各存储数据用于对故障预测模型进行再训练。
[0035]第三方面,本申请还提供了一种计算机设备。该计算机设备包括存储器和处理器,该存储器存储有计算机程序,该处理器执行该计算机程序时实现以下步骤:
[0036]若故障预测模型检测到存在故障硬盘,则确定故障硬盘中各数据对包含的两个存储数据之间的第一特征距离,以及各数据对中每一存储数据与各数据对的参考数据之间的第二特征距离;其中,故障硬盘中任意两个存储数据均构成一个数据对;各数据对的参考数据为故障硬盘中除数据对之外的其他任一存储数据;
[0037]根据各数据对的第一特征距离和第二特征距离,以及各存储数据的健康度标签,确定各存储数据的标签修正策略;
[0038]根据各存储数据的标签修正策略,对各存储数据的健康度标签进行修正;修正健康度标签后的各存储数据用于对故障预测模型进行再训练。
...
【技术保护点】
【技术特征摘要】
1.一种数据标签的修正方法,其特征在于,所述方法包括:若故障预测模型检测到存在故障硬盘,则确定所述故障硬盘中各数据对包含的两个存储数据之间的第一特征距离,以及各数据对中每一存储数据与各数据对的参考数据之间的第二特征距离;其中,故障硬盘中任意两个存储数据均构成一个数据对;所述各数据对的参考数据为所述故障硬盘中除所述数据对之外的其他任一存储数据;根据各数据对的第一特征距离和第二特征距离,以及各存储数据的健康度标签,确定各存储数据的标签修正策略;根据各存储数据的标签修正策略,对各存储数据的健康度标签进行修正;修正健康度标签后的各存储数据用于对所述故障预测模型进行再训练。2.根据权利要求1所述的方法,其特征在于,所述确定所述故障硬盘中各数据对包含的两个存储数据之间的第一特征距离,以及各数据对中每一存储数据与各数据对的参考数据之间的第二特征距离,包括:将所述故障硬盘中各存储数据映射到同一空间,得到各存储数据在所述同一空间下的空间特征;根据各数据对包含的两个存储数据的空间特征,确定各数据对的第一特征距离;根据各数据对中每一存储数据的空间特征,以及各数据对的参考数据的空间特征,确定各数据对中每一存储数据与各数据对的参考数据之间的第二特征距离。3.根据权利要求1或2所述的方法,其特征在于,所述根据各数据对的第一特征距离和第二特征距离,以及各存储数据的健康度标签,确定各存储数据的标签修正策略,包括:根据各数据对的第一特征距离和第二特征距离,以及各数据对包含的两个存储数据的健康度标签的一致性,确定各数据对包含的两个存储数据之间的邻接关系;根据所述各数据对包含的两个存储数据之间的邻接关系,以及各存储数据的健康度标签,确定各存储数据的标签修正策略。4.根据权利要求3所述的方法,其特征在于,所述第二特征距离包括第一子距离和第二子距离;所述根据各数据对的第一特征距离和第二特征距离,以及各数据对包含的两个存储数据的健康度标签的一致性,确定各数据对包含的两个存储数据之间的邻接关系,包括:针对每一数据对,若该数据对的第一子距离和所述第二子距离之和大于第一特征距离,且该数据对包含的两个存储数据的健康度标签一致,则确定该数据对包含的两个存储数据之间的邻接关系为邻接。5.根据权利要求3所述的方法,其特征在于,所述根据所述各数据对包含的两个存储数据之间的邻接关系,以及各存储数据的健康度标签,确定各存储数据的标签修正策略,包括:根据所述各数据对包含的两个存储数据之间的邻接关系,确定每一存储数据对应的邻接数据;根据每一存储数据的健康度标签,以及每一...
【专利技术属性】
技术研发人员:杨执钧,陆君杰,石皓魁,
申请(专利权)人:中国工商银行股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。