数据处理方法、系统及计算机可读存储介质技术方案

技术编号:33121503 阅读:7 留言:0更新日期:2022-04-17 00:21
本申请公开了一种数据处理方法、系统及计算机可读存储介质。其中,该方法包括:获取待处理的数据集,并计算待处理的数据集在至少一个切片范围中每个切片范围下的评分,其中,评分表征了对待处理的数据集进行数据去重的重删效率,切片范围表征了对待处理的数据集进行数据切分处理所得到的多个数据块的字节数;根据每个切片范围对应的评分在至少一个切片范围内确定与待处理的数据集匹配的目标切片范围;基于目标切片范围对待处理的数据集进行数据切分,得到目标数据集,其中,目标数据集包含有多个数据块。本申请解决了现有技术由于切片范围设置不合理所导致的数据集的重复删除效率低的技术问题。低的技术问题。低的技术问题。

【技术实现步骤摘要】
数据处理方法、系统及计算机可读存储介质


[0001]本申请涉及人工智能领域,具体而言,涉及一种数据处理方法、系统及计算机可读存储介质。

技术介绍

[0002]在数据处理过程中,对于重复数据的备份,通常需要先识别出重复的数据,然后对重复数据进行删除,最终只保留一份,从而将重复的数据索引到同一个数据块中。
[0003]其中,在对重复数据进行删除时,切片的大小直接决定了重复数据删除的效率以及数据存储的效率。
[0004]但是,对于来自不同数据集的数据,通常会有不同的数据特征,因此,确定合适的切片范围对于提高数据集的重复删除效率(即重删效率)是非常重要的。

技术实现思路

[0005]本申请实施例提供了一种数据处理方法、系统及计算机可读存储介质,以至少解决现有技术由于切片范围设置不合理所导致的数据集的重复删除效率低的技术问题。
[0006]根据本申请实施例的一个方面,提供了一种数据处理方法,包括:获取待处理的数据集,并计算待处理的数据集在至少一个切片范围中每个切片范围下的评分,其中,评分表征了对待处理的数据集进行数据去重的重删效率,切片范围表征了对待处理的数据集进行数据切分处理所得到的多个数据块的字节数;根据每个切片范围对应的评分在至少一个切片范围内确定与待处理的数据集匹配的目标切片范围;基于目标切片范围对待处理的数据集进行数据切分,得到目标数据集,其中,目标数据集包含有多个数据块。
[0007]可选地,数据处理方法还包括:对待处理的数据集进行采样,得到初始数据集,并计算初始数据集在每个切片范围下的初始评分,从而确定初始评分为待处理的数据集在每个切片范围下的评分。
[0008]可选地,数据处理方法还包括:获取初始数据集在至少一个切片范围下的重删率、数据处理时长以及数据读写参数,其中,数据处理时长表征了对初始数据集进行去重处理的执行时长,数据读写参数表征了至少一个切片范围对数据读写效率的影响程度,并根据至少一个切片范围下的重删率确定当前切片范围对应的重删系数,从而根据至少一个切片范围对应的数据处理时长确定当前切片范围对应的处理效率,根据至少一个切片范围对应的数据读写参数确定当前切片范围对应的数据读写效率,进而对重删系数、处理效率以及数据读写效率进行加权求和计算,得到初始评分。
[0009]可选地,数据处理方法还包括:获取当前切片范围对应的第一重删率,对至少一个切片范围对应的重删率进行排序,得到第一排序结果,并根据第一排序结果从至少一个切片范围对应的重删率中确定第二重删率,计算第一重删率与第二重删率的比值,得到重删系数。
[0010]可选地,数据处理方法还包括:获取初始数据集对应的第一数据量,并获取基于当
前切片范围对初始数据集进行数据去重处理所得到的第一数据集对应的第二数据量,从而计算第二数据量与第一数据量的比值,得到第一重删率。
[0011]可选地,数据处理方法还包括:计算至少一个切片范围对应的数据处理时长的平均值,得到平均处理时长,并对至少一个切片范围对应的数据处理时长进行排序,得到第二排序结果,从而根据第二排序结果从至少一个切片范围对应的数据处理时长中确定目标处理时长,并计算平均处理时长与目标处理时长的比值,得到处理效率。
[0012]可选地,数据处理方法还包括:获取存储单元的最大请求次数以及最大读取速度,其中,存储单元用于存储待处理的数据集,并根据最大请求次数以及最大读取速度确定目标数据,其中,目标数据为影响存储单元的读写性能的最小文件的文件大小,从而获取多个数据块对应的字节数,并根据多个数据块对应的字节数以及目标数据确定当前切片范围对应的数据读写效率。
[0013]可选地,数据处理方法还包括:从至少一个切片范围中每个切片范围对应的评分中确定分值最小的评分为目标评分,并确定目标评分对应的切片范围为目标切片范围。
[0014]可选地,数据处理方法还包括:在基于目标切片范围对待处理的数据集进行数据切分,得到目标数据集之后,计算目标数据集中所包含的多个数据块所对应的指纹信息,其中,指纹信息用于对多个数据块进行标识,并在预设指纹库中不包含指纹信息时,对指纹信息对应的数据块进行备份处理,并将指纹信息存储至预设指纹库中,从而在预设指纹库中包含指纹信息时,记录指纹信息对应的重复次数。
[0015]可选地,数据处理方法还包括:在记录指纹信息对应的重复次数之后,根据重复次数以及指纹信息对待处理的数据集进行数据去重处理。
[0016]根据本申请实施例的另一个方面,还提供了一种数据处理方法,包括:读取待处理的数据集,响应对待处理的数据集的去重操作,确定对待处理的数据集进行数据切分处理的目标切片范围,并基于目标切片范围对待处理的数据集进行数据切分,得到目标数据集,其中,目标切片范围表征了对待处理的数据集进行数据切分处理所得到的多个数据块的字节数,并显示对目标数据集进行数据去重的去重结果。
[0017]根据本申请实施例的另一个方面,还提供了一种计算机可读存储介质,计算机可读存储介质中存储有计算机程序,其中,计算机程序被设置为运行时执行上述的数据处理方法。
[0018]根据本申请实施例的另一个方面,还提供了一种电子设备,该电子设备包括一个或多个处理器;存储装置,用于存储一个或多个程序,当一个或多个程序被一个或多个处理器执行时,使得一个或多个处理器实现用于运行程序,其中,程序被设置为运行时执行上述的数据处理方法。
[0019]根据本申请实施例的另一个方面,还提供了一种数据处理系统,包括:数据源单元,用于存储待处理的数据集;处理单元,用于计算待处理的数据集在至少一个切片范围中每个切片范围下的评分,并根据每个切片范围对应的评分在至少一个切片范围内确定与待处理的数据集匹配的目标切片范围,然后,基于目标切片范围对待处理的数据集进行数据切分,得到目标数据集,其中,评分表征了对待处理的数据集进行数据去重的重删效率,切片范围表征了对待处理的数据集进行数据切分处理所得到的多个数据块的字节数,目标数据集包含有多个数据块;指纹库,用于存储有预设数据集所对应的预设指纹信息;处理单元
还用于计算目标数据集中所包含的多个数据块所对应的目标指纹信息,并根据目标指纹信息对指纹库中存储的预设指纹信息进行去重处理;备份库,用于存储第一数据集,其中,第一数据集所对应的指纹信息未存储在指纹库中。
[0020]在本申请实施例中,采用计算待处理的数据在每个切片范围下评分的方式,通过获取待处理的数据集,并计算待处理的数据集在至少一个切片范围中每个切片范围下的评分,从而根据每个切片范围对应的评分在至少一个切片范围内确定与待处理的数据集匹配的目标切片范围,进而基于目标切片范围对待处理的数据集进行数据切分,得到目标数据集,其中,评分表征了对待处理的数据集进行数据去重的重删效率,切片范围表征了对待处理的数据集进行数据切分处理所得到的多个数据块的字节数,目标数据集包含有多个数据块。
[0021]由上述内容可知,在本申请实施例中,对于所获取的数据集,计算其在每个切本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法,其特征在于,包括:获取待处理的数据集;计算所述待处理的数据集在至少一个切片范围中每个切片范围下的评分,其中,所述评分表征了对所述待处理的数据集进行数据去重的重删效率,切片范围表征了对所述待处理的数据集进行数据切分处理所得到的多个数据块的字节数;根据所述每个切片范围对应的评分在所述至少一个切片范围内确定与所述待处理的数据集匹配的目标切片范围;基于所述目标切片范围对所述待处理的数据集进行数据切分,得到目标数据集,其中,所述目标数据集包含有所述多个数据块。2.根据权利要求1所述的方法,其特征在于,计算所述待处理的数据集在至少一个切片范围中每个切片范围下的评分,包括:对所述待处理的数据集进行采样,得到初始数据集;计算所述初始数据集在所述每个切片范围下的初始评分;确定所述初始评分为所述待处理的数据集在所述每个切片范围下的评分。3.根据权利要求2所述的方法,其特征在于,计算所述初始数据集在所述每个切片范围下的初始评分,包括:获取所述初始数据集在所述至少一个切片范围下的重删率、数据处理时长以及数据读写参数,其中,所述数据处理时长表征了对所述初始数据集进行去重处理的执行时长,所述数据读写参数表征了所述至少一个切片范围对数据读写效率的影响程度;根据所述至少一个切片范围下的重删率确定当前切片范围对应的重删系数;根据所述至少一个切片范围对应的数据处理时长确定所述当前切片范围对应的处理效率;根据所述至少一个切片范围对应的数据读写参数确定所述当前切片范围对应的数据读写效率;对所述重删系数、所述处理效率以及所述数据读写效率进行加权求和计算,得到所述初始评分。4.根据权利要求3所述的方法,其特征在于,根据所述至少一个切片范围下的重删率确定当前切片范围对应的重删系数,包括:获取所述当前切片范围对应的第一重删率;对所述至少一个切片范围对应的重删率进行排序,得到第一排序结果;根据所述第一排序结果从所述至少一个切片范围对应的重删率中确定第二重删率;计算所述第一重删率与所述第二重删率的比值,得到所述重删系数。5.根据权利要求4所述的方法,其特征在于,获取所述当前切片范围对应的第一重删率,包括:获取所述初始数据集对应的第一数据量;获取基于所述当前切片范围对所述初始数据集进行数据去重处理所得到的第一数据集对应的第二数据量;计算所述第二数据量与所述第一数据量的比值,得到所述第一重删率。6.根据权利要求3所述的方法,其特征在于,根据所述至少一个切片范围对应的数据处
理时长确定所述当前切片范围对应的处理效率,包括:计算所述至少一个切片范围对应的数据处理时长的平均值,得到平均处理时长;对所述至少一个切片范围对应的数据处理时长进行排序,得到第二排序结果;根据所述第二排序结果从所述至少一个切片范围对应的数据处理时长中确定目标处理时长;计算所述平均处理时长与所述目标处理时长的比值,得到所述处理效率。7.根据权利要求3所述的方法,其特征在于,根据所述至少一个切片范围对应的数据读写参数确定所述当前切片范围对应的数据读写效率,包括:获取存储单元的最大请求次数以及最大读取速度,其中,所述存储单元用于存储所述待处理的数据集;根据所述最大请求次数以及所述最大读取速度确定...

【专利技术属性】
技术研发人员:舒治
申请(专利权)人:阿里巴巴中国有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1