数据处理方法以及相关设备技术

技术编号:38910815 阅读:20 留言:0更新日期:2023-09-25 09:27
本申请实施例公开了数据处理方法以及相关设备,用于在降低计算成本的同时,保证特征计算的准确率以及压缩率。本申请实施例方法包括:确定每个数据块对应的多个第一特征值,每个第一特征值表示数据块包含的部分数据内容的特征;根据每个第一特征值所对应部分数据内容,将每个数据块对应的多个第一特征值划分为多组内容分簇,每个数据块对应的内容分簇数量等于预设特征数量;对每个第一特征值执行一次线性变换操作,获得每个第一特征值对应的第二特征值;将每个内容分簇对应的取值最小的第二特征值确定为每个内容分簇所对应数据块的目标特征值;根据每个数据块对应的多个目标特征值,确定每个数据块对应的相似数据块。确定每个数据块对应的相似数据块。确定每个数据块对应的相似数据块。

【技术实现步骤摘要】
数据处理方法以及相关设备


[0001]本申请实施例涉及差量压缩领域,尤其涉及数据处理方法以及相关设备。

技术介绍

[0002]目前主流的面向差量压缩的相似数据检测技术主要通过生成特征、超级特征等形式的数据块摘要来搜索相似数据块。通过为每一个数据块生成一个或者多个数据块摘要来代表数据块,并将其存储入索引当中。通过数据块摘要之间的相互匹配,在索引中搜索相似的数据块。使用数据块摘要来代表数据块可以降低了索引的内存开销,也能降低在系统中寻找相似块的计算开销。
[0003]一般的,首先计算每个数据块对应的多个滚动哈希值,然后,对每个滚动哈希值做N次(即多次)的线性变换,获得每个数据块对应的N个哈希值。接着,通过将N个哈希值组装得到预设特征数量的超级特征,作为每个数据块对应的特征值。最后,根据每个数据块对应的超级特征,确定每个数据块对应的相似数据块。
[0004]但是上述计算方式,由于需要对大量的滚动哈希值做多次哈希变换,会耗费大量的计算资源,并降低差量压缩效率。

技术实现思路

[0005]本申请实施例提供了数据处理方法以及相关设备,用于在降低计算成本的同时,保证特征计算的准确率以及压缩率。
[0006]本申请实施例第一方面提供一种数据处理方法,包括:
[0007]确定每个数据块对应的多个第一特征值,所述每个数据块对应的每个第一特征值表示所述每个数据块包含的部分数据内容的特征;
[0008]根据每个第一特征值所对应部分数据内容,将每个数据块对应的多个第一特征值划分为多组内容分簇,所述每个数据块对应的内容分簇数量等于预设特征数量;
[0009]对所述每个第一特征值执行一次线性变换操作,获得所述每个第一特征值一一对应的第二特征值;
[0010]将每个内容分簇中每个第一特征值对应的第二特征值中,取值最小的第二特征值确定为所述每个内容分簇所对应数据块的目标特征值,所述每个数据块对应的目标特征值数量等于所述预设特征数量;
[0011]根据每个数据块对应的多个目标特征值,确定所述每个数据块对应的相似数据块。
[0012]在一种具体实现方式中,所述确定每个数据块对应的多个第一特征值,包括:
[0013]基于所述每个数据块包含的数据内容以及预设的滚动哈希算法,计算所述每个数据块对应的多个第三特征值;
[0014]获取基于预设采样率确定采样掩码;
[0015]对所述每个数据块对应的每个第三特征值以及所述采样掩码执行预设逻辑运算;
[0016]根据与所述预设逻辑运算对应的执行结果,从所述每个数据块对应的每个第三特征值中,确定所述每个数据块对应的所述多个第一特征值。
[0017]在一种具体实现方式中,所述根据与所述预设逻辑运算对应的执行结果,从所述每个数据块对应的每个第三特征值中,确定所述每个数据块对应的所述多个第一特征值,包括:
[0018]若任一执行结果满足预设执行结果,则确定所述任一执行结果对应的第三特征值为相应的数据块的第一特征值;
[0019]若任一执行结果不满足预设执行结果,则不执行确定所述任一执行结果对应的第三特征值为相应的数据块的第一特征值的操作。
[0020]在一种具体实现方式中,所述根据每个第一特征值所对应部分数据内容,将每个数据块对应的多个第一特征值划分为多组内容分簇,包括:
[0021]将所述每个第一特征值所对应部分数据内容的后缀,确定为所述每个第一特征值对应的数据内容后缀,所述数据内容后缀的长度等于预设后缀长度;
[0022]按照预设后缀长度以及所述每个数据块对应的预设特征数量,确定多个后缀取值范围,所述后缀取值范围的数量等于所述预设特征数量;
[0023]按照所述多个后缀取值范围以及所述每个第一特征值对应的数据内容后缀,将所述每个数据块对应的多个第一特征值,划分为所述每个数据块对应的多组内容分簇,每组内容分簇对应不同的后缀取值范围。
[0024]在一种具体实现方式中,所述按照所述多个后缀取值范围以及所述每个第一特征值对应的数据内容后缀,将所述每个数据块对应的多个第一特征值,划分为所述每个数据块对应的多组内容分簇,包括:
[0025]轮流将所述每个数据块确定为第四数据块,并轮流将所述第四数据块对应的每个第一特征值确定为第四特征值;
[0026]确定所述第四特征值对应的第四数据内容后缀,并确定所述第四数据内容后缀对应的后缀取值范围;
[0027]若所述第四数据块所对应任一内容分簇对应的后缀取值范围,与所述第四数据内容后缀所对应后缀取值范围相同,则将所述第四特征值分入所述任一内容分簇中。
[0028]在一种具体实现方式中,所述根据每个数据块对应的多个目标特征值,确定所述每个数据块对应的相似数据块,包括:
[0029]轮流将每个数据块确定为当前数据块,并轮流将所述当前数据块对应的每个目标特征值确定为当前特征值;
[0030]若任一其他数据块对应的任一目标特征值与所述当前特征值一致,则确定所述任一其他数据块为所述当前数据块的备选相似块,所述其他数据块为多个数据块中除所述当前数据块之外的数据块;
[0031]根据所述当前数据块对应的目标特征值以及每个备选相似块对应的目标特征值,确定所述每个备选相似块与所述当前数据块的相似特征数量;
[0032]将对应的相似特征数量最多的备选相似块,确定为所述当前数据块的相似数据块。
[0033]在一种具体实现方式中,在所述根据每个数据块对应的多个目标特征值,确定所
述每个数据块对应的相似数据块之后,所述方法还包括:
[0034]根据所述每个数据块对应的相似数据块,对所述每个数据块执行差量压缩操作。
[0035]本申请实施例第二方面提供一种数据处理设备,包括:
[0036]确定单元,用于确定每个数据块对应的多个第一特征值,所述每个数据块对应的每个第一特征值表示所述每个数据块包含的部分数据内容的特征;
[0037]分簇单元,用于根据每个第一特征值所对应部分数据内容,将每个数据块对应的多个第一特征值划分为多组内容分簇,所述每个数据块对应的内容分簇数量等于预设特征数量;
[0038]执行单元,用于对所述每个第一特征值执行一次线性变换操作,获得所述每个第一特征值一一对应的第二特征值;
[0039]所述确定单元,还用于将每个内容分簇中每个第一特征值对应的第二特征值中,取值最小的第二特征值确定为所述每个内容分簇所对应数据块的目标特征值,所述每个数据块对应的目标特征值数量等于所述预设特征数量;
[0040]所述确定单元,还用于根据每个数据块对应的多个目标特征值,确定所述每个数据块对应的相似数据块。
[0041]在一种具体实现方式中,所述确定单元,具体用于基于所述每个数据块包含的数据内容以及预设的滚动哈希算法,计算所述每个数据块对应的多个第三特征值;
[0042]获取基于预设采样率确定采样掩码;
[0043]对所本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法,其特征在于,包括:确定每个数据块对应的多个第一特征值,所述每个数据块对应的每个第一特征值表示所述每个数据块包含的部分数据内容的特征;根据每个第一特征值所对应部分数据内容,将每个数据块对应的多个第一特征值划分为多组内容分簇,所述每个数据块对应的内容分簇数量等于预设特征数量;对所述每个第一特征值执行一次线性变换操作,获得所述每个第一特征值一一对应的第二特征值;将每个内容分簇中每个第一特征值对应的第二特征值中,取值最小的第二特征值确定为所述每个内容分簇所对应数据块的目标特征值,所述每个数据块对应的目标特征值数量等于所述预设特征数量;根据每个数据块对应的多个目标特征值,确定所述每个数据块对应的相似数据块。2.根据权利要求1所述的方法,其特征在于,所述确定每个数据块对应的多个第一特征值,包括:基于所述每个数据块包含的数据内容以及预设的滚动哈希算法,计算所述每个数据块对应的多个第三特征值;获取基于预设采样率确定采样掩码;对所述每个数据块对应的每个第三特征值以及所述采样掩码执行预设逻辑运算;根据与所述预设逻辑运算对应的执行结果,从所述每个数据块对应的每个第三特征值中,确定所述每个数据块对应的所述多个第一特征值。3.根据权利要求2所述的方法,其特征在于,所述根据与所述预设逻辑运算对应的执行结果,从所述每个数据块对应的每个第三特征值中,确定所述每个数据块对应的所述多个第一特征值,包括:若任一执行结果满足预设执行结果,则确定所述任一执行结果对应的第三特征值为相应的数据块的第一特征值;若任一执行结果不满足预设执行结果,则不执行确定所述任一执行结果对应的第三特征值为相应的数据块的第一特征值的操作。4.根据权利要求1所述的方法,其特征在于,所述根据每个第一特征值所对应部分数据内容,将每个数据块对应的多个第一特征值划分为多组内容分簇,包括:将所述每个第一特征值所对应部分数据内容的后缀,确定为所述每个第一特征值对应的数据内容后缀,所述数据内容后缀的长度等于预设后缀长度;按照预设后缀长度以及所述每个数据块对应的预设特征数量,确定多个后缀取值范围,所述后缀取值范围的数量等于所述预设特征数量;按照所述多个后缀取值范围以及所述每个第一特征值对应的数据内容后缀,将所述每个数据块对应的多个第一特征值,划分为所述每个数据块对应的多组内容分簇,每组内容分簇对应不同的后缀取值范围。5.根据权利要求4所述的方法,其特征在于,所述按照所述多个后缀取值范围以及所述每个第一特征值对应的数据内容后缀,将所述每个数据块对应的多个第一特征值,划分为所述每个数据块对应的多组内容分簇,包括:轮流将所述每个数据块确定为第四...

【专利技术属性】
技术研发人员:夏文徐菡邹翔宇李诗逸
申请(专利权)人:哈尔滨工业大学深圳哈尔滨工业大学深圳科技创新研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1