一种数据对象处理方法与装置制造方法及图纸

技术编号：12296507 阅读：65 留言：0更新日期：2015-11-11 08:07

本发明专利技术提供了一种数据对象处理方法和装置，可以把数据对象划分为一个或多个分区；计算每个分区的采样压缩率，把采样压缩率具有共同特征且相邻的连续分区聚合为一个数据段，获取各所述数据段的采样压缩率；根据每个所述数据段的长度所属于的长度区间、每个数据段的采样压缩率所属于的压缩率区间，选择一种期望长度将数据段拆分成数据块，其中，每个所述数据段的采样压缩率唯一属于一个所述压缩率区间，每个所述数据段的长度唯一属于一个所述长度区间。应用本发明专利技术提供的技术，可以把数据对象拆分成数据块。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】一种数据对象处理方法与装置
本专利技术涉及信息
，特别有关于一种数据对象处理方法与装置。
技术介绍
数据去重(DataDeduplication)是在数据集或数据流中发现和消除重复内容以提高数据的存储和/或传输效率的过程，又称重复数据删除(DuplicateDataElimination)，简称去重或重删。去重技术通常把数据集或数据流拆分成一系列数据单元，且对于重复的数据单元只保留一份，从而减少数据存储过程中的空间开销或传输过程中的带宽消耗。如何把数据对象划分为易发现重复内容的数据单元，是需要解决的一个关键问题。数据对象划分为数据单元以后，可以计算数据块的哈希值h(·)作为指纹，把具有相同指纹的数据单元定义为重复数据。现有技术常用的去重数据单元包括文件、固定长度分块(Block)、基于内容的可变长度分块(Chunk)等。其中，基于内容的分块方法(ContentDefinedChunking，CDC)采用滑动窗口扫描数据并识别符合预设特征的字节串，并将字节串所在位置标记为分块边界，进而将数据集或数据流拆分为可变长度分块序列，该方法基于数据的内容特征选择分块边界，能够更敏感发现相似文件或数据流所共享的数据单元，从而被广泛用于各种数据去重方案。研究表明，在采用基于内容的分块方法拆分数据集或数据流时，分块粒度越小，发现重复数据的概率越高，去重效果也越好；但分块粒度变小，意味着划分给定数据集所获得的分块数量也越多，从而增加了索引开销和查找重复数据的复杂度，进而降低数据去重的时间效率。期望长度是基于内容的分块(ContentDefinedChunking，CDC...

【技术保护点】
PCT国内申请，权利要求书已公开。

【技术特征摘要】
【国外来华专利技术】1.一种数据对象处理方法，其特征在于，该方法包括：把数据对象划分为一个或多个分区；计算每个分区的采样压缩率，把采样压缩率具有共同特征的连续分区聚合为一个数据段，获取各所述数据段的采样压缩率；根据每个所述数据段的长度所属于的长度区间、每个数据段的采样压缩率所属于的压缩率区间，选择一种期望长度将数据段拆分成数据块，其中，每个所述数据段的采样压缩率唯一属于一个所述压缩率区间，每个所述数据段的长度唯一属于一个所述长度区间。2.根据权利要求1所述的方法，其特征在于，所述把数据对象划分为一个或多个分区，具体是：把所述数据对象划分为一个或多个定长分区。3.根据权利要求1所述的方法，其特征在于，所述方法之后，进一步包括：把相邻数据段中，前一数据段的末数据块与后一数据段的首数据块拼接成一个拼接数据块。4.根据权利要求3所述的方法，其特征在于，所述方法进一步包括：把所述拼接数据块拆分成多个数据块，拆分所使用的期望长度小于或等于所述前一数据段对应的期望长度，且拆分所使用的期望长度小于或等于所述后一数据段对应的期望长度。5.根据权利要求1所述的方法，其特征在于，所述把数据对象划分为一个或多个分区，具体是：计算多组具有不同期望长度的候选分块边界，使用其中一组候选分块边界，把所述数据对象划分为一个或多个变长分区。6.根据权利要求1或权利要求5所述的方法，其特征在于，所述选择一种期望长度将数据段拆分成数据块，具体是：按照选择的所述期望长度，从多组候选分块边界中，选择具有相同期望长度的分块边界把数据段拆分成数据块。7.根据权利要求1所述的方法，其特征在于，所述把采样压缩率具有共同特征的连续分区聚合为一个数据段，具体是：把采样压缩率属于相同压缩率区间并且相邻的连续分区聚合为一个数据段。8.根据权利要求1所述的方法，其特征在于，所述把采样压缩率具有共同特征的连续分区聚合为一个数据段，具体是：把采样压缩率的差值小于指定阈值并且相邻的连续分区聚合为一个数据段。9.根据权利要求1或3所述的方法，其特征在于，所述方法之后，进一步包括：计算各所述数据块的指纹，通过指纹判断在存储设备中是否已经存储有各所述数据块，把所述存储设备中未存储的数据块，以及未存储的数据块对应的指纹、采样压缩率发送给所述存储设备；所述存储设备存储接收到的数据块指纹，并判断收到的数据块的采样压缩率是否符合压缩率阈值，把符合压缩率阈值的数据块压缩后存储。10.根据权利要求9所述的方法，其特征在于，把所述数据块所来自的分段的采样压缩率，作为所述数据块的采样压缩率。11.根据权利要求1所述的方法，其特征在于，所述数据段的采样压缩率具体为：计算组成所述数据段的各分区的采样压缩率的算...

【专利技术属性】
技术研发人员：魏建生，朱俊华，
申请(专利权)人：华为技术有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人