重复数据删除方法和设备技术

技术编号:11169497 阅读:100 留言:0更新日期:2015-03-19 04:23
本发明专利技术的一种实施方式涉及一种用于重复数据删除的方法和设备,包括:在多个逻辑通道的每个逻辑通道中使用不同标准对于当前数据对象进行数据块划分;分别在每个逻辑通道中,基于在该逻辑通道中对当前数据对象划分的数据块,寻找数据对象的一个或多个第一冗余数据块;以及基于找到的数据对象的全部第一冗余数据块,对数据对象进行重复数据删除。本发明专利技术的其它实施方式还涉及重复数据删除系统以及相应计算机程序产品。

【技术实现步骤摘要】
重复数据删除方法和设备
本专利技术涉及存储系统,更具体地,涉及重复数据删除方法和设备。
技术介绍
重复数据删除系统(data de-duplication system)能够消除数据存储中的冗余 数据,由此使得在现有的存储容量中存储更多数据,并且通过将冗余数据替换为指针或链 接来降低总的存储开销。 现有的重复数据删除系统中可以采用基于数据块(data chunk)的冗余数据删除 技术。在数据块划分阶段,引入滑动的窗口用于判定数据块的边界。例如,可以利用Rabin 指纹算法计算滑动窗口内数据块的数据指纹。当计算出的结果满足一定条件,就将窗口起 始处标记为数据块的结尾,通过不断重复滑动窗口并计算数据指纹来实现对数据对象的数 据块划分。为每个数据块计算哈希(HASH)值。通过比较各个数据块与已记录的数据块的 哈希(HASH)值,来确定是否存在冗余的数据块。 当数据对象通过指纹算法处理时,以Rabin指纹算法为例,一个字节集合(也称字 节串)理论上将具有一个唯一的64位Rabin指纹哈希值。当加密哈希值的后18位为全 〇(称为残留值)时,则认为找到了字节集合的数据块的边界,这些相应的字节集合则称为 数据块。换而言之,当执行2 18次哈希计算时,一个数据块将产生平均256K字节的大小, 艮P,标准数据块的大小为256K字节。因此,预定的残留值将指示数据块的平均大小以及重 复数据删除系统能够达到的重复数据删除率(deduplication ratio)。可以选择一个指纹 掩码(fingerprinting mask)以用来寻找字节集合的残留值。指纹掩码是一个在预定范围 内的随机值。 现有技术尝试通过改变数据块划分算法来提高重复数据删除率。但是,由于针对 同一数据对象所得的数据块分布是唯一的,因此找到冗余数据的能力有限。而且由于通常 无法预先知晓数据对象的重复数据分布,因此无法设计出针对各种数据对象均具有较高重 复数据删除率的数据块划分算法。 需要提供一种新颖的重复数据删除技术方案,以至少部分地解决现有技术存在的 技术问题。
技术实现思路
为了解决现有技术中存在的问题,本专利技术的实施方式提供一种基于多个逻辑通道 进行数据块划分的重复数据删除方案。 根据本专利技术的一个方面,提供了一种用于重复数据删除的方法。该方法包括:在多 个逻辑通道的每个逻辑通道中使用不同标准对于当前数据对象进行数据块划分;分别在每 个逻辑通道中,基于在该逻辑通道中对所述当前数据对象划分的数据块,寻找当前数据对 象的一个或多个第一冗余数据块;以及基于找到的当前数据对象的全部第一冗余数据块, 对当前数据对象进行重复数据删除。 根据本专利技术的另一个方面,提供了一种重复数据删除系统。该系统包括:数据块划 分单元,被配置用于在多个逻辑通道的每个逻辑通道中使用不同标准对于对一个当前数据 对象进行数据块划分;第一冗余数据块确定单元,被配置用于分别在每个逻辑通道中、基于 在该逻辑通道中对所述当前数据对象划分的数据块寻找当前数据对象的一个或多个第一 冗余数据块;以及重复数据删除单元,被配置为基于第一冗余数据块确定单元所找到的全 部第一冗余数据块,对当前数据对象进行重复数据删除。 根据本专利技术的另一个方面,还提供了一种计算机程序产品,包括计算机可读指令, 当由处理执行时,所述计算机可读指令执行根据本专利技术一个实施方式的重复数据删除方 法。 根据本专利技术的各个实施方式能够提供相对于单逻辑通道的技术方案而言更高的 重复数据删除率。 【附图说明】 通过结合附图对本公开示例性实施方式进行更详细的描述,本公开的上述以及其 它目的、特征和优势将变得更加明显,其中,在本公开示例性实施方式中,相同的参考标号 通常代表相同部件。 图1示出了适于用来实现本专利技术实施方式的示例性计算机系统/服务器12的框 图。 图2示出了根据本专利技术一个实施方式的重复数据删除方法的流程图。 图3示出了数据对象的示例的图例。 图4A和4B分别示出了根据本专利技术一个实施方式在不同逻辑通道中对图3所示数 据对象确定第一冗余数据块的结果。 图5示出了根据本专利技术一个实施方式对于数据对象最终确定的数据块分布。 图6示出了根据本专利技术一个实施方式的一种重复数据删除系统的框图。 【具体实施方式】 在附图中显示了本公开的一些优选实施方式,下面将参照附图更详细地描述这些 优选实施方式。然而,可以以各种形式实现本公开,其不应被这里阐述的实施方式所限制。 相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整 地传达给本领域的技术人员。 所属
的技术人员知道,本专利技术可以实现为系统、方法或计算机程序产品。 因此,本公开可以具体实现为以下形式,即:可以是完全的硬件、也可以是完全的软件(包 括固件、驻留软件、微代码等),还可以是硬件和软件结合的形式,本文一般称为电路、模 块或系统。此外,在一些实施例中,本专利技术还可以实现为在一个或多个计算机可读介质 中的计算机程序产品的形式,该计算机可读介质中包含计算机可读的程序代码。 可以采用一个或多个计算机可读介质的任意组合。计算机可读介质可以是计算 机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是--但不限 于--电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算 机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便 携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器 (EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者 上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的 有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。 计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号, 其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括--但 不限于--电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是 计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者 传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。 计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括--但不限 于--无线、电线、光缆、RF等等,或者上述的任意合适的组合。 可以以一种或多种程序设计语言或其组合来编写用于执行本专利技术操作的计算机 程序代码,所述程序设计语言包括面向对象的程序设计语言-诸如Java、Smalltalk、C++, 还包括常规的过程式程序设计语言-诸如C语言或类似的程序设计语言。程序代码可以 完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部 分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在 涉及远程计算机的情形中,远程计算机可以通过任意种类的网络--包括局域网(LAN)或 广域网(WAN)-连接到用户计算机,或本文档来自技高网
...
重复数据删除方法和设备

【技术保护点】
一种用于重复数据删除的方法,包括:在多个逻辑通道的每个逻辑通道中使用不同标准对于当前数据对象进行数据块划分;分别在所述每个逻辑通道中,基于在该逻辑通道中对所述当前数据对象划分的数据块,寻找所述当前数据对象的一个或多个第一冗余数据块;以及基于找到的所述当前数据对象的全部第一冗余数据块,对所述当前数据对象进行重复数据删除。

【技术特征摘要】
1. 一种用于重复数据删除的方法,包括: 在多个逻辑通道的每个逻辑通道中使用不同标准对于当前数据对象进行数据块划 分; 分别在所述每个逻辑通道中,基于在该逻辑通道中对所述当前数据对象划分的数据 块,寻找所述当前数据对象的一个或多个第一冗余数据块;以及 基于找到的所述当前数据对象的全部第一冗余数据块,对所述当前数据对象进行重复 数据删除。2. 根据权利要求1所述的方法,其中在多个逻辑通道中使用不同标准对于当前数据对 象进行数据块划分包括以下至少之一项: 在各个逻辑通道中使用不同的指纹掩码对于所述当前数据对象利用指纹算法进行数 据块划分; 在各个逻辑通道中使用不同的数据块长度对于所述当前数据对象利用定长算法进行 数据块划分; 在各个逻辑通道中使用不同的划分算法对于所述当前数据对象进行数据块划分。3. 根据权利要求1所述的方法,其中分别在所述多个逻辑通道的每个逻辑通道中寻找 所述当前数据对象的第一冗余数据块包括: 在每个逻辑通道中,基于在该逻辑通道中使用的标准对于之前数据对象划分的数据块 以及在该逻辑通道中使用该标准对于所述当前数据对象划分的数据块,寻找所述当前数据 对象的第一冗余数据块。4. 根据权利要求1所述的方法,其中对所述当前数据对象进行重复数据删除包括: 基于在所述多个逻辑通道的各个逻辑通道中找到的所述第一冗余数据块的偏移和长 度,消除两个或更多第一冗余数据块之间存在的重叠部分; 通过删除第二冗余数据块对所述当前数据对象进行重复数据删除,其中所述第二冗余 数据块包括消除重叠部分后的第一冗余数据块。5. 根据权利要求4所述的方法,其中消除两个或更多第一冗余数据块之间存在的重叠 部分包括: 按照所述第一冗余数据块的偏移对所述第一冗余数据块进行排序; 基于排序后的所述第一冗余数据块,根据所述第一冗余数据块的长度,合并存在重叠 部分的两个或更多第一冗余数据块,以确定所述当前数据对象的第二冗余数据块。6. 根据权利要求5所述的方法,还包括: 根据为所述第二冗余数据块存储的链接,来恢复所述当前数据对象。7. -种重复数据删除系统,包括: ...

【专利技术属性】
技术研发人员:李玉猛麦克西斯李雅洁
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1