一种适用于云备份的重复数据删除方法技术

技术编号:4082167 阅读:548 留言:0更新日期:2012-04-11 18:40
本发明专利技术提出一种适用于云备份的重复数据删除方法,主要包括三层次的重复数据删除:第一层根据文件的修改时间和备份时间进行初步重复文件删除,第二层是全局的基于文件级的重复数据删除,第三层是局部的基于块级的重复数据删除。本发明专利技术重复数据删除方法层层递进,在数据压缩率和重复数据的查找开销之间达到了很好的平衡,有着很高的数据压缩率/查找开销的比值,在很短的时间内删除了大量的重复数据,减少了备份数据的传输和存储,解决了云备份系统中备份窗口过大和存储开销过大的问题。

【技术实现步骤摘要】

本专利技术属于计算机信息存储
,具体涉及一种适用于云备份的重复数据删 除方法。
技术介绍
随着云计算的兴起,将备份作为一种服务的方式提供给广大客户使用越来越受用 户的欢迎,这种备份服务就叫做云备份。和传统的备份相比,云备份有着诸多优点。首先, 云备份的安装、使用、维护都比传统的备份软件更简便。通常用户只需要在数据机安装精巧 的客户端或插件,经过设置任务后,就可以按照每天或者每周的备份间隔来备份文件数据。 其次,作为一种网络服务,云备份本身解决了数据的异地容灾问题,解决了用户自行构建容 灾备份系统的技术难题。同时,与一般的备份相比,云备份更注重数据传输和数据存储的安 全性。数据通常在传输的过程加密,已备份的数据由专业服务厂商负责维护其存储和访问 安全性。另外,用户仅根据所索取的备份服务进行付费,在用户空闲不需要服务时,不必支 付浪费额外的硬件和软件费用,并且服务的伸缩性很强,用户可以在不同的时候请求不同 的服务,而不必担心软硬件的升级问题,这些问题由专业的服务厂商管理和维护,用户仅根 据服务进行付费即可。不过,目前的云备份系统还存在着一些挑战。其中最大的问题是备份数据的网络 传输问题。由于云备份在广域网中传输备份数据,而广域网本身具有传输带宽很低,网络延 迟很长的特点,用户每一次备份任务都需要很长的时间来传输备份数据,由此导致备份任 务的备份窗口很大,以致用户难以接受。另外,随着用户备份数据的不断增加,备份服务提 供方需要在数据中心提供巨大的存储空间和高昂的数据管理费用来保存和管理这些备份 数据,给备份服务提供方的带来很大的存储开销。因此,无论是备份数据的网络传输问题, 还是备份数据的存储开销问题,都需要一个很好的压缩算法来减少备份数据的传输和存 储,以此来改善云备份系统的性能。目前在云备份系统中用的最多的数据压缩方法是基于源端的重复数据删除方法。 基于源端的重复数据删除法是指在备份数据到达备份目的地之前,将重复的数据在源端进 行删除,消除重复数据的传输和存储。在现有的云备份系统中,主要源端重复数据删除的 方法有两种全局的基于块级的源端重复数据删除方法和局部的基于块级的源端重复数据 删除方法。前者消除全局的所有重复数据块,而后者仅仅消除同一个用户的重复数据块。 不过,由于内存容量有限,大部分的数据块指纹(数据块的唯一标识)都存放在磁盘上,因 此,在鉴别某一个数据块是否已经存在时,需要查询和比对所有已存放在磁盘上的数据块 指纹,这样会引入大量的磁盘访问。近年来,一些学者发现,基于块级的重复数据删除技术 有着很高的这种数据块指纹的磁盘查找开销,会严重影响重复数据删除的性能和备份的性 能。在全局的基于块级的源端重复数据删除方法中,由于要删除所有的重复数据块,需要在 全局查询比对所有的数据块指纹,引入大规模的数据块指纹的磁盘查找,会导致重复数据 删除的延时很长,致使备份窗口加大。而在局部的基于块级的源端重复数据删除方法中,由于只删除同一个用户的重复数据块,仅仅需要查询和比对同一个用户的数据块指纹,这种 指纹的磁盘查找开销会比较小,不过,由于删除的重复数据变少,压缩率降低,广域网上传 输的备份数据就会增多,同样会导致很大的备份窗口。
技术实现思路
本专利技术提出,减少重复数据删除过程中重 复数据的查找开销,加快重复数据删除的速度,减少备份数据的传输和存储,解决现有的云 备份系统中备份窗口过大和存储开销过大的问题。,具体为(1)本地客户端接受用户备份任务请求,备份任务请求携带的信息有待备份文件 内容信息、文件数据量、文件类型、最近一次修改时间和最近一次备份时间;(2)若最近一次修改时间晚于最近一次的备份时间,进入步骤(3),否则,结束;(3)实施全局的基于文件级的重复数据删除(3. 1)本地客户端使用哈希函数计算待备份文件的文件哈希值;(3. 2)若待备份文件的数据量大于传送阈值,则本地客户端将文件哈希值传送给 主服务器,进入步骤(3. 3),否则,进入步骤(4);(3. 3)主服务器查询是否存有该文件哈希值,若存在,则结束,否则,记录该文件哈 希值,并返回备份确认信息给本地客户端,进入步骤(4);(4)实施局部的基于块级的重复数据删除(4. 1)本地客户端对待备份文件进行分块;(4. 2)本地客户端使用哈希函数计算步骤(4. 1)得到的每个数据块的哈希值;(4. 3)若待备份文件类型为压缩文件,则将所有数据块标记为待备份数据块;若 待备份文件类型为非压缩文件,则对于每一个数据块,本地客户端查询是否存有其对应的 哈希值,若不存有,则将该数据块标记为待备份数据块,并记录其对应的哈希值;(5)本地客户端将步骤(4. 3)标记的待备份数据块传送给存储服务器,存储服务 器对这些数据块进行存储。本专利技术的适用于云备份的重复数据删除方法包括三层,第一层为本地增量备份, 本地增量备份通过判断文件的最近一次修改时间,来过滤最近一次备份后完全没有修改过 的文件。第二层为全局的基于文件级的重复数据删除,在主服务器过滤已经备份过的重复 文件,同时通过忽略小文件和利用重复文件的空间局部性来减少重复文件的查找空间,降 低重复文件的查找开销。第三层为局部的基于块级的重复数据删除,在第二层的全局重复 文件删除后,本地客户端将待备份文件进行分块,过滤此用户已经备份过的重复数据块,同 时通过忽略压缩文件来降低重复数据块的查找开销。任何一次备份任务开始后,本地客户 端的待备份文件将依次经过本地增量备份,全局的基于文件级的重复数据删除和局部的基 于块级的重复数据删除这三层进行重复数据的删除。经过这三层处理之后,剩下没有备份 过的数据块就是本次备份任务真正要备份的数据。本专利技术具有如下的特点(1)本专利技术将文件级的重复数据删除技术和块级的重复数据删除技术结合,在数 据压缩率和重复数据的查找开销之间达到了一个很好的平衡。文件级的重复数据删除达到的数据压缩率有限,但其重复数据的查找以文件为单位,查找开销相对于数据块级的查找 开销较少。块级的重复数据删除能够达到很好的数据压缩率,但其重复数据块的查找开销 很大。经过将文件级的重复数据删除技术和块级的重复数据删除技术这两者相结合,可以 在数据压缩率和重复数据的查找开销之间达到了一个很好的平衡。(2)本专利技术将全局的基于文件级重复数据删除和局部的基于块级重复数据删除结 合,能够达到一个很高的数据压缩率/重复数据查找开销的比值。从全局的所有数据来看, 全局的重复文件占主导地位,在重复文件之外的重复数据块很少,同时,由于重复文件的查 找开销要小于重复数据块的查找开销,因此在全局使用基于文件级的重复数据删除能够以 很小的重复数据查找开销换取很高的数据压缩率。而从局部的数据来看,通过使用增量备 份过滤掉重复文件之后,重复的数据块占主导地位,使用局部的基于块级的重复数据删除 能够达到很高的数据压缩率。(3)本专利技术在本地增量备份时,通过判断文件的最近一次修改时间和最近一次备 份时间,就可以快速判断出哪些文件没有进行修改过,而不需要使用文件级的重复数据删 除或块级的重复数据删除方法来消除这些重复文件。(4)本专利技术在全局的基于文件级的重复数据删除时,通过忽略小文件,大大减少了 重复数据的查找开销,同时也提高了数据压缩率/重复数据本文档来自技高网
...

【技术保护点】
一种适用于云备份的重复数据删除方法,具体为:(1)本地客户端接受用户备份任务请求,备份任务请求携带的信息有待备份文件内容信息、文件数据量、文件类型、最近一次修改时间和最近一次备份时间;(2)若最近一次修改时间晚于最近一次的备份时间,进入步骤(3),否则,结束;(3)实施全局的基于文件级的重复数据删除:(3.1)本地客户端使用哈希函数计算待备份文件的哈希值;(3.2)若待备份文件的数据量大于传送阈值,则本地客户端将文件哈希值传送给主服务器,进入步骤(3.3),否则,进入步骤(4);(3.3)主服务器查询是否存有该文件哈希值,若存在,则结束,否则,记录该文件哈希值,并返回备份确认信息给本地客户端,进入步骤(4);(4)实施局部的基于块级的重复数据删除:(4.1)本地客户端对待备份文件进行分块;(4.2)本地客户端使用哈希函数计算步骤(4.1)得到的每个数据块的哈希值;(4.3)若待备份文件类型为压缩文件,则将所有数据块标记为待备份数据块;若待备份文件类型为非压缩文件,则对于每一个数据块,本地客户端查询是否存有其对应的哈希值,若不存有,则将该数据块标记为待备份数据块,并记录其对应的哈希值;(5)本地客户端将步骤(4.3)标记的待备份数据块传送给存储服务器,存储服务器对这些数据块进行存储。...

【技术特征摘要】
一种适用于云备份的重复数据删除方法,具体为(1)本地客户端接受用户备份任务请求,备份任务请求携带的信息有待备份文件内容信息、文件数据量、文件类型、最近一次修改时间和最近一次备份时间;(2)若最近一次修改时间晚于最近一次的备份时间,进入步骤(3),否则,结束;(3)实施全局的基于文件级的重复数据删除(3.1)本地客户端使用哈希函数计算待备份文件的哈希值;(3.2)若待备份文件的数据量大于传送阈值,则本地客户端将文件哈希值传送给主服务器,进入步骤(3.3),否则,进入步骤(4);(3.3)主服务器查询是否存有该文件哈希值,若存在,则结束,否则,记录该文件哈希值,并返回备份确认信息给本地客户端,进入步骤(4);(4)实施局部的基于块级的重复数据删除(4.1)本地客户端对待备份文件进行分块;(...

【专利技术属性】
技术研发人员:冯丹谭玉娟田磊许蔚晏志超周国惠
申请(专利权)人:华中科技大学
类型:发明
国别省市:83[中国|武汉]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1