文件备份装置及方法制造方法及图纸

技术编号:21059686 阅读:225 留言:0更新日期:2019-05-08 06:41
本发明专利技术的实施例提出一种文件备份装置及方法。处理单元依据上次修改信息分割来源数据流成为第一及第二数据流;于第一数据流上执行删除重复数据程序以产生及存储独特块至存储装置,并为第一数据流产生第一组组合索引的第一部分;从来源数据流的前一版本的第二组组合索引中复制相应于出现在第二数据流的逻辑位置的组合索引,作为第一组组合索引的第二部分;依据来源数据流的逻辑位置合并及存储第一组组合索引的第一及第二部分至存储装置,用于指出第一及第二数据流中的多个第二数据块实际存储于存储装置的何处,从而能够从上次修改信息指出的已经改变的块或区域中滤出没有改变的部分,避免这些没有改变的部分被视为原始数据而存储。

File Backup Device and Method

【技术实现步骤摘要】
文件备份装置及方法
本专利技术涉及数据备份,尤指一种文件备份装置及方法。
技术介绍
重复数据删除(datadeduplication)是一种通过移除重复数据块来压缩数据成为精简格式,并且使得数据可以更节约地存储于存储装置。就网络附加存储系统(Network-AttachedStorage,NAS)来说,数据存储的保护是个重大的技术问题。网络附加存储系统可以每天执行增量备份(incrementalbackup),只复制从上次备份以来改变的数据块(datachunk)。快速查找是企业数据保护的重要要求,通常需要高于1.28x104ops/s(operationspersecond,每秒操作数目)。在低成本系统中达到高速的数据块搜索是个严格的考验,因为系统中无法提供足够的随机存取存储器(RandomAccessMemory,RAM),用来存放存储装置中的数据块的索引。因此,本专利技术提出一种文件备份装置及方法,用来克服如上所述的限制。
技术实现思路
有鉴于此,如何减轻或消除上述相关领域的缺失,实为有待解决的问题。本专利技术提供一种文件备份装置的实施例,其包含:存储装置;及处理单元。处理单元依据上次修改信息分割来源数据流成为第一及第二数据流;于第一数据流上执行删除重复数据程序以产生及存储独特块至存储装置,并为第一数据流产生第一组组合索引的第一部分;从来源数据流的前一版本的第二组组合索引中复制相应于出现在第二数据流的逻辑位置的组合索引,作为第一组组合索引的第二部分;依据来源数据流的逻辑位置合并及存储第一组组合索引的第一及第二部分至存储装置,用于指出第一及第二数据流中的多个第二数据块实际存储于存储装置的何处。本专利技术还提供一种文件备份方法的实施例,由客户机或服务器的处理单元执行,其包含:依据上次修改信息分割来源数据流成为第一及第二数据流;于第一数据流上执行删除重复数据程序以产生及存储独特块至该存储装置,并为第一数据流产生第一组组合索引的第一部分;从来源数据流的前一版本的第二组组合索引中复制相应于出现在第二数据流的逻辑位置的组合索引,作为第一组组合索引的第二部分;依据来源数据流的逻辑位置合并及存储第一组组合索引的第一及第二部分至存储装置,用于指出第一及第二数据流中的多个第二数据块实际存储于存储装置的何处。本专利技术另外提供一种文件备份装置的实施例,其包含:分块模块、去重复模块及复制模块。分块模块用于依据上次修改信息分割来源数据流成为第一及第二数据流。去重复模块用于于第一数据流上执行删除重复数据程序以产生及存储独特块至该存储装置,并为第一数据流产生第一组组合索引的第一部分。复制模块用于从来源数据流的前一版本的第二组组合索引中复制相应于出现在第二数据流的逻辑位置的组合索引,作为第一组组合索引的第二部分;依据来源数据流的逻辑位置合并及存储第一组组合索引的第一及第二部分至存储装置,用于指出第一及第二数据流中的多个第二数据块实际存储于存储装置的何处。本专利技术实施例所述的独特块相对于已经存储于该存储装置并且于删除重复数据程序中可搜索出的所有第一数据块是独特的。上述实施例的优点是能够从上次修改信息指出的已经改变的块或区域中滤出没有改变的部分,避免这些没有改变的部分被视为原始数据而存储。本专利技术的其他优点将配合以下的说明和附图进行更详细的解说。附图说明此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。图1为依据本专利技术实施例的网络架构示意图。图2为依据本专利技术实施例的网络附加存储系统(Network-AttachedStorage,NAS)的系统架构图。图3为依据本专利技术实施例的客户机的系统架构图。图4为依据本专利技术实施例的文件备份的方框图。图5为依据本专利技术实施例的删除重复数据块的方法流程图。图6为依据本专利技术实施例的由分块模块(chunkingmodule)执行的数据分块及建立索引的方法流程图。图7为依据本专利技术实施例的为操作系统选择热门采样索引(hotsampleindices)的方法流程图。图8为依据本专利技术实施例的通用及热门采样索引的示意图。图9为依据本专利技术实施例用来表示数据块变化的示意图。图10为依据本专利技术实施例用来表示一组组合索引(compositionindices)的示意图。图11为依据本专利技术实施例的由分块模块执行的为缓冲器中的数据块准备缓存索引(cacheindices)的方法流程图。图12至13为依据本专利技术实施例的用来搜索重复数据块的二阶段搜索(two-phasesearch)的方法流程图。图14至19为依据本专利技术实施例的用来表示在第一阶段搜索中的存储器中的索引变化示意图。图20为依据本专利技术实施例的通用及热门采样索引的更新示意图。图21为依据本专利技术实施例的由存储服务器或客户机中的备份引擎执行的文件备份的方法流程图。符号说明:100网络架构110存储服务器120网络130_1~130_n客户机210处理单元240存储装置250存储器260通信接口310处理单元320显示单元330输入装置340存储装置350存储器360通信接口411分块模块413去重复模块415缓储模块417制桶模块418索引更新模块419复制模块440_1~440_m数据桶441_1~441_m块部分443_1~443_m元数据部分445、445_0多组组合索引451数据缓冲区453写入缓冲区455复制缓冲区471、810_0~810_6通用采样索引473、473_0~473_q、830_0~830_3热门采样索引475缓存索引S510~S570方法步骤S610~S660方法步骤810_0~810_6热门采样索引910、920、1010输入数据流S1110~S1160方法步骤S1210~S1270方法步骤S1310~S1360方法步骤t1~t12时间点S2110~S2150方法步骤具体实施方式以下将配合相关附图来说明本专利技术的实施例。在这些附图中,相同的标号表示相同或类似的组件或方法流程。必须了解的是,使用于本说明书中的“包含”、“包括”等词,是用以表示存在特定的技术特征、数值、方法步骤、作业处理、组件以及/或组件,但并不排除可加上更多的技术特征、数值、方法步骤、作业处理、组件、组件,或以上的任意组合。本专利技术中使用如“第一”、”第二”、”第三”等词是用来修饰权利要求中的组件,并非用来表示的间具有优先权顺序,先行关系,或者是一个组件先于另一个组件,或者是执行方法步骤时的时间先后顺序,仅用来区别具有相同名字的组件。必须了解的是,当组件描述为“连接”或“耦接”至另一组件时,可以是直接连结、或耦接至其他组件,可能出现中间组件。相反地,当组件描述为“直接连接”或“直接耦接”至另一组件时,其中不存在任何中间组件。使用于描述组件之间关系的其他语词也可类似方式解读,例如“介于”相对于“直接介于”,或者是“邻接”相对于“直接邻接”等等。本专利技术的实施例提出一种网络架构100,包含客户机及存储服务器,彼此通信以存储备份文件至存储服务器。参考图1。存储服务器110可提供存储容量,用于存储从客户机130_1至130_n接收的不同版本的备份文件,n可以是任意的正整数。每个备份文件可包含操作系统(Operating本文档来自技高网...

【技术保护点】
1.一种文件备份装置,其特征在于,包含:存储装置;以及处理单元,耦接于该存储装置,用于依据上次修改信息分割来源数据流成为第一数据流及第二数据流;于该第一数据流上执行删除重复数据程序以产生及存储独特块至该存储装置,并为该第一数据流产生第一组组合索引的第一部分,该独特块相对于已经存储于该存储装置并且于删除重复数据程序中可搜索出的所有第一数据块是独特的;从该来源数据流的前一版本的第二组组合索引中复制相应于出现在该第二数据流的逻辑位置的组合索引,作为该第一组组合索引的第二部分;依据该来源数据流的逻辑位置合并该第一组组合索引的该第一部分及该第二部分;以及存储该合并后的第一组组合索引至该存储装置,用于指出该第一数据流及该第二数据流中的多个第二数据块实际存储于该存储装置的何处。

【技术特征摘要】
2017.10.27 US 62/577,738;2018.07.10 US 16/031,4821.一种文件备份装置,其特征在于,包含:存储装置;以及处理单元,耦接于该存储装置,用于依据上次修改信息分割来源数据流成为第一数据流及第二数据流;于该第一数据流上执行删除重复数据程序以产生及存储独特块至该存储装置,并为该第一数据流产生第一组组合索引的第一部分,该独特块相对于已经存储于该存储装置并且于删除重复数据程序中可搜索出的所有第一数据块是独特的;从该来源数据流的前一版本的第二组组合索引中复制相应于出现在该第二数据流的逻辑位置的组合索引,作为该第一组组合索引的第二部分;依据该来源数据流的逻辑位置合并该第一组组合索引的该第一部分及该第二部分;以及存储该合并后的第一组组合索引至该存储装置,用于指出该第一数据流及该第二数据流中的多个第二数据块实际存储于该存储装置的何处。2.如权利要求1所述的文件备份装置,其特征在于,该上次修改信息指出自从上次备份后哪些数据块或区域已经改变,以及每一该第一数据块的长度短于该数据块或区域的长度。3.如权利要求1或2所述的文件备份装置,其特征在于,该删除重复数据程序包含:将该第二数据流切分出该第二数据块;计算该第二数据块的指纹;于存储器中准备该第一数据块的采样索引及缓存索引;伴随该采样索引及该缓存索引使用二阶段搜索以辨认每个该第二数据块是独特或重复块;存储该独特块于该存储装置;以及为该第一数据流产生该第一组组合索引的该第一部分。4.如权利要求3所述的文件备份装置,其特征在于,该存储装置存储多个数据桶,每个数据桶存储部分的该第一数据块及该部分的该第一数据块的物理局部保留索引,或该部分的该第一数据块、该部分的该第一数据块的该物理局部保留索引及该部分的该第一数据块的关联历史探测邻块的探测逻辑局部索引;以及该处理单元搜索具有相同于该第一数据流中的逻辑位置的该第一数据块曾使用哪些数据桶以进行去重复操作,及搜集该搜索出的数据桶中的该物理局部保留索引,或该物理局部保留索引及该探测逻辑局部索引,作为该缓存索引。5.如权利要求3所述的文件备份装置,其特征在于,该热门采样索引包含通用采样索引及热门采样索引,以及该热门采样索引关联相同于该第一数据流的操作系统;以及该处理单元添加第一索引至该通用采样索引及从该通用采样索引移除第二索引;判断该第二索引的普及度是否大于该热门采样索引中的最小普及度;及当该第二索引的普及度大于该热门采样索引中的最小普及度时,将热门采样索引中具有最小普及度的索引取代为该第二索引。6.如权利要求3所述的文件备份装置,其特征在于,于第一搜索阶段,判断每个该指纹是否命中该采样索引及该缓存索引中的任何一个,将具有该命中指纹的每个第二数据块标示为重复块,并且扩充该缓存索引;以及于第二搜索阶段,判断每个该指纹是否命中该扩充后的缓存索引中的任何一个,将具有该命中指纹的每个第二数据块标示为重复块,并且将其余第二数据块标示为独特块。7.如权利要求6所述的文件备份装置,其特征在于,该缓存索引包含部分的该第一数据块的物理局部保留索引,及该部分的该第一数据块的关联历史探测邻块的探测逻辑局部索引;以及,当该指纹中的一个命中该探测逻辑局部索引,该处理单元从该存储装置添加包含该命中的探测逻辑局部索引的数据桶中的所有索引于该缓存索引。8.如权利要求6所述的文件备份装置,其特征在于,当该指纹中的一个命中采样索引,该处理单元从该存储装置添加该命中索引的邻近数据桶中的所有索引于该缓存索引。9.如权利要求6所述的文件备份装置,其特征在于,当该指纹中的一个没有命中该缓存索引及该采样索引以及上次命中索引的邻近数据桶中的索引没有存储于该缓存索引,该处理单元从该存...

【专利技术属性】
技术研发人员:许智程谢昀达林经纬吕东烜
申请(专利权)人:群晖科技股份有限公司
类型:发明
国别省市:中国台湾,71

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1