本发明专利技术公开了一种具有预恢复功能的文件级连续数据保护方法,包括保护过程、恢复过程和挖掘过程,挖掘过程以预先设定的最小支持度和保护过程获取的局部I/O序列作为输入,通过挖掘得到局部频繁项集库,并将局部频繁项集库提供给恢复过程使用;在恢复过程中重点是利用两次恢复请求之间的等待时间进行预恢复操作,以达到减少RTO的目的。本发明专利技术利用用户判断时间进行时间和空间两个维度上的预恢复,也就是利用系统空闲时间恢复部分用户可能会需要的文件,将恢复测试文件时间与用户判断时间尽可能的重合,以减少RTO。本发明专利技术借鉴计算机存储系统中的预取概念,应用在连续数据保护领域,利用系统空闲时间提前进行部分文件的恢复,能够有效减少RTO,提高文件级连续数据保护系统的性能。
【技术实现步骤摘要】
本专利技术属于数据存储领域,具体涉及。该方法能够实现在时间和空间两个维度上的预恢复功能,减少用户的恢复时间。
技术介绍
目前,连续数据保护(Continuous Data Protection,CDP)是最热门的数据保护方式。连续数据保护能够持续捕获和保存数据变化,并将变化后的数据独立于初始数据进行保存。利用连续数据保护,用户可以将数据恢复到过去任意一个时间点,从时间上极大地保护了用户数据。在业界,有两个重要指标用来衡量一个数据保护系统RTO(Recovery Time Object,恢复时间目标)^P RPO(Recovery Point Object,恢复点目标)。RTO表示在发现故障后,多长时间可以恢复数据和系统的正常运行,简单的理解就是恢复数据时的时间开销。 RTO越小越好,理论上立即恢复(RTO = O)是最佳。RPO表示在发现故障后,数据和业务能够恢复到出现故障时的多长时间以前,简单的理解就是恢复数据后所丢失的数据量。例如 用户早上8点备份了数据,而中午12点时数据丢失损坏。此时,如果用户用早上8点的数据进行恢复,那么RPO就是4小时。同样RPO也是越小越好,理论上一点数据都不丢(RP0 =0)是最好。连续数据保护方法根据保护粒度的不同分为块级、文件级和应用级。块级连续数据保护实现简单,但是灵活性不好,且不能提供语义。在用户需要将某一文件恢复到过去某一个时刻时,首先要将这个文件所在的卷恢复到过去的那个时刻,然后才能得到此文件。同时由于块级连续数据保护不能提供语义,所以不能保证已经恢复了的文件是完整可用的版本,这大大增加了 RT0。文件级连续数据保护是以文件为基本粒度进行的,能够拦截用户对文件的1/0请求,并对文件改变进行保护。文件级连续数据保护维护了同一个文件在时间上的不同版本,每一个版本都是完整可用的。文件级连续数据保护具有语义,并有很好的灵活性。目前,文件级连续数据保护是企业界和计算机科学家们共同的关注热点。在理论上和实际中文件级连续数据保护的RPO都为0,但是RTO往往比较大,成为了文件级连续数据保护发展的一个瓶颈。主要的原因在于大多数情况下用户并不知道故障的确切发生时间,即用户并不知道需要将数据恢复到哪一个时间点。所以在实际中经常发生这样的情况用户先将部分文件恢复到过去的某一个时间点,查看这些恢复后的文件,确定故障是在这个时间点之前还是之后发生的;然后再将部分文件恢复到在此之前或者之后的某一个时间点,往复几次后,确定了真正需要恢复的时间点,之后才将所需要的全体数据进行恢复。事实上用户会多次恢复多个文件到过去的多个时间点来确定真正需要恢复的时间点。因此在实际应用中的RTO是以下三部分操作的时间之和为了确定真正需要的恢复时间点所进行的对多个文件的多次恢复操作的时间消耗(简称为恢复测试文件时间)、用户阅读判断测试文件的时间消耗(简称为用户判断时间)和恢复所需全部数据的恢复时间消耗(简称为恢复时间)。其中,恢复测试时间和用户判断时间是不可测因素,成为RTO 居高不下的一个重要原因。频繁模式挖掘算法是数据挖掘中很重要的一个方向,目前已有一些经典算法,例如Apriori算法等,具体参见《数据挖掘原理与算法》毛国君著清华大学出版社,ISBN: 7302106312 ;《数据挖掘导论》[美]Pang-Ning TanMichael Steinbach Vipin Kumar 著人民邮电出版社ISBN :71151414440
技术实现思路
本专利技术的目的在于提供,该方法能够有效的减少RTO。本专利技术提供的,包括保护过程和恢复过程,其特征在于,该方法还包括挖掘过程,挖掘过程利用频繁模式挖掘算法,通过挖掘保护过程中收集到的I/O序列,得到I/O请求之间的关联关系,以此对恢复过程中用户的输入进行预测,并根据预测得到的结果提前进行恢复,以减少RTO。所述恢复过程按照步骤Rl至R14进行Rl初始化建立目标文件队列NF,预恢复文件队列PF,已恢复文件库ND,并初始化 NF、PF和ND为空;其中,NF,PF和ND中的每一个元素均是一个二元组,拥有两个属性文件路径和目标时间;R2接收来自用户的恢复请求,得到目标文件F和目标恢复时间点T ;R3在已恢复文件库ND中查找F和T,如果找到,将F和T加入目标文件队列NF,然后进入步骤R6 ;如果没有在ND中找到F和T,进入步骤R4 ;R4恢复目标文件F到T时刻;R5将F和T分别加入已恢复文件库ND和目标文件队列NF ;R6更新预恢复文件队列PF ;R7判断预恢复文件队列PF是否为空,如果为空,进入步骤R8 ;如果不为空,进入步骤R9 ;R8等待用户请求,如果用户请求来到,进入R13 ;R9取预恢复文件队列PF头部的第一个元素(P1, T1),在已恢复文件库ND中查找 (P1, T1),如果不存在,进入步骤RlO ;如果存在,进入步骤Rll ;RlO恢复P1到T1时刻,将(P1, T1)加入到已恢复文件库ND ;Rll从预恢复文件队列PF中删除(P1, T1);R12判断是否有请求达到,如果没有,进入步骤R7 ;如果有请求达到,进入步骤 R13 ;R13判断请求类型,如果是结束请求,进入R步骤14;如果是恢复请求,进入步骤 R2 ;R14 结束。本专利技术利用用户判断时间进行时间和空间两个维度上的预恢复,也就是利用系统空闲时间恢复部分用户可能会需要的文件,将恢复测试文件时间与用户判断时间尽可能的重合,以减少RT0。本专利技术借鉴计算机存储系统中的预取概念,应用在连续数据保护领域,利用系统空闲时间提前进行部分文件的恢复,能够有效减少RT0,提高文件级连续数据保护系统的性能。附图说明图1是整体关系图;图2是恢复过程的流程图;图3是恢复过程的状态转换图;图4是预恢复文件队列更新过程的流程图。具体实施例方式本专利技术能够将RTO减少到什么程度,取决于用户需要的文件有多少已经被预恢复了。灾难发生后,如果用户除了第一个以外的需要恢复的文件,都已经被预恢复了,实现了恢复测试文件时间与用户判断时间的几乎重合,那么本专利技术将达到最好的效果。于是分析用户行为模式,提出有效的预恢复算法成为核心问题。当灾难发生后,用户在不知道确切的故障发生时间时,会先恢复部分文件来确定故障发生时间。一般情况下,用户会恢复他比较熟悉的、经常操作的文件。在计算机系统来说,也就是最近最频繁操作的文件。很可能,用户将一个文件恢复到过去某一个时间点后, 发现并不能通过此文件判断出这个时间点距离故障时间点的远近,还需要再恢复其他的文件进行辅助判断。在平时的业务处理中,这些文件往往一起进行操作,具有内容相关性。举个例子,在数据库中,表之间经常有共同的列,一般情况下会将相关的几个表一起进行处理。在I/O序列中,我们也会常看到某些文件项集(几个文件排成的序列,顺序不一定)出现的频率很高。由此,有效的预恢复算法要能够找到使用频繁的文件和出现频繁的文件项集(简称为频繁项集)。使用频繁的单个文件就是文件个数是1的频繁项集。另外,在用户确定确切的故障发生时间时,会需要将部分文件恢复到多个时间点进行判断。基于以上分析,我们的预恢复算法要找到包含用户目前输入文件的频繁项集和这个文件在时间上之前和之后的版本。找到同一个文件在时间轴上的不同版本是连续数据保本文档来自技高网...
【技术保护点】
1.一种具有预恢复功能的文件级连续数据保护方法,其特征在于,该方法包括保护过程、恢复过程和挖掘过程,挖掘过程以预先设定的最小支持度和保护过程获取的局部I/O序列作为输入,通过挖掘得到局部频繁项集库,并将局部频繁项集库提供给恢复过程使用;所述恢复过程按照步骤R1至R14进行:R1初始化:建立目标文件队列NF,预恢复文件队列PF,已恢复文件库ND,并初始化NF、PF和ND为空;其中,NF,PF和ND中的每一个元素均是一个二元组,拥有两个属性:文件路径和目标时间;R2接收来自用户的恢复请求,得到目标文件F和目标恢复时间点T;R3在已恢复文件库ND中查找F和T,如果找到,将F和T加入目标文件队列NF,然后进入步骤R6;如果没有在ND中找到F和T,进入步骤R4;R4恢复目标文件F到T时刻;R5将F和T分别加入已恢复文件库ND和目标文件队列NF;R6更新预恢复文件队列PF;R7判断预恢复文件队列PF是否为空,如果为空,进入步骤R8;如果不为空,进入步骤R9;R8等待用户请求,如果用户请求来到,进入R13;R9取预恢复文件队列PF头部的第一个元素(P1,T1),在已恢复文件库ND中查找(P1,T1),如果不存在,进入步骤R10;如果存在,进入步骤R11;R10恢复P1到T1时刻,将(P1,T1)加入到已恢复文件库ND;R11从预恢复文件队列PF中删除(P1,T1);R12判断是否有请求达到,如果没有,进入步骤R7;如果有请求达到,进入步骤R13;R13判断请求类型,如果是结束请求,进入R步骤14;如果是恢复请求,进入步骤R2;R14结束。...
【技术特征摘要】
1.一种具有预恢复功能的文件级连续数据保护方法,其特征在于,该方法包括保护过程、恢复过程和挖掘过程,挖掘过程以预先设定的最小支持度和保护过程获取的局部I/ 0序列作为输入,通过挖掘得到局部频繁项集库,并将局部频繁项集库提供给恢复过程使用;所述恢复过程按照步骤Rl至R14进行Rl初始化建立目标文件队列NF,预恢复文件队列PF,已恢复文件库ND,并初始化NF、 PF和ND为空;其中,NF, PF和ND中的每一个元素均是一个二元组,拥有两个属性文件路径和目标时间;R2接收来自用户的恢复请求,得到目标文件F和目标恢复时间点T ; R3在已恢复文件库ND中查找F和T,如果找到,将F和T加入目标文件队列NF,然后进入步骤R6 ;如果没有在ND中找到F和T,进入步骤R4 ; R4恢复目标文件F到T时刻;R5将F和T分别加入已恢复文件库ND和目标文件队列NF ; R6更新预恢复文件队列PF ;R7判断预恢复文件队列PF是否为空,如果为空,进入步骤R8 ;如果不为空,进入步骤R9 ;R8等待用户请求,如果用户请求来到,进入R13 ;R9取预恢复文件队列PF头部的第一个元素(P1, T1),在已恢复文件库ND中查找(P1, T1),如果不存在,进入步骤RlO ;如果存在,进入步骤Rll ;RlO恢复P1到T1时刻,将(P1, T1)加入到...
【专利技术属性】
技术研发人员:曹强,黄建忠,谢长生,李欣,叶松,
申请(专利权)人:华中科技大学,
类型:发明
国别省市:83
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。