本发明专利技术的一方面包括允许在客户端(源)位置和服务器(目标)位置两者上执行重复数据删除活动的存储管理系统配置。所述重复数据删除操作的位置然后可以根据系统状况或预定策略进行优化。在一个实施例中,通过使用统一的重复数据删除过程算法以及访问同一重复数据删除索引(包含有关散列的数据块的信息)来实现在客户端和服务器之间的重复数据删除活动的无缝切换。此外,对数据块的任何数据转换是在识别数据块之后执行的。因此,使用该存储配置,所述存储系统可以找到并利用通过客户端或服务器端重复数据删除产生的匹配块。
【技术实现步骤摘要】
【国外来华专利技术】
本专利技术一般地涉及在数据存储系统内执行的数据存储和维护操作。更具体地说, 本专利技术涉及一种用于通过在数据源和目标两者上执行重复数据删除(deduplication)活动,有效地在存储管理系统中执行重复数据删除的集成方法。
技术介绍
重复数据删除(消除冗余数据的过程)正在成为在存储系统中部署的重要技术。 重复数据删除可以减少所需的存储容量,因为仅存储每个唯一的数据部分。在典型的配置中,诸如存储管理服务器或VTL (虚拟磁带库)之类的基于盘的存储系统能够检测冗余数据 “区” (extent)(也称为“块” (chunk))并且通过避免对这样的区进行冗余存储来减少重复。 例如,重复数据删除存储系统可以将文件A分为数据块a_h,检测到数据块b和e为冗余数据,并且将所述冗余数据块仅存储一次。所述冗余可能在文件A中出现,也可能在存储系统中存储的其他文件中出现。存在对数据对象进行重复数据删除的已知技术。但是,现有的重复数据删除解决方案不允许共享在源或目标上执行的重复数据删除操作所产生的数据块。客户被迫部署低效且不完整的重复数据删除设备(appliance),或者在无法共享已执行重复数据删除的数据的两个产品上部署重复数据删除。
技术实现思路
本专利技术的一方面包括使用执行重复数据删除的集成方法解决上述问题的解决方案。在一个实施例中,一种系统配置允许在源(客户端)和目标(服务器)重复数据删除活动之间进行无缝切换(如在此互换地使用那样,客户端为源,服务器为目标)。所述切换可以在文件级或节点级(节点是目标存储服务器内看到的来自源客户端的所有数据的表示) 上发生。因此,客户端节点A可以被配置为执行源端重复数据删除,而客户端节点B将被配置为执行目标端重复数据删除。此外,由目标或源上执行的重复数据删除活动产生的块可以在多个节点之间以及在不同文件之间重复使用。在本专利技术的一个实现中,此集成重复数据删除功能是通过部署同一重复数据删除过程和在源和目标之间共享重复数据删除索引来实现的。诸如压缩和加密之类的任何数据转换在数据块的指纹识别(fingerprinting)和散列识别之后执行,以确保在整个存储管理系统的任何部分上存储的数据块都相互完全相同。在其他实现中,提供了判定重复数据删除位置的策略,以允许对将在客户端或者服务器环境中执行的重复数据删除的范围进行自动的和粒度的定义。尽管本公开针对客户端和服务器描述了本专利技术的各方面,但是本专利技术并不限于客户端-服务器实现。相反,所公开的操作可以应用于涉及源和目标之间已执行重复数据删除的数据的存储和检索的任何解决方案。本专利技术的一个实施例允许在分布式存储管理系统中的源位置或目标位置上执行数据文件重复数据删除。所述存储管理系统具有与目标计算系统相连的源计算系统,以及位于所述目标计算系统内的目标数据存储。所述存储管理系统进一步维护用于跟踪在所述目标数据存储内存储的已执行重复数据删除的数据块的共享索引。在一个实施例中,所述共享索引作为数据库进行共享,并且可由源计算机器和目标计算机器中的每个进行访问。替代地,共享索引可通过在源和所述目标之间实现数据块信息的通信的客户端-服务器协议进行访问。提供了重复数据删除过程以对要存储在目标数据存储内的数据块执行重复数据删除。重复数据删除是通过在目标计算系统或源计算系统上执行重复数据删除指令来执行的。因此,使用重复数据删除过程将数据文件转换为一组已执行重复数据删除的数据块。在重复数据删除之后,该组已执行重复数据删除的数据块存储在目标数据存储内,并且在共享索引中更新该组已执行重复数据删除的数据块的重复数据删除信息。该组已执行重复数据删除的数据块可以在以后恢复到源。进一步的实施例使用指纹识别算法定义数据块,但是只要源和目标使用同一种机制,被选择定义数据块的任何机制都将是可行的。在一个实施例中,所述重复数据删除过程包括用于将数据分为可变大小块的指纹识别算法和用于识别源计算系统和所述目标计算系统中的每个上的重复数据块的散列算法。替代地,所述重复数据删除过程可以包括用于在源计算系统上执行的重复数据删除活动的第一组指纹识别和散列算法,以及用于在目标计算系统上执行的重复数据删除活动的第二组指纹识别和散列算法。此外在进一步的实施例中,数据转换在指纹识别和散列识别之后执行。这些数据转换可以包括压缩和加密中的一项或两项。响应于将所述一组已执行重复数据删除的数据块恢复到源计算机器,可由源计算机器针对每个数据块撤消所述数据转换。替代地,在将所述一组已执行重复数据删除的数据块恢复到源计算机器之前,可由目标计算机器撤消所述转换。本专利技术的另一实施例根据使用选定策略在分布式存储管理系统中的源位置或目标位置上执行数据文件的重复数据删除。该存储管理系统还被配置为支持与目标计算系统相连的源计算系统,其中目标数据存储位于目标计算系统内,并且存储在目标数据存储中的数据的重复数据删除信息通过共享索引进行管理。在该实施例中,针对将要存储在目标数据存储内的数据文件的重复数据删除选择散列算法。在该实施例中,应用从多个已定义策略中选定的策略以判定重复数据删除活动在源计算机器上或者在目标计算机器上的位置。使用选定的重复数据删除过程在所判定的位置上对数据文件执行重复数据删除,并且在共享索引内更新数据文件的重复数据删除信息。在进一步的实施例中,除了其他因素之外,可以根据时间、系统负荷、文件类型、文件特征、客户端节点和策略域来选择所述选定策略。附图说明现在将仅通过举例,参考下面的附图中所示的优选实施例对本专利技术进行描述,这些附图是图1A-1C示出在现有技术中公知的分别在源、目标和设备上执行重复数据删除活动的存储管理系统的示例配置;图2A示出根据本专利技术的一个实施例在源上执行集成重复数据删除活动的存储管理系统的示例配置;图2B示出根据本专利技术的一个实施例在目标上执行集成重复数据删除活动的存储管理系统示例配置;图3示出显示根据本专利技术的一个实施例如何在源上执行重复数据删除活动的流程图;以及图4示出显示根据本专利技术的一个实施例在存储系统内的源和目标上执行重复数据删除的示例操作的流程图。具体实施例方式本专利技术的各种实施例实现了对存储管理系统内发生的重复数据删除活动的优化控制。现有的存储系统只在一个位置上执行重复数据删除活动。与之相比,此处公开的配置实现了可以在数据源位置和数据目标位置中的任何一个或两个上执行的集成和优化的重复数据删除过程。在现有的存储管理配置中,通过唯一地在源、目标或外部存储设备上执行重复数据删除活动产生了若干折衷。本专利技术的各种实施例通过允许在源或目标上执行重复数据删除过程,解决了这些限制。这使得能够成功地存储、查找和使用在存储系统中通过客户端或服务器端重复数据删除产生的匹配数据块。本专利技术的各种实施例进一步提供了响应于多种因素,对重复数据删除活动的增强控制。整个存储管理系统中执行的重复数据删除活动的位置可以根据特定的策略、文件类型、条件或其他已定义的设置在粒度级别上进行控制。在用于对数据对象执行重复数据删除的典型的重复数据删除过程中,首先使用诸如Rabin指纹之类的方法将对象分为多个数据块。通过使用诸如MD5或SHA-I之类的散列函数产生每个数据块的散列值,然后将该值与系统上已存储的块的值进行比较,来检测冗余数据块。这些已存储块的散列本文档来自技高网...
【技术保护点】
【技术特征摘要】
【国外来华专利技术】...
【专利技术属性】
技术研发人员:A·霍赫贝格,D·M·坎农,J·P·史密斯,D·G·范希瑟,M·亚库舍夫,M·安格林,
申请(专利权)人:A·霍赫贝格,D·M·坎农,J·P·史密斯,D·G·范希瑟,M·亚库舍夫,M·安格林,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。