选择用于去重复数据的存储区制造技术

技术编号:12838049 阅读:92 留言:0更新日期:2016-02-11 01:20
一种技术包括向对象被分布在其上的多个存储区中的至少一些存储区传送与对象相关联的第一数据的样本的签名,以及响应于所述传送,接收指示存储在多个存储区中的相应至少一些存储区上的样本的数目的响应,以及至少部分地基于存储区上的数据存储的模式和所述数目来调节与第一数据相关联的去重复数据被存储在多个存储区中的哪个存储区上。

【技术实现步骤摘要】
【国外来华专利技术】【专利说明】
技术介绍
为了如果数据变为被损坏、被盖写、经历病毒攻击等则将网络上的数据(例如,包含在一个或多个文件中的数据)恢复成先前状态的目的,典型的计算机网络可以具有备份和恢复系统。备份和恢复系统典型地包括大容量存储设备,诸如磁带驱动器和/或硬驱动器;并且该系统可以包括物理和/或虚拟可移除存储设备。例如,备份和恢复系统可以将备份数据存储在磁带上,并且在将备份数据转移到给定磁带之后,磁带可以从其带驱动器移除并且被存储在安全位置,诸如防火保险柜中。备份和恢复系统可以替代地是基于虚拟带库的系统,其模拟并且替代物理磁带驱动系统。以该方式,利用基于虚拟带库的系统,虚拟带盒(cartridge)代替磁带来存储备份数据。【附图说明】图1是根据示例性实现方式的计算机网络的示意图。图2是根据示例性实现方式的数据存储系统的图示。图3和图4是根据示例性实现方式的由图2的数据存储系统使用来选择组成员以接收去重复数据的竞价(bidding)过程的图示。图5是根据示例性实现方式的跨多个组成员的成组(teamed)对象的存储分布的图示。图6是描绘根据示例性实现方式的用于将成组对象存储在组成员的集群上的技术的流程图。图7、图8A和图8B是描绘根据示例性实现方式的用于选择用于存储去重复数据的组成员的技术的流程图。图9是描绘根据示例性实现方式的用于取回(retrieval)和报告部分成组对象数据的技术的流程图。图10是用于图示根据示例性实现方式的从组成员取回成组对象数据的表。图11是描绘根据示例性实现方式的用于在组成员之中分布主对象清单的技术的流程图。图12是根据示例性实现方式的主对象清单的分布的图示。图13是根据示例性实现方式的对重复数据的组成员控制的复制的图示。图14是根据示例性实现方式的非水合复制过程的图示。【具体实施方式】参考图1,示例性计算机网络100可以包括备份和恢复系统,所述备份和恢复系统包括在相应服务器110 (作为示例在图1中描绘为服务器110-1、110-2…110Q)上执行的备份应用132和附属客户端应用134。以该方式,备份应用132时常向附属客户端应用134标识数据以在网络100的备份存储设备上备份。该数据进而根据本文称为“对象”的数据容器而被划分。存储在备份存储区(store)上的给定对象逐个备份会话地被创建、删除和修改。如本文公开的,在本文讨论的其许多功能之中,客户端应用134被构造为标识对象数据中的改变;选择其上存储有更新的数据的存储区;并且将更新的数据传送到所选择的存储区。作为示例,“存储区”可以是独立的计算机系统或相同计算机系统上的独立存储子系统。对于图1的具体示例,存储区在各个节点150上形成(作为示例在图1中描绘为P个节点150-1、150-2…150P),其经由网络连接140 (取决于特定实现方式,局域网(LAN)连接、基于因特网的连接、广域网(WAN)连接、这样连接的组合等)耦合到服务器110。如本文公开的,给定对象作为“成组对象”被存储在存储区的集群或群组上。由于成组的性质,“存储区”在本文中也被称为“组成员170”。以该方式,根据示例性实现方式,针对给定“成组对象”的每个组成员170存储针对该对象的“去重复数据”,其中,所述去重复数据是从初始数据集合形成的数据连同表示初始存储的数据中的改变的数据。这样,可以从针对给定的成组对象的组成员170取回去重复数据以“再水合(rehydrate)”或重构该对象。通常,服务器110是由实际硬件120和实际机器可执行指令或“软件” 130组成的物理机。在这方面,给定服务器110可以包括这样的硬件120,如一个或多个中央处理单元(CPU)122、存储器124、网络接口 126等。通常,存储器124是非临时性存储器,诸如磁存储、光存储、从半导体器件形成的存储等。存储器124可以本地存储用于服务器110的数据,以及存储在由(一个或多个)CPU 122执行时使得(一个或多个)CPU提供机器可执行指令130的一个或多个组件的指令。如图1所示,机器可执行指令130包括备份应用132和客户端应用134、以及创建、修改和删除对象的其他可能的其他应用。给定组成员170可以在处理节点150上形成,处理节点150也是由实际硬件158和实际机器可执行指令159组成的实际物理机。硬件158作为示例可以包括一个或多个中央处理单元(CPU)160、网络接口和存储器162。存储器162是非临时性存储器,并且取决于特定实现方式可以是基于磁存储的存储器、基于光存储的存储器、基于半导体存储的存储器等。节点150可以包括机器可执行指令159,机器可执行指令159包括例如组成员客户端应用168。因此,根据示例性实现方式,存在于可能多个节点150上的组成员170的集群或群组可以形成针对给定成组对象的存储。此外,虽然本文中描述为存在于不同的节点150上,但是根据另外的实现方式,给定的成组对象可以被存储在独立的组成员上,其中两个或更多个组成员位于相同节点150上。因此,预计到在所附权利要求的范围内的许多实现方式。结合图1参考图2,根据示例性实现方式,成组对象208可以向给定客户端应用134呈现为单个逻辑对象,但是针对对象208的数据被分布在组成员170的群组或集群上。成组对象的该逻辑呈现向应用提供单个存储池,其横跨集群内的原本(otherwise)独立的存储池。根据一些实现方式,客户端应用134不在本地存储关于给定成组对象的内容的任何信息。这允许多个客户端应用134,并且因此多个备份应用132同时访问相同成组对象,并且还避免产生特定客户端应用134和所存储的数据之间的相关性。如本文进一步公开的,为了简化与现有备份应用的集成,每个组成员170可以知道给定成组对象的其他组成员170,并且可以向客户端应用134指示其位置。这允许备份应用132连接到组成员170中的任何一个,并且还允许客户端应用134静默地开放与所有组成员170的连接。这可以帮助避免暴露复杂配置,并且允许在备份应用132内的成组对象的管理,其可以例如被设计有单端点拓扑。因为给定的成组对象涉及多个独立操作的组成员170,根据一些实现方式,客户端应用134将来自多个组成员170的信息合并成被传送到附属备份应用132的有意义的信息。以该方式,根据一些实现方式,给定的组成员170可以存储单独的列表、数据作业记录、拷贝作业记录等,给定的客户端应用134可以将其合并成针对备份应用132的有意义的信息。对于在列表中返回的许多字段,客户端应用134提供来自跨组成员存储区的所有返回值的汇总,例如所存储的用户数据量。对于其他字段,客户端应用134可以将单独的状态“包封”成总体状态,诸如例如(一个或多个)最严重的状态。当客户端应用134执行跨组成员170中的每一个的列表操作时,不保证在列表中的条目的绝对次序。例如,可以实际上同时创建两个成组对象,并且对于给定的组成员170,可以首先存储对象一,而在另一给定其他组成员170上,可能已经首先创建了对象二。为了向备份应用132提供单个稳定列表的目的,使用通用标识,并且使用列表操作来在查找关联记录的合理时间窗内跨存储进行搜索。通过具有在其内运行搜索的基于时间的窗口,可以避免下述情况,其中,每当成员170本文档来自技高网...

【技术保护点】
一种方法,包括:向对象被分布在其上的多个存储区中的至少一些存储区传送与对象相关联的第一数据的样本的签名;响应于所述传送,接收指示存储在多个存储区中的相应至少一些存储区上的样本的数目的响应;以及至少部分地基于存储区上的数据存储的模式和所述数目来调节与第一数据相关联的去重复数据被存储在多个存储区中的哪个存储区上。

【技术特征摘要】
【国外来华专利技术】

【专利技术属性】
技术研发人员:K钱德拉塞克哈兰PT坎布尔A托德S佩利DM巴瓦特
申请(专利权)人:惠普发展公司有限责任合伙企业
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1