所提供的是在节点添加和节点删除过程中围绕群集来迁移数据块的技术和机制。迁移不需要停机时间,因为在移动数据块的同时,新添加的节点将会即时工作。此外,块映射文件和去重目录也不必更新。
【技术实现步骤摘要】
本公开涉及数据块迁移。
技术介绍
保持庞大的数据量在物理硬件成本以及系统管理和基础架构成本方面都会占用大量的资源。一些机制提供了数据压缩来节约资源。举例来说,某些文件格式是经过压缩的,例如便携文档格式(PDF)。此外,一些其他的实用工具允许在单个文件级上以相对低效的方式执行压缩。数据去重指的是系统通过消除文件中的数据重复来提高存储、传输和/或处理效 率的能力。引入去重技术的存储系统包括多个文件共同的存储数据分段的单个实例。在一些实例中,发送到存储系统的数据被分成了固定或可变大小的分段。每一个分段都配备了一个分段标识符(ID),例如数字签名或实际数据的散列值。一旦生成了分段ID,则可以使用该ID来确定系统中是否已经存在该数据分段。如果存在该数据分段,则没有必要再次存储该分段。在很多常规的实施方式中,有可能需要围绕某个群集来迁移数据块。但是,用于迁移数据块的机制是有限的。因此,在这里提供了用于改善数据块迁移的机制。附图说明通过参考以下结合附图的描述,可以最佳地理解本公开,其中所述附图示出了本专利技术的特定实施例。图I示出的是可以使用本专利技术的技术和机制的系统的特定示例。图2示出的是锁定器的一个示例。图3A示出的是添加节点的一个示例。图3B示出的是执行数据访问的一个示例。图4A示出的是文件映射的一个示例。图4B示出的是数据存储箱体(suitcase)。图5示出的是去重字段的特定示例。图6A示出的是具有单个数据分段的文件的特定示例。图6B示出的是具有多个数据分段和成分的文件的特定示例。图7示出的是计算机系统的特定示例。具体实施例方式现在将会详细参考本专利技术的某些具体示例,这些示例包括专利技术人设想的用于执行本专利技术的最佳模式。在附图中示出了这些具体实施例的示例。虽然本专利技术是结合这些具体实施例描述的,但是应该理解,这并不是为了将本专利技术局限于所描述的实施例。与此相反,其旨在覆盖可能包含在附加权利要求定义的专利技术实质和范围以内的替换、修改和等价物。例如,本专利技术的技术和机制是在数据块的上下文中描述的。然而应该指出的是,本专利技术的技术和机制适用于于各种不同的数据结构,这其中包含了数据块的变体。在以下描述中阐述了众多具体的细节,以便提供关于本专利技术的全面理解。本专利技术的特定例示实施例可以在没有一些或所有这些具体细节的情况下实施。在其他实例中并未详细描述众所周知的处理操作,以免不必要地与本专利技术混淆。为了清楚起见,有时会以单数形式描述本专利技术的不同技术和机制。但应该指出的是,除非以别的方式加以注解,否则一些实施例包含了某种技术的多次迭代或是某种机制的多次实例化。例如,系统在多种上下文中使用处理器。但应该预料到的是,除非以别的方式加以注释,否则系统可以使用多个处理器,同时保持处于本专利技术的范围以内。此 外,本专利技术的技术和机制有时会描述两个实体之间的连接。应该指出的是,两个实体之间的连接未必意味着直接无阻碍的连接,因为在两个实体之间有可能驻留了多种其他实体。例如,处理器可以连接到存储器,但应该预料到的是,多种桥接器和控制器可以驻留在处理器与存储器之间。因此,除非以别的方式加以注解,否则连接未必意味着直接无阻碍的连接。鐘述在这里提供的是用于在节点添加和节点删除过程中围绕群集迁移数据块的技术和机制。所述迁移不需要停机时间,因为新添加的节点会在数据块被移动的同时立刻工作。块映射文件和去重字典没有必要更新。例示实施例保持、管理、传送和/或处理大量数据的成本有可能会很高。这些成本不但包括供电和冷却成本,而且还包括系统维护、网络带宽以及硬件成本。目前业已作出了一些努力来减少文件服务器保持的数据的占位(footprint),以及减小相关联的网络业务量。在将数据写入文件服务器之前,有多种实用工具可对单个文件进行压缩。压缩算法是比较完善且非常普及的。一些压缩算法的目标是特定类型的数据或特定类型的文件。压缩算法采用多种方式工作,但是很多压缩算法会通过分析数据来确定数据中可以映射成较短码字的源序列。在很多实施方式中,最频繁出现的源序列或是最频繁出现的长源序列会被最短的可能码字所取代。通过减少冗余数据量,数据去重处理减少了存储占位。去重处理可以包括识别可变或固定大小的分段。根据不同的实施例,数据的每一个分段都是用散列算法处理的,例如MD5或SHA-1。该处理为每一个分段产生了唯一的ID、散列值或引用。换言之,如果仅仅改变了文档或演示的少量字节,那么所存储的仅仅是发生变化的部分。在在一些实例中,去重系统使用固定或滑动窗口来搜索匹配序列,并且使用引用来识别匹配序列,而不是再次存储匹配序列。在数据去重系统中,与备份代理协作的备份服务器识别用于备份的候选文件,创建备份流,并且将数据发送到去重系统。去重系统中的典型的目标系统会在接收到数据分段时对数据进行去重。具有已经保存在去重系统上的副本的块没有必要被再次存储。但是,诸如引用和引用计数之类的其他信息有可能需要更新。通过揭示可供用户操作来备份和归档文件的NAS驱动器,一些实施方式允许在不使用备份软件的情况下将候选数据移动到去重系统。在一个活动文件系统中,在系统操作过程中有可能需要添加或删除节点。通常,较为理想的是能够面对节点添加和节点删除而围绕群集迁移数据。根据不同的实施例,群集中的每一个块映射和数据存储箱体都具有箱体ID或SCID。SCID标识的是节点和块映射或是数据存储箱体,因此,SCID可以全局识别一个位于群集内部的文件。根据不同的实施例,本专利技术的技术和机制顾及了根据节点添加和删除来将节点映射到SCID的处理。在限制或避免数据拷贝的同时,节点映射有可能发生变化。在特定实施例中,其中不必通过扫描每一个SCID来更新每一个块映射,从而修改SCID。本专利技术的技术可以应用于具有任意数量的节点的任何群集环境。当添加新节点时,数据可以在节点上被重新平衡。同样,在调度删除某个节点的时候,这时只要从所要删除的节点拷贝数据即可从该节点重新分发数据。现有的很多映射函数都存在多个缺陷。很多映射函数是难以计算的,并且有可能需要众多的处理器周期。映射函数有可能需要在映射函数发生变化的时候改写键值,并且有可能在添加节点的时候需要在现有节点之间执行额外的数据拷贝处理。在向具有两个节 点的群集添加新节点时,效率较低的解决方案有可能需要将数据拷贝至新节点,以及将数据从节点I拷贝节点2并且从节点2拷贝到节点I。根据本专利技术的不同实施例,数据只被拷贝到新节点。根据不同的实施例,节点编号可以使用一个函数而从SCID中获取,例如#defineget_the_node_number_from_the_scid(_scid_)\scid_to_node_array。映射函数允许使用一个键值来定义保持数据的节点。根据不同的实施例,在生成新键值的时候,映射函数有可能发生变化。键值自身可以包含节点编号,因此,键值可以是在节点之间未进行通信的情况下在每个节点上独立分配的。在特定实施例中,在节点添加或删除过程中不必通过改写键值来将数据块重新分配到不同的节点。当添加节点时,这时可以将任意数量的数据从每个节点拷贝至新节点,以便在群集上重新平衡数据。图I显示的是多租户按需式基础架构。包括与虚拟图像101、103、105、107和109相对应的虚拟机在内的多个虚拟机在共享了多个本文档来自技高网...
【技术保护点】
一种方法,包括:从数据存储群集接收添加新节点的请求;生成与映射函数相关联的多个新键值,所述映射函数标识的是与特定键值相对应的特定节点;将数据从多个现有节点拷贝到新节点,以便重新平衡数据存储群集上的数据。
【技术特征摘要】
...
【专利技术属性】
技术研发人员:V·贾亚拉曼,A·丁卡尔,M·泰勒,G·拉奥,M·E·罗特,M·巴什依姆,
申请(专利权)人:戴尔产品有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。