跨集群冗余配置中的非间断的控制器替换制造技术

技术编号:16112537 阅读:22 留言:0更新日期:2017-08-30 05:53
在从第一节点向第二节点的存储冗余交还期间,在由第一节点从第二节点的存储冗余接管之后,第二节点部分地通过接收来自第二节点的节点标识指示符而被初始化。节点标识指示符被包括在由第二节点在存储冗余交还的交还等待阶段期间发送的节点通告消息中。节点标识指示符包括由第一节点使用以确定第二节点是否是集群内接管伙伴的集群内节点连接性标识符。响应于确定第二节点是集群内接管伙伴,第一节点完成向第二节点交还存储资源。

【技术实现步骤摘要】
【国外来华专利技术】跨集群冗余配置中的非间断的控制器替换相关申请本申请要求2014年11月13日提交的、题为“NON-DISRUPTIVECONTROLLERREPLACEMENTINACROSS-CLUSTERREDUNDANCYCONFIGURATION(跨集群冗余配置中的非间断的控制器替换)”的美国专利申请No.14/541,119的优先权,该申请通过引用并入本文。
技术介绍
所公开的主题的实施例一般地涉及存储网络领域,更特别地,涉及跨集群冗余配置内的存储控制器替换。计算机集群实现分布式计算形式。计算机集群由节点集合组成,所述节点以协作的方式配置并通信地耦合,以共享资源并在某些方面作为单个系统而操作。集群的部件通常包括多个服务器节点以及通过局域网(LAN)而互连的一个或多个集群管理节点,其中每个节点运行公共操作系统的其自身的实例。集群经常被部署,以在通常比具有可比速度或可用性的单个计算机更成本高效的同时,将性能和可用性改进到优于集中式计算的性能和可用性。存储集群是通常以包括多个互连的存储节点为特征的一种类型的网络化计算机集群。每个存储节点由耦合到诸如存储盘或固态驱动器(SSD)阵列的大容量存储单元的控制器组成,有时被称为“后台数据”的数据存储在大容量存储单元上。存储节点控制器执行类似服务器的功能,以用于优化对包括所存储的数据的存储资源的访问和使用。大容量存储单元可以是提供长期、非易失性数据存储的独立磁盘冗余阵列(RAID)。确保对后台数据的连续、非中断访问是大多数存储集群的重要功能。所谓的高可用性(HA)存储经常用于在对给定存储节点的操作的中断的事件中确保对后端数据的非中断访问。中断可能由于硬件或软件故障,或由于存储节点的维护(例如,替换)。HA配置可以定义集群(HA集群),或者可以是集群配置特征,诸如在以其他方式定义的集群内的一个或多个HA对。在任一情况下,基本的HA存储配置由在系统控制代码和有关配置设置的管理下执行互相备份作用的至少两个稍独立的存储节点组成。简单地,当节点之一故障时,另一节点立即承担对其HA伙伴节点的操作和存储的控制。分布式数据存储的与日俱增的规模已经唤起在集群内备份冗余以外扩大对存储数据的保护及非中断访问的需求。这种需求正在通过集群间的数据冗余的普及而得以满足。诸如在数据中心内的、可能物理上相隔几十或甚至几百千米的集群之间的存储冗余,使用诸如通过数据镜像的数据复制。以这种方式,数据及对数据的非中断访问被保护,以防止可能例如由功率损失而导致的全站故障。附图说明可以通过参考随附的附图更好地理解实施例。图1是描绘了根据本公开的实施例的、诸如可以在存储集群内用于备份冗余的高可用性(HA)控制器对的框图;图2是图示了根据本公开的实施例的存储节点的框图;图3是描绘了根据本公开的实施例的跨集群存储冗余配置的框图;图4是图示了根据本专利技术的实施例的、由高可用性(HA)对在存储控制器替换期间及其后执行的操作的流程图;图5是描绘了根据本专利技术的实施例的、由跨集群存储冗余配置的成员节点在存储控制器替换后执行的操作的流程图;以及图6描绘了用于实现图1-图5中所示的实施例的示例计算机系统。具体实施方式以下描述包括体现所公开的主题的技术的示例系统、方法、技术、指令序列及计算机程序产品。然而,应当理解,所描述的实施例可以在没有这些特定细节中的一个或多个的情况下被实践。没有详细示出众所周知的指令实例、协议、结构和技术,以免混淆描述。如本文中所使用的,具有或者不具有附加描述符的术语“节点”(例如,存储节点、控制节点等)可以指代集群配置标识符或诸如图2中所描绘的控制器设备。被配置为HA对的集群存储广泛用于提供分布式存储,同时防止成员设备中的系统硬件和/或软件故障。节点接管(通常称为“故障转移”)是在存储节点故障或异常终止时由HA对使用以提供对所存储的数据的非中断访问的标准机制。本质上,故障转移使备份节点诸如通过执行存储冗余接管来承担对先前由故障节点控制的存储设备和网络连接的控制,使得备份节点可以提供非中断的数据可用性。在故障节点恢复时,可以执行存储冗余交还以将对存储设备和网络连接的控制交还给此时已恢复的故障节点。跨集群数据冗余被设计为防止诸如滚动硬件故障之类的较大规模的故障,并且有时以“灾难恢复”冗余或“站点恢复”冗余的措辞被提及。同步数据镜像及非易失性随机存取存储器(NVRAM)写缓存复制可以用于在两个站点之间维持一致的操作状态和聚合数据的版本,不同于给定集群的本地节点,这两个站点不共享数据存储设备。在一个实施例中,本公开涉及在跨集群冗余配置内维持针对控制器替换的HA操作连续性。A.高可用性集群环境图1是描绘了一对节点105a和105b的示意性框图,节点105a和105b作为高可用性(HA)集群对100被互连、且被配置为提供与大容量存储设备上的信息的组织和访问有关的存储服务。节点105a和105b包括协作以提供HA故障转移冗余以及分布式存储系统架构的各种功能部件。为此,节点105a和105b中的每一个被配置为网络元件(N模块104a和104b)及数据存储元件(D模块106a和106b)。N模块104a和104b中的每一个包括使得相应的节点104a和104b能够例如通过计算机网络116连接到客户端102的功能,而D模块106a和106b中的每一个连接到一个或多个存储设备,诸如分别在存储阵列125a和125b内的存储驱动器115a-m和115b-n。节点105a和105b通过集群交换结构120而互连,集群交换结构120在所描绘的实施例中可以是千兆以太网交换机。存储阵列125a和125b中的每一个上的信息存储被优先地实施为被称为存储卷的一个或多个可寻址区域,其驻留在物理存储驱动器115a-m和115b-n的集合上,物理存储驱动器115a-m和115b-n的集合协作以定义一个或多个卷上的卷块编号空间的整体逻辑布置。尽管不是必然的,但每个逻辑卷通常与其自身的文件系统相关联。逻辑卷/文件系统内的存储驱动器可以包括固态驱动器(SSD)和/或磁盘的任何组合,并且通常被组织为一个或多个组,其中每个组可以被操作为独立磁盘冗余阵列(RAID)。如图1中所进一步描绘的,节点105a和105b还跨集群互连118而耦合,集群互连118提供节点之间的附加通信路径。集群互连118可以是光纤信道(FC)、无限带宽技术或另一适当的传送介质。集群互连118可以用于传送节点105a与节点105b之间的“心跳”信号,这些信号用于监测每个节点的活动状态。集群心跳信号还跨集群交换结构120发送,在集群交换结构120上N模块104与D模块106之间的通信被说明性地传送。节点故障由通过集群互连和存储层二者的心跳丢失来指示。集群互连118还充当存储接管互连。也就是说,如果心跳信号终止(例如,“超时”),那么故障转移/接管进程通过集群互连118开始。客户端102可以是被配置为根据信息递送的客户端/服务器模型与节点105a和105b交互的通用计算机。也就是说,客户端102可以或直接或经由托管服务器请求节点的服务,并且该节点通过经由网络116交换分组来响应客户端服务请求。当访问以文件和目录的形式的信息时,客户端可以通过传输控制协议/因特网协议(TCP/IP)发出包括基于文件的本文档来自技高网...
跨集群冗余配置中的非间断的控制器替换

【技术保护点】
一种用于在存储集群环境内管理节点的方法,所述方法包括:在从第一节点向第二节点的存储冗余交还期间,在由所述第一节点从所述第二节点的存储冗余接管之后初始化所述第二节点,其中初始化所述第二节点包括:从所述第二节点接收包括集群内节点连接性标识符的节点标识指示符,以及基于所述集群内节点连接性标识符,来确定所述第二节点是否是集群内接管伙伴,以及响应于确定所述第二节点是集群内接管伙伴,执行存储资源从所述第一节点向所述第二节点的交还。

【技术特征摘要】
【国外来华专利技术】2014.11.13 US 14/541,1191.一种用于在存储集群环境内管理节点的方法,所述方法包括:在从第一节点向第二节点的存储冗余交还期间,在由所述第一节点从所述第二节点的存储冗余接管之后初始化所述第二节点,其中初始化所述第二节点包括:从所述第二节点接收包括集群内节点连接性标识符的节点标识指示符,以及基于所述集群内节点连接性标识符,来确定所述第二节点是否是集群内接管伙伴,以及响应于确定所述第二节点是集群内接管伙伴,执行存储资源从所述第一节点向所述第二节点的交还。2.根据权利要求1所述的方法,其中所述确定所述第二节点是否是集群内接管伙伴包括:将从所述第二节点接收的所述集群内节点连接性标识符与所述第一节点的集群内连接性信息进行比较。3.根据权利要求1或2所述的方法,进一步包括:在所述存储冗余交还的交还等待阶段期间,接收由所述第二节点发送的、且包括所述节点标识指示符的节点通告消息。4.根据权利要求1至3中的任一项所述的方法,其中所述第一节点和所述第二节点经由一个或多个交换机耦合到存储设备,并且其中所述集群内节点连接性标识符包括所述交换机中的至少一个交换机的至少一个标识符。5.根据权利要求1至4中的任一项所述的方法,其中所述初始化所述第二节点进一步包括:引导所述第二节点,并且其中所述接收节点标识指示符出现在所述引导的交还阶段期间。6.根据权利要求1至5中的任一项所述的方法,其中所述第一节点和所述第二节点被配置为第一存储集群中的第一高可用性(HA)存储控制器对,并且其中所述存储集群环境进一步包括被配置为第二存储集群中的HA存储控制器对的第三节点和第四节点,所述方法进一步包括:响应于存储资源从所述第一节点向所述第二节点的所述交还,读取由所述第二节点本地存储的跨集群配置信息的副本,其中所述第一节点、所述第三节点及所述第四节点单独地存储所述跨集群配置信息的相应本地副本,并且其中所述第一节点、所述第二节点、所述第三节点及所述第四节点属于基于所述跨集群配置信息而被配置的跨集群存储冗余配置,确定由所述跨集群配置信息的所述第二节点本地副本指定的存储控制器设备标识符不同于与所述第二节点内的存储控制器设备相关联的标识符,以及响应于确定由所述第二节点本地副本指定的所述存储控制器设备标识符不同于与所述第二节点内的存储控制器设备相关联的标识符,向所述第一节点、所述第三节点及所述第四节点发送存储控制器替换消息。7.根据权利要求6所述的方法,进一步包括:所述第二节点基于所述存储控制器替换消息,确定所述第一节点、所述第三节点及所述第四节点每个具有所述跨集群配置信息的修改的本地存储副本;以及响应于确定所述第一节点、所述第三节点及所述第四节点每个具有所述跨集群配置信息的修改的本地存储副本,所述第二节点修改所述跨集群配置信息的其本地存储副本。8.根据权利要求6或7所述的方法,其中跨集群重新配置消息指定与节点配置标识符相关联的控制器设备标识符,所述方法进一步包括:所述第一节点、所述第三节点及所述第四节点中的每个节点基于所述节点配置标识符,分别选择所述跨集群配置信息的相应本地存储副本内的控制器设备标识符以用于替换;以及所述第一节点、所述第三节点及所述第四节点中的每个节点基于所述选择,分别替换所述跨集群配置信息的相应本地存储副本内的控制器设备标识符。9.一种用于在存储集群环境内管理节点的计算机程序产品,所述计算机程序产品包括:非暂态机器可读介质,具有通过其来体现的程序代码,所述程序代码当在所述存储集群环境内被执行时使得所述存储集群环境:在从第一节点向第二节点的存储冗余交还期间,在由所述第一节点从所述第二节点的存储冗余接管之后初始化所述第二节点,其中初始化所述第二节点的所述程序代码包括以下程序代码:从所述第二节点接收包括集群内节点连接性标识符的节点标识指示符,以及基于所述集群内节点连接性标识符,来确定所述第二节点是否是集群内接管伙伴,以及响应于确定所述第二节点是集群内接管伙伴,执行存储资源从所述第一节点向所述第二节点的交还。10.根据权利要求9所述的计算机程序产品,其中通过确定所述第二节点是否是集群内接管伙伴来初始化所述第二节点的所述程序代码包括:将从所述第二节点接收的所述集群内节点连接性标识符与所述第一节点的集群内连接性信息进行比较的程序代码。11.根据权利要求9或10所述的计算机程序产品,其中初始化所述第二节点的所述程序代码包括:用于引导所述第二节点的程序代码,并且其中所述接收出现在所述引导的交还阶段期间。12.根据权利要求9、10或11中的任一项所述的计算机程序产品,其中所述第一节点和所述第二节点被配置为第一存储集群中的第一高可用性(HA)存储控制器对,并且其中所述存储集群环境进一步包括:被配置为第二存储集群中的HA存储控制器对的第三节点和第四节点,所述程序代码进一步包括以下程序代码:响应于存储资源从所述第一节点向所述第二节点的所述交还,读取由...

【专利技术属性】
技术研发人员:A·V·帕纳拉C·V·帕特尔H·克雷曼P·V·马伊穆达S·乌尼克里斯南S·K·埃尔普拉S·M·科亚特尼
申请(专利权)人:NETAPP股份有限公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1