System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及数据交换网络,特别是涉及一种数据中心网元故障调度方法、一种电子设备。
技术介绍
1、网元是用户vpc(virtual private cloud,虚拟私有云)与外界南北向通信的重要桥梁,网元一般会被规划运行于特定的网络节点,一旦网络节点发生故障,网元将无法正常工作,数据中心无法对外提供服务。当网络节点出现故障或者网络分区隔离时,应当即使将出现问题的网络节点进行隔离,将运行其上的网元调度到其他正常工作的网络节点,以继续提供网络服务。
2、传统网络设备会运行bfd(bidirectional forwarding detection,双向转发检测)检测,进行设备之间的快速通信故障检测,以便能够及时采取措施,如切换路由指向备用设备,以保证业务持续运行。bfd是一个点对点的故障检测方式,如网络设备分别于上联、下联设备建立bfd。而数据中心一般运行虚拟化网络如:ovs(open vswitch),此时网元的上联设备是物理交换机,可以运行bfd,但网元的下联设备是虚拟化网络设备,网元转发下行流量的下一跳为虚拟交换机网关,但是网关是分布式的,无法像物理设备那样建立bfd。一种方法是把虚拟化交换机网关固定到某个主机节点上,但是这样会引入新的单点故障与流量转发瓶颈,实在不可取。
3、本质上,网元的下联虚拟设备的物理载体是所有的计算节点,故可以让所有计算节点需要与网元运行一种类似bfd的探测,这样网元数量多时导致大量的不必要的探测流量,再者每个计算节点都会有自己的裁决结果,而管理上往往希望能明确哪个网元在提供服
4、现有的解决方案有:网络节点运行vrrp(virtual router redundancy protocol,虚拟路由冗余协议),vrrp选举中成为leader的节点将接管所有网元,其他节点成为备份节点,不对外提供服务。该方案存在的问题是:vrrp是一个主备工作的模型,同一时间只有一个网络节点在工作,资源存在大量浪费;再者,vrrp一般需要参与选举节点位于同一个二层网络,多可用区数据中心往往运行于多个机房,难以为分布于多个机房的网络节点提供二层网络环境。因此,vrrp这种方式不适合于多可用区、大量规模集群的场景,比较适合于运行于小规模、单可用区的场景。
5、现有的解决方案有:通过一个固定的集群外部或者集群内部的监控服务,去探测网络节点的可用性,然后调度网元。这种方案的问题是:十分依赖监控服务于网络节点之间的物理链路情况,经常容易造成误判,造成网元服务的抖动;监控服务和调度服务的本身可用性没有保障。同时,如果这些服务部署集群外部,探测会因为长链路变得不可靠;如果部署于集群某个可用区中,一旦该可用区故障,便无法提供服务。
6、综上,我们需要一种适用于大规模、多可用区数据中心的、可靠的、集群自治的网元故障调度的方法。
技术实现思路
1、本专利技术实施例是提供一种数据中心网元故障调度方法、装置、电子设备以及计算机可读存储介质,适用于大规模、多可用区数据中心集群自治的网元故障调度。
2、本专利技术实施例公开了一种数据中心网元故障调度方法,数据中心集群包括一个以上的可用区,每一可用区内预先选取有代表网络节点,所有可用区的代表网络节点内均部署仲裁模块、调度模块和网络配置存储集群,所述方法包括:
3、主仲裁模块向所有仲裁模块发送探测网络节点请求,以使所有仲裁模块根据探测网络节点请求对所有网络节点进行探测;所述主仲裁模块为所有仲裁模块通过竞争确定的主仲裁模块;
4、主仲裁模块接收所有仲裁模块反馈的探测结果,根据联合仲裁机制确定是否存在故障网络节点;
5、若存在,则根据故障网络节点信息更新网络配置存储集群,以使主调度模块根据更新的网络配置存储集群中故障网络节点信息,将故障网络节点上运行的网元调度到数据中心集群内非故障网络节点。
6、可选地,主仲裁模块向所有仲裁模块发送探测网络节点请求之前,所述方法还包括:
7、所有代表网络节点内的仲裁模块通过分布式锁方式,选举出主仲裁模块;
8、和/或,
9、所有代表网络节点内的调度模块通过分布式锁方式,选举出主调度模块。
10、可选地,主仲裁模块向所有仲裁模块发送探测网络节点请求,包括:
11、所述主仲裁模块向网络配置存储集群发送网元信息列表获取请求,接收网络配置存储集群根据网元信息列表获取请求返回的列表信息;
12、所述主仲裁模块根据列表信息,向所有仲裁模块发送探测网络节点请求,所述探测网络节点请求包括:用于对列表信息中每一网络节点进行探测的信息。
13、可选地,主仲裁模块接收所有仲裁模块反馈的探测结果,根据联合仲裁机制确定是否存在故障网络节点,包括:
14、所述主仲裁模块汇总探测结果中每一网络节点的回复报文信息,所述回复报文为网络节点响应仲裁模块发送的探测报文在指定时间内回复的报文;
15、确定过半仲裁模块是否探测到某一网络节点存在不可用的故障。
16、可选地,所述网络配置存储集群为分布式键值数据库etcd。
17、本专利技术实施例还公开一种数据中心网元故障调度方法,数据中心集群包括一个以上的可用区,每一可用区内预先选取有代表网络节点,所有可用区的代表网络节点内均部署仲裁模块、调度模块和网络配置存储集群,所述方法包括:
18、主调度模块监听到网络配置存储集群中存在故障网络节点,则向网络配置存储集群发送故障网络节点的配置信息获取请求;
19、主调度模块接收网络配置存储集群根据配置信息获取请求返回的故障网络节点的网元配置信息;
20、主调度模块根据网元配置信息和数据中心集群中非故障网络节点的信息,将故障网络节点上运行的网元调度到非故障网络节点上;
21、其中,所述故障网络节点为主仲裁模块和所有仲裁模块交互探测到的不可用网络节点,并更新至网络配置存储集群中。
22、可选地,主调度模块根据网元配置信息和数据中心集群中非故障网络节点的信息,将故障网络节点上运行的网元调度到非故障网络节点上,包括:
23、主调度模块根据网元配置信息和非故障网络节点的优先级,将故障网络节点上运行的网元调度到优先级高的非故障网络节点上。
24、可选地,所述方法还包括:
25、主调度模块根据网络节点出现故障的频次,故障时长,调整网络节点的优先级并更新到网络配置存储集群中。
26、可选地,若非故障网络节点存在影子网元,则主调度模块根据网元配置信息和数据中心集群中非故障网络节点的信息,将故障网络节点上运行的网元调度到非故障网络节点上,包括:
27、主调度模块根据网元配置信息,将故障网络节点上运行的网元调度到到非故障网络节点的影子网元上;
28、所述影子网元与故障网络节点的网元配置相同且处于就绪未提供服务本文档来自技高网...
【技术保护点】
1.一种数据中心网元故障调度方法,其特征在于,数据中心集群包括一个以上的可用区,每一可用区内预先选取有代表网络节点,所有可用区的代表网络节点内均部署仲裁模块、调度模块和网络配置存储集群,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,主仲裁模块向所有仲裁模块发送探测网络节点请求之前,所述方法还包括:
3.根据权利要求1所述的方法,其特征在于,主仲裁模块向所有仲裁模块发送探测网络节点请求,包括:
4.根据权利要求1所述的方法,其特征在于,主仲裁模块接收所有仲裁模块反馈的探测结果,根据联合仲裁机制确定是否存在故障网络节点,包括:
5.根据权利要求1所述的方法,其特征在于,所述网络配置存储集群为分布式键值数据库Etcd。
6.一种数据中心网元故障调度方法,其特征在于,数据中心集群包括一个以上的可用区,每一可用区内预先选取有代表网络节点,所有可用区的代表网络节点内均部署仲裁模块、调度模块和网络配置存储集群,所述方法包括:
7.根据权利要求6所述的方法,其特征在于,主调度模块根据网元配置信息和数据中心集群中非
8.根据权利要求6所述的方法,其特征在于,所述方法还包括:
9.根据权利要求6所述的方法,其特征在于,若非故障网络节点存在影子网元,则主调度模块根据网元配置信息和数据中心集群中非故障网络节点的信息,将故障网络节点上运行的网元调度到非故障网络节点上,包括:
10.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,所述处理器、所述通信接口以及所述存储器通过所述通信总线完成相互间的通信;
...【技术特征摘要】
1.一种数据中心网元故障调度方法,其特征在于,数据中心集群包括一个以上的可用区,每一可用区内预先选取有代表网络节点,所有可用区的代表网络节点内均部署仲裁模块、调度模块和网络配置存储集群,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,主仲裁模块向所有仲裁模块发送探测网络节点请求之前,所述方法还包括:
3.根据权利要求1所述的方法,其特征在于,主仲裁模块向所有仲裁模块发送探测网络节点请求,包括:
4.根据权利要求1所述的方法,其特征在于,主仲裁模块接收所有仲裁模块反馈的探测结果,根据联合仲裁机制确定是否存在故障网络节点,包括:
5.根据权利要求1所述的方法,其特征在于,所述网络配置存储集群为分布式键值数据库etcd。
6.一种数据中心网元故障调度方法,其特征在于,数据中心集群包括一...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。