分布式集群节点宕机重启恢复方法技术

技术编号：33542924 阅读：23 留言：0更新日期：2022-05-21 09:55

本发明专利技术公开的一种分布式集群节点宕机重启恢复方法，恢复能力极强，能够极大的提高分布式集群节点宕机带来的损失。本发明专利技术通过下述技术方案实现：在其分布式系统客户端中设置配置参数类属性：配置该属性后，启动节点中的状态机，记录时间、长度信息，默认启动一个定时器任务，根据快照机制，自动完成快照操作，状态机基于快照Raft算法对快照进行优化,完成快照双重触发策略；状态机通过日志管理模块和时间管理模块进行日志提交和时间提交，不断从缓存队列中取出日志提交信息，从领导节点加载最新的镜像文件至本地快照执行器；采用双触发的触发因子，选择性发送RPC请求，实现触发快照断点续传，得到最终的重启恢复数据状态值。得到最终的重启恢复数据状态值。得到最终的重启恢复数据状态值。

全部详细技术资料下载

【技术实现步骤摘要】
分布式集群节点宕机重启恢复方法

[0001]本专利技术涉及分布式领域故障恢复技术，一种分布式系统分布式集群节点的宕机重启恢复方法。

技术介绍

[0002]HRegionServer是HBase中最主要的组件，负责table数据的实际读写，管理Region。在分布式集群中，HRegionServer一般跟DataNode在同一个节点上，目的是实现数据的本地性，提高读写效率。无业务情况下，RegionServer占用CPU高。在HDFS中，DataNode负责存储实际数据。RegionServer主要负责响应用户的请求，向HDFS读写数据。一般在分布式集群中，RegionServer运行在DataNode服务器上，实现数据的本地性。每个RegionServer包含多个Region，它负责的功能如下：处理分批给它的Region。处理客户端读写请求。刷新缓存到HDFS中。处理Region分片。执行压缩。RegionServer是HBase中最核心的模块，其内部管理了一系列Region对象，每个Region由多个HStore组成，每个HStore对应表中一个列族的存储。HBase是按列进行存储的，将列族作为一个集中的存储单元，并且HBase将具备相同I/O特性的列存储到一个列族中，这样可以保证读写的高效性。RegionServer最终将Region数据存储在HDFS中，采用HDFS作为底层存储。HBase自身并不具备数据复制和维护数据副本的功能，而依赖HDFS为HBase提供可靠和稳定的存储。随着Apache HBase在各个...

【技术保护点】

【技术特征摘要】
1.一种分布式集群节点宕机重启恢复方法，具有如下技术特征：基于ESXi虚拟机管理程序中包含的分布式软件层，搭建虚拟存储区域网络VSAN集群，定义Raft状态机的快照Snapshot存储模块，时间管理模块和日志管理模块，创建快照编写器；在其分布式系统客户端中设置配置参数类属性，将快照Snapshot文件的存储路径，配置应用到集群当中，并创建在VSAN集群的所有主机之间共享的单个存储池；快照Snapshot存储模块存储日志管理模块配置变更和用户提交任务日志，把日志从领导Leader节点复制到其它节点上面，将序列化为一条日志存储下来；配置属性后，启动节点中的状态机，初始化和集群中其它节点的通信，让各个节点开始互相通讯，时间管理模块记录时间、长度信息和结束索引，默认启动一个定时器任务，通知对应的节点状态机创建快照Snapshot，根据快照Snapshot机制，判断记录时间和结束索引是否达到临界点，是则更新时间和索引，唤醒阻塞Raft状态机，自动完成快照Snapshot操作，生成快照Snapshot文件，否则进行节点启动，确认是否存在快照Snapshot文件，确认后加载快照Snapshot文件；确定调用方法的循环迭代Break，根据领导Leader节点发送到Follower节点的时间大于状态机日志提交时间，迭代检查属性的值，更新break索引值和break时间，如果该值大于当前迭代的索引值，则立即返回，采用双触发策略对snapshot进行触发快照文件采用分片发送的方式，实现断点续传；集群中的节点根据自身当前情况，基于快照Raft算法对快照snapshot进行优化，自主选择虚拟机存储策略或快照编写器编辑现有存储策略容错方法完成快照Snapshot双重触发策略快照snapshot镜像文件，快照镜像文件对T1～T3时刻内日志数据集合指令进行合并，合并日志数据集合并生成snapshot文件，各节点完成故障恢复后向所述管理节点发送分布式集群节点宕机重启恢复成功信号，管理节点收到集群各节点的宕机重启恢复成功信号后，向各节点发送恢复结束信号，得到最终的宕机重启恢复数据状态值。2.如权利要求1所述的分布式集群节点宕机重启恢复方法其特征在于：快照Snapshot存储模块存储记录Raft配置变更和用户提交任务日志，把日志从领导Leader节点复制到其他节点上面，将序列化为一条日志存储下来，并且VSAN群集中的每个主机为群集提供存储；节点状态机根据初始化的引发快照触发的初始化信息，判断节点当前Raft状态机所记录的信息是否达到触发条件；满足条件进行日志压缩与状态保存，否则序列化节点目前的状态信息，启动新的goroutine传入状态信息、压缩到的日志下标等恢复信息，进行shnapshot处理，当server节点的日志长度超过阈值时启动快照技术。3.如权利要求1所述的分布式集群节点宕机重启恢复方法其特征在于：在状态机中引入缓存队列，存放跟随Leader节点发送的日志信息，日志管理模块在Raft状态机中加入缓存队列存放领导Leader节点发送的日志信息，日志信息先进入到这个缓存队列中定义Raft状态机的Snapshot存储模块，把Leade节点内从起始的T1时刻至当前T3时刻这一时间范围内的所有日志都重新传至本地后提交给Raft状态机，节点状态机根据双触发策略，向日志管理模块和时间管理模块进行日志提交和时间提交，不断从缓存队列中取出日志提交信息，逐条复制T1～T3时刻内的所有日志；当Follower节点过于落后集群整体状态时，快照Snapshot存储模块触发快照Snapshot，从Leader节点加载最新的镜像文件Snapshot_Index_File至本地快照Snapshot执行器。4.如权利要求1所述的分布式集群节点宕机重启恢复方法其特征在于：快照Snapshot执行器采用双触发的触发因子，从Leader节点传给新扩容的Raft节点的数据，对snapshot
文件进行分片发送，通过网络远程接口，从远程计算机程序上请求服务，根据远程过程调用协议RPC发送给跟随Follower节点，跟随Follower节点再根据当前所获得的分片数，选择性发送RPC请求，实现触发快照Snapshot断点续传；客户端(Client)存根，存放服务端(Server)...

【专利技术属性】
技术研发人员：潘路，刘珂，姚红，牛新征，罗涛，
申请(专利权)人：成都西南信息控制研究院有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人