一种数据库集群故障自愈方法及装置制造方法及图纸

技术编号:25041079 阅读:17 留言:0更新日期:2020-07-29 05:32
本申请提供了一种数据库集群故障自愈方法,包括:监测分布式数据库集群中各个服务器的运行状态参数,并生成监测日志;若运行状态参数超出预先设定的对应监测阈值,则对相应的进程或线程执行终止操作;根据预先设定的时间算法启动故障查找,生成查找日志;将监测日志和查找日志中的报错记录进行解析,对故障信息进行处理形成查询条件;根据查询条件,在知识库中查询故障问题,获得相应的解决方案,进行故障修复。本申请还提供另一种数据库集群故障自愈装置。本申请的方法和装置在查找过程中避免死等待,保证了自查程序的自启动和数据库集群健康状态;且通过构建标准知识库的方式进行不断更新解决方案,增强自愈能力。

【技术实现步骤摘要】
一种数据库集群故障自愈方法及装置
本专利技术涉及数据库故障修复,具体涉及一种数据库集群故障自愈方法及装置。
技术介绍
随着各个领域数据化和信息化的发展,业务数据的价值越来越受到行业重视。数据库是云计算的核心,云平台能够存储体量较大的数据,通过对数据的挖掘可以从中获取社会规律、经济规律等信息,应用至行业发展的分析预测中。数据库集群可以更加深入地挖掘数据的价值。但是数据库集群在使用的过程中,可能因为系统原因或人为操作关闭,导致数据集群不可用或者数据丢失。现有的修复方法,通常需要数据库管理人员及时监控数据库运行情况,并及时对数据库集群进行修复,修复效率低。
技术实现思路
专利技术目的:本申请的目的在于提供一种数据库集群故障自愈方法及装置,解决数据库集群故障修复效率低的缺陷。技术方案:本专利技术一方面提供了一种数据库集群故障自愈方法,包括:监测分布式数据库集群中各个服务器的运行状态参数,并生成监测日志;若任一运行状态参数超出预先设定的对应的监测阈值,则对导致运行状态参数超出预先设定的对应监测阈值的进程或线程执行终止操作;根据各个服务器的运行状态,在集群上查找未运行的程序或硬件,并按照未运行的程序或硬件优先的原则,根据预先设定的时间算法启动故障查找,生成查找日志;将监测日志和查找日志中的报错记录进行解析,得到故障信息,对故障信息进行处理形成查询条件;根据查询条件,在预先构建的标准知识库中查询故障问题,获得相应的解决方案,并在当前数据库集群中运行解决方案对应的脚本,进行故障修复。进一步地,根据预先设定的时间算法启动故障查找,包括以下步骤:获取程序或硬件当前的运行状态参数;若运行状态参数均未超出预先设定的第一查找阈值,则以预先设定的故障查找启动概率来启动故障查找;若任一运行状态参数超出预先设定的第一查找阈值,则对导致参数超出第一查找阈值的线程或进程执行终止操作,每执行终止操作一次逻辑时钟累计一次;在故障查找的过程中,若运行状态参数均未超出预先设定的第二查找阈值,则故障查找过程执行完毕;否则,对导致参数超出第二查找阈值的线程或进程执行终止操作,每执行终止操作一次逻辑时钟累计一次。进一步地,根据预先设定的时间算法启动故障查找,还包括:若逻辑时钟达到或超出预先设定的逻辑时钟最大值,则检查点后暂停当前运行的数据库事务。进一步地,将监测日志和查找日志中的报错记录进行解析,得到故障信息,对故障信息进行处理形成查询条件,包括:对监测日志和查找日志中的报错记录进行解析,得到故障信息;根据预先设置的停用词,对故障信息中的停用词进行删除,对删除停用词的故障信息进行分词,得到查询词;将查询词转化为sparkSQL查询条件,查询条件适用于知识语义搜索引擎。进一步地,标准知识库通过以下步骤构建:搜集现有数据库中存在的软硬件问题及解决方案,生成数据库运维日志;对数据库运维日志中的数据进行规范化处理,形成规范化的数据库问题清单及解决方案;参照规范化的解决方案,将规范化的数据库问题在指定环境中进行仿真,直至问题得以解决;将仿真得到的解决方案编写脚本,得到与规范化问题对应的解决脚本;将规范化的问题及解决脚本对应存储,形成标准知识库。本申请另一方面提供了一种数据库集群故障自愈装置,包括:监测模块,监测分布式数据库集群中各个服务器的运行状态参数,并生成监测日志;监测执行模块,被配置为若任一运行状态参数超出预先设定的对应监测阈值,则对导致运行状态参数超出预先设定的对应监测阈值的进程或线程执行终止操作;故障查找模块,被配置为根据各个服务器的运行状态,在集群上查找未运行的程序或硬件,并按照未运行的程序或硬件优先的原则,根据预先设定的时间算法启动故障查找,生成查找日志;查询条件生成模块,被配置为将监测日志和查找日志中的报错记录进行解析,得到故障信息,对故障信息进行处理形成查询条件;知识库查询模块,被配置为在预先构建的标准知识库中查询故障问题,获得相应的解决方案,并在当前数据库集群中运行解决方案对应的脚本,进行故障修复。进一步地,故障查找模块,包括:参数获取单元,被配置为获取程序或硬件当前的运行状态参数;启动查找单元,被配置为若运行状态参数均未超出预先设定的第一查找阈值,则以预先设定的故障查找启动概率来启动故障查找;第一操作单元,被配置为若任一运行状态参数超出预先设定的第一查找阈值,则对导致参数超出第一查找阈值的线程或进程执行终止操作,每执行终止操作一次对逻辑时钟进行一次累计;终止查找单元,被配置为在故障查找的过程中,若运行状态参数均未超出预先设定的第二查找阈值,则故障查找过程执行完毕;第二操作单元,被配置为在故障查找的过程中,若任一运行状态参数超出预先设定的第二查找阈值,则对导致参数超出第二查找阈值的线程或进程执行终止操作,每执行终止操作一次对逻辑时钟进行一次累计。进一步地,故障查找模块,还包括:时钟控制单元,被配置为若逻辑时钟达到或超出预先设定的逻辑时钟最大值,则检查点后暂停当前运行的数据库事务。进一步地,查询条件生成模块包括:日志解析单元,被配置为对监测日志和查找日志中的报错记录进行解析,得到故障信息;查询词确定单元,被配置为根据预先设置的停用词,对故障信息中的停用词进行删除,并对删除停用词的故障信息进行分词,得到查询词;查询条件确定单元,被配置为将查询词转化为sparkSQL查询条件,查询条件可适用于知识语义搜索引擎。进一步地,本申请的装置还包括:标准知识库构建模块,标准知识库构建模块包括:搜集单元,被配置为搜集现有数据库中存在的软硬件问题及解决方案,生成数据库运维日志;处理单元,被配置为对数据库运维日志中的数据进行规范化处理,形成规范化的数据库问题清单及解决方案;仿真单元,被配置为参照规范化的解决方案,将规范化的数据库问题在指定环境中进行仿真,直至问题得以解决;脚本生成单元,被配置为将仿真得到的解决方案编写脚本,得到与规范化问题对应的解决脚本;存储单元,被配置为将规范化的问题及解决脚本对应存储,形成标准知识库。有益效果:与现有技术相比,本申请用脚本实现数据库管理员排查问题的模式,无需数据管理员进行人工逐一排查,提高效率和准确率,可快速解决大部分典型的数据库故障问题,修复效率高。附图说明图1为本专利技术的数据库集群故障自愈方法的流程图;图2为本专利技术的自我查找程序启动时间算法的流程图;图3为本专利技术的数据库集群故障自愈装置的系统框图。具体实施方式下面结合附图和实施例对本专利技术做进一步描述:本专利技术提供了一种数据库集群故障自愈方法,如图1所示,包括:S101监测分布式数据库集群中各个服务器的运行状态参数,并生成监测日志;运行状态参数包括CPU、本文档来自技高网...

【技术保护点】
1.一种数据库集群故障自愈方法,其特征在于,包括:/n监测分布式数据库集群中各个服务器的运行状态参数,并生成监测日志;/n若任一运行状态参数超出预先设定的对应的监测阈值,则对导致运行状态参数超出预先设定的对应监测阈值的进程或线程执行终止操作;/n根据各个服务器的运行状态,在集群上查找未运行的程序或硬件,并按照未运行的程序或硬件优先的原则,根据预先设定的时间算法启动故障查找,生成查找日志;/n将所述监测日志和查找日志中的报错记录进行解析,得到故障信息,对故障信息进行处理形成查询条件;/n根据查询条件,在预先构建的标准知识库中查询故障问题,获得相应的解决方案,并在当前数据库集群中运行所述解决方案对应的脚本,进行故障修复。/n

【技术特征摘要】
1.一种数据库集群故障自愈方法,其特征在于,包括:
监测分布式数据库集群中各个服务器的运行状态参数,并生成监测日志;
若任一运行状态参数超出预先设定的对应的监测阈值,则对导致运行状态参数超出预先设定的对应监测阈值的进程或线程执行终止操作;
根据各个服务器的运行状态,在集群上查找未运行的程序或硬件,并按照未运行的程序或硬件优先的原则,根据预先设定的时间算法启动故障查找,生成查找日志;
将所述监测日志和查找日志中的报错记录进行解析,得到故障信息,对故障信息进行处理形成查询条件;
根据查询条件,在预先构建的标准知识库中查询故障问题,获得相应的解决方案,并在当前数据库集群中运行所述解决方案对应的脚本,进行故障修复。


2.根据权利要求1所述的方法,其特征在于,所述根据预先设定的时间算法启动故障查找,包括以下步骤:
获取程序或硬件当前的运行状态参数;
若所述运行状态参数均未超出预先设定的第一查找阈值,则以预先设定的故障查找启动概率来启动故障查找;
若任一运行状态参数超出预先设定的第一查找阈值,则对导致参数超出所述第一查找阈值的线程或进程执行终止操作,每执行终止操作一次逻辑时钟累计一次;
在故障查找的过程中,若所述运行状态参数均未超出预先设定的第二查找阈值,则故障查找过程执行完毕;否则,对导致参数超出所述第二查找阈值的线程或进程执行终止操作,每执行终止操作一次逻辑时钟累计一次。


3.根据权利要求2所述的方法,其特征在于,所述根据预先设定的时间算法启动故障查找,还包括:
若所述逻辑时钟达到或超出预先设定的逻辑时钟最大值,则检查点后暂停当前运行的数据库事务。


4.根据权利要求1所述的方法,其特征在于,所述将所述监测日志和查找日志中的报错记录进行解析,得到故障信息,对故障信息进行处理形成查询条件,包括:
对所述监测日志和查找日志中的报错记录进行解析,得到故障信息;
根据预先设置的停用词,对故障信息中的停用词进行删除,对删除停用词的故障信息进行分词,得到查询词;
将查询词转化为sparkSQL查询条件,所述查询条件适用于知识语义搜索引擎。


5.根据权利要求1所述的方法,其特征在于,所述标准知识库通过以下步骤构建:
搜集现有数据库中存在的软硬件问题及解决方案,生成数据库运维日志;
对数据库运维日志中的数据进行规范化处理,形成规范化的数据库问题清单及解决方案;
参照规范化的解决方案,将规范化的数据库问题在指定环境中进行仿真,直至问题得以解决;
将仿真得到的解决方案编写脚本,得到与规范化问题对应的解决脚本;
将规范化的问题及解决脚本对应存储,形成标准知识库。


6.一种数据库集群故障自愈装置,其特征在于,包括:
监测模块,监测分布式数据库集群中各个服务器的运行状态参数,并生成监测日志;
监测执行模块,被配置为若任一运行状态...

【专利技术属性】
技术研发人员:胡俊军杨波闫润珍王琼俞俊林开云
申请(专利权)人:国网电力科学研究院有限公司国电南瑞科技股份有限公司国网甘肃省电力公司国网甘肃省电力公司信息通信公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1