一种分布式数据库故障预警方法、装置、设备和存储介质制造方法及图纸

技术编号:27252519 阅读:25 留言:0更新日期:2021-02-04 12:30
本发明专利技术公开了一种分布式数据库故障预警方法、装置、设备和存储介质,分布式数据库故障预警方法,包括:接收统计模块发送的第一信号、第二信号,当识别出第一信号则判断分布式数据库集群中long_task占比超过第一阈值;接收预测模块发送的第三信号、第四信号,当识别出第三信号则判断分布式数据库集群中未来预设时间段t1内分布式数据库集群的queue_size数目超过第二阈值;当布式数据库集群中long_task占比超过第一阈值或者未来预设时间段t1内分布式数据库集群的queue_size数目超过第二阈值,则输出预警信号。实现更加准确的对数据库未来可能发生的故障进行预警,从而避免当故障发生时恢复速度慢造成的损失。发生时恢复速度慢造成的损失。发生时恢复速度慢造成的损失。

【技术实现步骤摘要】
一种分布式数据库故障预警方法、装置、设备和存储介质


[0001]本专利技术涉及分布式数据库故障预警,具体为一种分布式数据库故障预警方法、装置、设备和存储介质。

技术介绍

[0002]分布式数据库在集群负载较高时均会出现处理效率降低的现象,此时极容易造成集群无法正常使用,一旦集群处于这种状态,恢复起来耗费时长较多,会对业务造成很大的影响,尤其是在目前互联网直播、网络购物平台销售物品过程中,将会给使用者带来巨大损失,单纯设置报警阈值,而且布式数据库集群的负载可能受到多种因素的影响,并不能做到准确的对集群可能出现的状态做出预警,虽然这种局限可以依靠放低预警标准进行一定程度掩盖,但同时也会造成很多的误报警,因此,提前预知集群负载较高的发生,成为亟待解决的问题。

技术实现思路

[0003]为了解决上述技术问题,本专利技术的目的在于提供一种分布式数据库故障预警方法、装置、设备和存储介质,解决目前存在的问题。
[0004]为达到上述目的,本专利技术提供的技术方案如下:
[0005]根据本专利技术的一个方面,一种分布式数据库故障预警方法,包括:
[0006]接收统计模块发送的第一信号、第二信号,当识别出第一信号则判断分布式数据库集群中long_task占比超过第一阈值;
[0007]接收预测模块发送的第三信号、第四信号,当识别出第三信号则判断分布式数据库集群中未来预设时间段t1内分布式数据库集群的queue_size数目超过第二阈值;
[0008]当布式数据库集群中long_task占比超过第一阈值或者未来预设时间段t1内分布式数据库集群的queue_size数目超过第二阈值,则输出预警信号。
[0009]进一步的,所述第一信号、第二信号发送过程为:
[0010]设分布式数据库集群中节点数为N,每个节点的cpu数为M;
[0011]所述统计模块统计分布式数据库集群中task_info总的task数和long_task数;
[0012]当分布式数据库集群中总的task数超过M*N同时long_task占比超过第一阈值时生成并发送第一信号,否则生成并发送第二信号。
[0013]进一步的,所述第三信号、第四信号发送过程为:
[0014]预测模块对未来预设时间段t1内分布式数据库集群queue_size的变化趋势
[0015]当未来预设时间段t1内分布式数据库集群的queue_size数目超过第二阈值则生成并发送第三信号,否则生成并发送第四信号。
[0016]进一步的,所述预测模块提取时间段t2内thread_pool中排队的线程的数目queue_size序列作为样本输入到预设模型中进行训练,利用训练好的所述模型对预设时间段t1的queue_size变化趋势进行预测,t2可取一周、多周或一个月。
[0017]进一步的,所述第一阈值为40%-60%;
[0018]和/或
[0019]所述第二阈值为100*N,其中,N=分布式数据库集群中节点数;
[0020]和/或
[0021]所述t1的取值范围为0.5-2h。
[0022]第一阈值、第二阈值t1、t2也可以根据实际情况选择其他数值;
[0023]根据本专利技术的另一个方面,一种分布式数据库故障预警装置,包括:
[0024]统计模块,配置用于,根据分布式数据库集群中long_task占比是否超过第一阈值,发出第一信号或第二信号;
[0025]预测模块,配置用于,根据分布式数据库集群中未来预设时间段t1内分布式数据库集群的queue_size数目是否超过第二阈值,发出第三信号或第四信号;
[0026]通信模块,配置用于,接收统计模块发送的第一信号、第二信号,接收预测模块发送的第三信号、第四信号;
[0027]判断模块,配置用于,当布式数据库集群中long_task占比超过第一阈值或者未来预设时间段t1内分布式数据库集群的queue_size数目超过第二阈值,则输出预警信号。
[0028]进一步的,所述统计模块发送第一信号、第二信号过程为:
[0029]设分布式数据库集群中节点数为N,每个节点的cpu数为M;
[0030]统计分布式数据库集群中task_info总的task数和long_task数,当分布式数据库集群中总的task数超过M*N同时long_task占比超过第一阈值时生成并发送第一信号,否则生成并发送第二信号。
[0031]进一步的,所述预测模块发送第三信号、第四信号过程为:
[0032]预测模块对未来预设时间段t1内分布式数据库集群queue_size的变化趋势
[0033]当未来预设时间段t1内分布式数据库集群的queue_size数目超过第二阈值则生成并发送第三信号,否则生成并发送第四信号。
[0034]进一步的,所述预测模块还配置用于,
[0035]提取时间段t2内thread_pool中排队的线程的数目queue_size序列作为样本输入到预设模型中进行训练,利用训练好的所述模型对预设时间段t1的queue_size变化趋势进行预测。
[0036]根据本专利技术的另一个方面,提供了一种设备,包括:
[0037]一个或多个处理器;
[0038]存储器,用于存储一个或多个程序,
[0039]当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器执行如上任一项所述的方法。
[0040]根据本专利技术的另一个方面,提供了一种存储有计算机程序的计算机可读存储介质,该程序被处理器执行时实现如上任一项所述的方法。
[0041]与现有技术相比,本专利技术具有以下有益效果:
[0042]1、本专利技术示例的分布式数据库故障预警方法,利用task_info及thread_pool两个层面上反应分布式数据库集群(本申请也称之为集群)状态的信息,thread_pool相对于task_info更加底层也更细粒度,通过两种信息各自的特性寻找适合的报警阈值后进行结
合,设置第一阈值、第二阈值,防止二者的预警在某些情况下是覆盖的或者忽略某些情况,在实际生产中某些情况下二者单一的信息都具有一定局限性,将二者结合后就可以更全面的反应集群的状态,此时再进行预警就可以达到即保证了预警的准确性又尽可能的减少了误报,实现更加准确的对数据库未来可能发生的故障进行预警,从而避免当故障发生时恢复速度慢造成的损失。
[0043]2、本专利技术示例的分布式数据库故障预警装置,Task_info的报警阈值设置,首先当数据库中正在处理的task总数超过集群的节点数*每个节点机器的cpu个数时就说明集群对task的处理已经达到了瓶颈,此时集群处于繁忙状态了,而在这种情况下一旦long_task的数目又超过了总的task数的一定占比集群超负荷,导致task的处理能力下降,而一旦不满足上述两点则说明集群对task的响应还在可接受的范围内即:总的tas本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种分布式数据库故障预警方法,其特征在于,包括:接收统计模块发送的第一信号、第二信号,当识别出第一信号则判断分布式数据库集群中long_task占比超过第一阈值;接收预测模块发送的第三信号、第四信号,当识别出第三信号则判断分布式数据库集群中未来预设时间段t1内分布式数据库集群的queue_size数目超过第二阈值;当布式数据库集群中long_task占比超过第一阈值或者未来预设时间段t1内分布式数据库集群的queue_size数目超过第二阈值,则输出预警信号。2.根据权利要求1所述的分布式数据库故障预警方法,其特征在于,所述第一信号、第二信号发送过程为:设分布式数据库集群中节点数为N,每个节点的cpu数为M;所述统计模块统计分布式数据库集群中task_info总的task数和long_task数;当分布式数据库集群中总的task数超过M*N同时long_task占比超过第一阈值时生成并发送第一信号,否则生成并发送第二信号。3.根据权利要求1所述的分布式数据库故障预警方法,其特征在于,所述第三信号、第四信号发送过程为:预测模块对未来预设时间段t1内分布式数据库集群queue_size的变化趋势当未来预设时间段t1内分布式数据库集群的queue_size数目超过第二阈值则生成并发送第三信号,否则生成并发送第四信号。4.根据权利要求1或3所述的分布式数据库故障预警方法,其特征在于,所述预测模块提取时间段t2内thread_pool中排队的线程的数目queue_size序列作为样本输入到预设模型中进行训练,利用训练好的所述模型对预设时间段t1的queue_size变化趋势进行预测。5.根据权利要求1所述的分布式数据库故障预警方法,其特征在于,所述第一阈值为40%-60%;和/或所述第二阈值为100*N,其中,N=分布式数据库集群中节点数;和/或所述t1的取值范围为0.5-2h。6.一种分布式数据库故障预警装置,其特征在于,包括:统计模块,配置用于,根据分布式数据库集群中long_task...

【专利技术属性】
技术研发人员:王天宇刘远郭颂
申请(专利权)人:北京明略昭辉科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1