当前位置: 首页 > 专利查询>清华大学专利>正文

一种基于因果关系的数据库故障诊断方法技术

技术编号:34512916 阅读:16 留言:0更新日期:2022-08-13 20:59
本发明专利技术公开了一种基于因果关系的数据库故障诊断方法,该方法包括:采集数据库预设时间段的监控指标的监控数据,并构建监控指标之间的因果关系图;其中,监控数据包括故障数据和无故障数据;基于因果关系图,利用无故障数据对监控指标构建回归模型;通过回归模型计算故障数据的回归误差;基于回归误差,通过预设计算公式对每个监控指标进行计算,以对监控指标进行排序得到监控指标排列顺序;根据监控指标排列顺序,并基于监控指标确定数据库的故障位置。本发明专利技术能够实现精确故障定位,能够在大量监控指标中筛选最关键的一个或几个监控指标、辅助技术人员使系统恢复正常。辅助技术人员使系统恢复正常。辅助技术人员使系统恢复正常。

【技术实现步骤摘要】
一种基于因果关系的数据库故障诊断方法


[0001]本专利技术涉及故障诊断和因果关系构建
,尤其涉及一种基于因果关系的数据库故障诊断方法。

技术介绍

[0002]同属于一个数据库的监控指标之间相互关联、存在因果关系,表现为当数据库中出现故障时,多个监控指标会同时发生变化,干扰技术人员的判断。随着数据库越来越复杂,单名技术人员难以理解系统中的每个细节,也就愈发依赖监控。然而,监控指标的数量也在增长,理解监控指标之间的关系对于技术人员维护系统、进而基于监控数据搭建智能化应用愈发重要而困难。
[0003]同时,因果发现致力于从观测数据中寻找变量之间的因果关系。基于观测数据的因果发现是一个新兴的研究方向,尽管已经有了一定的理论发展,在实际问题中,已有方法的构建结果相比真实的因果关系仍有不小的差距。例如,基于限制的方法依赖于统计性条件独立检验工具。然而已有工作表明,不存在一个普遍有效的条件独立检验工具。另一方面,基于梯度的方法存在过度拟合观测数据、忽视因果关系正确性的风险。
[0004]再有Sage、MicroHECL这两个基于因果假设的构建方法针对数据库特点进行设计,但考虑的监控指标种类较少,不具备通用性。已有方法对于机器CPU利用率这样更细粒度的监控、服务负载与服务延迟之间这样更多元的关系缺少系统性的刻画。
[0005]进一步地,监控是大数据中的重要组成部分,用于揭示系统运行状态,方便技术人员在系统做出不符合预期的行为时推断进而解决问题。一个监控指标指监控中的一个维度。例如,平均响应时间、访问量、访问成功率是搜索引擎、在线购物等在线服务系统中常见的监控指标。
[0006]现有技术中,人工定位:技术人员逐一查看各监控数据。深度优先搜索:基于深度优先搜索的方案:首先应用异常检测技术,筛选出异常的监控指标。继而在监控指标之间构成的因果关系图中沿异常的监控指标进行深度优先遍历,将遍历停止处的监控指标标记为根因。随机游走:一些现有技术计算监控指标与业务层面关键监控指标的皮尔森相关系数、偏相关系数等,继而依托监控指标之间的因果关系图计算转移概率矩阵,最后应用随机游走为各监控指标打分并排序。
[0007]现有技术的缺点:人工定位方法费时费力,面对越来越多的监控数据、同时剧烈变化的监控指标,技术人员看不过来是数据库诊断的现实问题,严重滞后系统恢复正常。基于深度优先搜索的方法依赖于异常检测技术的表现,异常检测中的误报、漏报都会导致深度优先搜索方法错失指向系统故障根源的监控指标。目前,随机游走的工作机理不明确,转移概率矩阵的计算缺少依据。实际应用中,基于随机游走的诊断方法在不同数据库中的表现差异很大。
[0008]当出现故障时,多个监控指标会同时发生变化,干扰技术人员的判断。随着越来越复杂,单名技术人员难以理解系统中的每个细节,也就愈发依赖监控。然而,监控指标的数
量也在增长。因此当故障发生时,如何在大量监控指标中筛选最关键的一个或几个监控指标、并辅助技术人员使系统恢复正常,成为亟待解决的问题。

技术实现思路

[0009]本专利技术旨在至少在一定程度上解决相关技术中的技术问题之一。
[0010]为此,本专利技术的目的在于提出一种基于因果关系的数据库故障诊断方法,可以通过构建监控指标的因果关系,实现精准故障定位,以在大量监控指标中筛选最关键的一个或几个监控指标、并辅助技术人员使系统恢复正常。
[0011]为达上述目的,本专利技术提出了一种基于因果关系的数据库故障诊断方法,包括:
[0012]采集数据库预设时间段的监控指标的监控数据,并构建所述监控指标之间的因果关系图;其中,所述监控数据包括故障数据和无故障数据;基于所述因果关系图,利用所述无故障数据对所述监控指标构建回归模型;通过所述回归模型计算所述故障数据的回归误差;基于所述回归误差,通过预设计算公式对每个所述监控指标进行计算,以对所述监控指标进行排序得到监控指标排列顺序;根据所述监控指标排列顺序,并基于所述监控指标确定所述数据库的故障位置。
[0013]本专利技术实施例的基于因果关系的数据库故障诊断方法,在故障发生时,从大量监控中筛选最关键的一个或几个监控指标、辅助技术人员使系统恢复正常,并且实现方法简单、操作方便以及效率高。
[0014]另外,根据本专利技术上述实施例的基于因果关系的数据库故障诊断方法还可以具有以下附加的技术特征:
[0015]进一步地,所述监控指标,包括:访问情况、连接数占用情况、内存占用情况、磁盘容量占用情况、索引使用情况、网络流量、节点状态、数据查询情况和/或节点日志信息。
[0016]进一步地,所述通过所述回归模型计算所述故障数据的回归误差,包括:对于发生故障时所述故障数据的故障前数据,统计所述故障前数据对所述监控指标的回归误差的均值m
i
和方差s
i
;以及,所述故障数据的故障过程中数据,统计所述故障过程中数据对所述监控指标的回归误差为e
ij

[0017]进一步地,所述预设计算公式为:
[0018]z
i
=max
j
|e
ij

m
i
|/s
i
[0019]其中,z
i
是衡量每个监控指标Vi是否表征故障的统计量。
[0020]进一步地,将所述监控指标构建监控指标集合,则所述构建所述监控指标之间的因果关系图,包括:将所述监控指标划分为数据库架构对应组件的相应元变量,获得从元变量到所述监控指标集合的第一映射,以及从有序元变量对到所述监控指标集合的第二映射;基于所述数据库架构和多种元变量之间的因果关系信息构建元变量因果关系图;基于所述元变量因果关系图、所述第一映射以及所述第二映射构建所述监控指标之间的因果关系图;将所述监控指标之间的因果关系图,实例化为各组件实例监控指标之间的因果关系图。
[0021]进一步地,所述数据库架构表示为调用关系图Gc=<Vc,Ec>,所述多种元变量之间的因果关系信息,包括:组件内元变量之间的关系AG=<Va,Ea>;以及,从元变量类型到元变量类型集合的映射AP、AC、AD和AA;其中,所述AP为来自调用方组件的原因元变量集,所述AC
为处于调用方组件的结果元变量集,所述AD为处于各级调用方组件的结果元变量集,所述AA为来自各级调用方组件的原因元变量集。
[0022]进一步地,基于Gc、AG、AP、AC、AD、AA构建元变量因果关系图Gm=<Vm,Em>,包括:
[0023]对于Vc中的每个组件Ci、Va中的每个元变量类型Tx,在Vm中添加元变量<Ci,Tx>;对于Vc中的每个组件Ci、对于Ea中的每条边Tx

Ty,在Em中添加边<Ci,Tx>

<Ci,T本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于因果关系的数据库故障诊断方法,其特征在于,包括以下步骤:采集数据库预设时间段的监控指标的监控数据,并构建所述监控指标之间的因果关系图;其中,所述监控数据包括故障数据和无故障数据;基于所述因果关系图,利用所述无故障数据对所述监控指标构建回归模型;通过所述回归模型计算所述故障数据的回归误差;基于所述回归误差,通过预设计算公式对每个所述监控指标进行计算,以对所述监控指标进行排序得到监控指标排列顺序;根据所述监控指标排列顺序,并基于所述监控指标确定所述数据库的故障位置。2.根据权利要求1所述的方法,其特征在于,所述监控指标,包括:访问情况、连接数占用情况、内存占用情况、磁盘容量占用情况、索引使用情况、网络流量、节点状态、数据查询情况和/或节点日志信息。3.根据权利要求1所述的方法,其特征在于,所述通过所述回归模型计算所述故障数据的回归误差,包括:对于发生故障时所述故障数据的故障前数据,统计所述故障前数据对所述监控指标的回归误差的均值m
i
和方差s
i
;以及,所述故障数据的故障过程中数据,统计所述故障过程中数据对所述监控指标的回归误差为e
ij
。4.根据权利要求1所述的方法,其特征在于,所述预设计算公式为:z
i
=max
j
|e
ij

m
i
|/s
i
其中,z
i
是衡量每个监控指标Vi是否表征故障的统计量。5.根据权利要求1所述的方法,其特征在于,将所述监控指标构建监控指标集合,则所述构建所述监控指标之间的因果关系图,包括:将所述监控指标划分为数据库架构对应组件的相应元变量,获得从元变量到所述监控指标集合的第一映射,以及从有序元变量对到所述监控指标集合的第二映射;基于所述数据库架构和多种元变量之间的因果关系信息构建元变量因果关系图;基于所述元变量因果关系图、所述第一映射以及所述第二映射构建所述监控指标之间的因果关系图;将所述监控指标之间的因果关系图,实例化为各组件实例监控指标之间的因果关系图。6.根据权利要求5所述的方法,其特征在于,所述数据库架构表示为调用关系图Gc=<Vc,Ec>,所述多种元变量之间的因果关系信息,包括:组件内元变量之间的关系AG=<Va,Ea>;以及,从元变量类型到元变量类型集合的映射AP、AC、AD和AA;其中,所述AP为来自调用方组件的原因元变量集,所述AC为处于调用方组件的结果元变量集,所述AD为处于各级调用方组件的结果元变量集,所述AA为来自各级调用方组件的原因元变量集。7.根据权利要求6所述的方法,其特征在于,基于Gc、AG、AP、AC、AD、AA构建元变量因果关系图Gm=<Vm,Em>,包括:对于Vc中的每个组件Ci、Va中的每个元变量类型Tx,在Vm中添加元变量<Ci,Tx>;对于Vc中的每个组件Ci、对于Ea中的每条边Tx

Ty,在Em中添加边<Ci,Tx>

<Ci,Ty>;
对于Ec中的每条边Ci

Cj、Va中的每个元变量类...

【专利技术属性】
技术研发人员:裴丹李明杰
申请(专利权)人:清华大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1