基于门控卷积和图注意力的数据库指标数据异常预测方法技术

技术编号：42639842 阅读：7 留言：0更新日期：2024-09-06 01:37

本发明专利技术公开基于门控卷积和图注意力的数据库指标数据异常预测方法，步骤包括：步骤1：从数据库的运维监测时序数据中获取选定目标维度的一维时序数据作为数据集，并划分为测试集、训练集与验证集；步骤2：构建一维时间序列数据预测模型，并将训练集输入构建好的一维时间序列数据预测模型进行异常预测；步骤3：对一维时间序列数据预测模型进行训练：利用损失函数计算预测值与真实值的误差，同时采用损失函数计算重构值与真实值的误差，将两路损失值相加以不断更新模型参数得到最优模型；步骤4：使用测试集数据进行预测、重构得到预测结果与重构结果。步骤5：计算预测与重构支路的误差均值，并与阈值比较预测，以判断系统运行状态是否异常。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及机器学习，尤其涉及基于门控卷积和图注意力的数据库指标数据异常预测方法。

技术介绍

1、存储、管理和应用数据的仓库称为数据库，是一个长期存储在计算机内能共享的、有组织的、被统一管理的数据集合。

2、数据库管理系统是为管理数据库而设计的电脑软件系统，是数据库系统的核心组件之一，它收集了大量的详细的统计数据和日志，通过集成监控软件来整合统计数据以揭示系统服务质量和内部状态。现在主流的数据库管理系统的主要有oracle、mysql、sqlserver和db2等，这些类型的数据库系统具有存储、修改和选择数据的功能。为保证系统的健康运行，也就是监测指标数据的合理变动相当重要。具体表征系统运行状态的方式就是一维时间序列，因为时间序列具有季节性、不定性和非规则性，且历史的动态时间序列隐藏着丰富的信息，所以对时间序列动态特征的研究十分有挑战性。

3、若数据库系统运行出现中断或者性能下降的情况，不仅会使用户体验感下降，而且容易造成重大的经济损失，因此dba需要不断监控、诊断数据库性能，并纠正任何性能衰减。然而，dba的人力资源和精力有限，通常无法快速关注到数据库系统的健康状态，常常需要花费大量的人力、财力和物力。

4、一维时间序列数据异常的预测实际上就是学习历史数据信息的数据模式，预测下一时间步的数值，以便及时把握系统的整体运行状态，提前做出应对措施。传统的时间序列预测算法，如arima、var等，只关注变量内部的变量内部的线性关联，且依赖于人工提取、标记特征，泛化性低，不适合建模长期依赖，难以做到

技术实现思路

1、本专利技术的目的在于提供基于门控卷积和图注意力的数据库指标数据异常预测方法，实现对数据库指标数据不同变量之间的相关性的学习，以便快速高效预测数据库系统是否异常。

2、本专利技术采用的技术方案是：

3、基于门控卷积和图注意力的数据库指标数据异常预测方法，具体步骤包括：

4、步骤1：从数据库运维监测的多维指标时序数据中获取选定的目标维度的一维时序数据作为数据集；随机挑选部分数据集作为测试集数据，并打上是否异常的标签，剩余数据集作为训练集，采用最大最小归一化的方法对多变量时序数据进行预处理，消除各个变量数据之间的尺度差异提高模型的鲁棒性，再将训练集按照设定比例划分为新训练集与验证集；最大最小归一化的表达式如下：

5、

6、其中，xt表示在当前时刻t时的输入值，max(x)和min(x)分别代表各个单变量时间序列中的最大值和最小值；表示t个时间步的时序数据集，表示每个时间点的观测值，i＝1，2，...，t，d是每个观测值的数据维度，即变量个数。

7、进一步地，步骤1中选定的为一维多变量时间序列数据。从涵盖并发、用户i/o、系统i/o和效率四个方面出发，选择了25个性能指标作为数据库数据异常的目标维度。

8、进一步地，步骤1的按照设定比例为9∶1划分为新训练集与验证集。

9、具体地，收集数据库运维监测的一维多变量时间序列数据集，随机挑选部分数据集作为测试集数据，并打上是否异常的标签，剩余数据集作为训练集，再将原训练集按照9∶1的比例划分为新训练集与验证集。

10、步骤2：构建一维时间序列数据预测模型，并将预处理后的新训练集与验证集输入构建好一维时间序列数据预测模型进行异常预测；一维时间序列数据预测模型包括以下四个模块：多尺度时间门控卷积模块、动态图学习层、基于图注意力网络的空间特征提取模块、预测模块；具体预测包括以下步骤：

11、步骤2-1：使用多尺度门控卷积模块对时序数据的多尺度时间依赖性进行提取，获取具有不同感受野的多尺度特征表示。

12、步骤2-2：对输入特征按照设定的好多个不同尺度大小进行多个尺度层的时序数据分割，得到具备不同局部特征信息的不重叠的若干子序列；

13、进一步地，步骤2-2中尺度层为三个，对应的尺度大小[2，4，6]

14、具体地，为应对长序列数据，以三个尺度层的形式，按照设定好的尺度大小[2，4，6]，对输入特征x进行分割，如每次训练时，在第一个尺度层中，每段子序列长度将为滑动窗口长度除以2，即子序列个数为2，第二个尺度层中的子序列长度为滑动窗口长度除以4，序列个数为4……所以可以得到具备不同局部特征信息的不重叠的子序列[x(1)，x(2)，...，xk，...xm]，x(m)＝x(m-1)s+1：ms表示子序列在序列x中的相应片段位置。其中，s为相应尺度大小下的序列长度，m为总的子序列数量，也就是尺度大小，m∈m。由于具有3个尺度层，接下来每层都按照步骤2-3和步骤2-4的前半部分进行处理。

15、步骤2-3：对子序列数据通过动态图学习层获取动态变化的向量特征，根据向量间关联性构建出子序列的图结构；

16、步骤2-4：由于节点特征之间的关联权重是不一致的，所以利用基于图注意力网络(gat)的空间特征提取模块捕获空间依赖；在每尺度层中将经过gat处理的子序列特征信息拼接，经过1×1的逐点卷积实现多个子序列间的信息聚合，获得时空特征信息。

17、步骤2-5：结合跨尺度信息混合方法聚合多个尺度层中不同尺度的时空信息。

18、步骤2-6：在基于门控循环单元(gru)的编码器之后使用三个全连接层(fc)作为预测模块，输出下一时间步的预测值另一支路，本专利技术联合基于gru的解码器的重构模块，综合考量预测和重构两个分支，可针对数据异常进行预测。

19、步骤3：对模型进行训练，利用损失函数计算预测值与真实值的误差，同时也采用损失函数计算重构值与真实值的误差，将两路损失值相加，以此不断更新模型参数。使用早停策略(early stopping)，当模型在验证集上的损失连续2个epoch都不下降时，即损失函数趋于收敛，则停止模型训练并保存为最优模型。若损失率不收敛，则返回多尺度时间门控卷积前的数据输入处重新执行训练。

20、步骤4：使用测试集数据进行预测、重构，得到预测结果与重构结果。

21、步骤5：计算预测与重构支路的误差均值，与阈值比较，预测系统运行状态的异常。当误差均值超出设定的阈值时，则认为数据库系统出现异常；否则，判定数据库正常。

22、进一步，步骤2-1中多尺度特征提取的具体过程描述如下：

23、步骤2-1-1：将经过数据预处理之后的时序数据输入三个并行的时间门控卷积，本文档来自技高网...

【技术保护点】

1.一种基于门控卷积和图注意力的数据库指标数据异常预测方法，其特征在于：其具体步骤包括：

2.根据权利要求1所述的基于门控卷积和图注意力的数据库指标数据异常预测方法，其特征在于：步骤1中从涵盖并发、用户I/O、系统I/O和效率四个方面选择25个性能指标作为数据库数据异常的目标维度，以形成一维多变量时间序列数据。

3.根据权利要求1所述的基于门控卷积和图注意力的数据库指标数据异常预测方法，其特征在于：步骤1中采用最大最小归一化的方法对时序数据进行预处理，消除各个变量数据之间的尺度差异提高模型的鲁棒性，最大最小归一化的表达式如下：

4.根据权利要求1所述的基于门控卷积和图注意力的数据库指标数据异常预测方法，其特征在于：步骤2-1中多尺度特征提取的具体过程描述如下：

5.根据权利要求1所述的基于门控卷积和图注意力的数据库指标数据异常预测方法，其特征在于：步骤2-3具体为：

6.根据权利要求1所述的基于门控卷积和图注意力的数据库指标数据异常预测方法，其特征在于：步骤2-4中所述的基于图注意力网络的空间特征提取模块具体为：

...

【技术特征摘要】

1.一种基于门控卷积和图注意力的数据库指标数据异常预测方法，其特征在于：其具体步骤包括：

2.根据权利要求1所述的基于门控卷积和图注意力的数据库指标数据异常预测方法，其特征在于：步骤1中从涵盖并发、用户i/o、系统i/o和效率四个方面选择25个性能指标作为数据库数据异常的目标维度，以形成一维多变量时间序列数据。

4.根据权利要求1所述的基于门控卷积和图注意力的数据库指标数据异常预测方法，其特征在于：步骤2-1中多尺度特征提取的具体过程描述如下：

5.根据权利要求1所述的基于门控卷积和图注意力的数据库指标数据异常预测方法，其特征在于：步骤2-3具体为：

7.根据权利要求1所...

【专利技术属性】
技术研发人员：郑华，洪明霞，王泓楷，朱小钦，林学东，
申请(专利权)人：福建师范大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人