基于TCN-A模型的查询负载预测算法及模型制造技术

技术编号:35341218 阅读:11 留言:0更新日期:2022-10-26 12:05
本发明专利技术属于大数据查询技术领域,具体涉及查询负载预测算法及模型。基于TCN

【技术实现步骤摘要】
基于TCN

A模型的查询负载预测算法及模型


[0001]本专利技术属于大数据查询
,具体涉及查询负载预测算法及模型。

技术介绍

[0002]随着信息技术的快速发展,数据量呈爆炸性的速度持续增长,使得传统的数据库管理系统(database management system,DBMS)不得不提高自身复杂性以应对规模庞大的查询负载的处理需求,进而增大了自身性能调优的开销。而在实际的查询过程中,查询负载随时间动态变化,致使DBMS在当前时刻所调整的优化策略难以适用于未来的工作负载需求。同时,在交互式查询分析任务中,查询负载存在明显的周期性,且相邻查询之间往往存在一定的时间间隔而未能有效利用。因此,如果能够根据历史查询数据捕获查询工作负载的变化趋势,并充分利用查询间隔时间实现对查询负载的精确预测,则可以使得DBMS预先进行自身优化策略的动态调整,提高数据库管理系统的查询处理量和处理效率,进而高效地回答用户查询。
[0003]查询预测(query prediction,QP)算法(MEDURI V V,CHOWDHURY K,SARWAT M.Evaluation of machine learning algorithms in predicting the next SQL query from the future[J].ACM Transactions on Database Systems(TODS),2021,46(1):1

46.)通过利用已有的历史查询数据实现对未来查询负载、查询数据以及查询模板的有效预测,保证了查询的处理效率,成为近年来大数据查询领域的一大研究热点。而查询负载预测正是支撑查询预测的关键算法之一,其采用各种机器学习技术,根据历史用户查询数据,在相邻的查询间隔时间内对DBMS未来的查询工作负载进行预测,使得数据库管理系统预先实现自身性能调优,以适应工作负载的动态变化,进而提升对用户查询的计算分析效率。目前查询负载预测方法大致可分为三类(YAN Z,LU J,CHAINANI N,et al.Workload

Aware Performance Tuning for Autonomous DBMSs[C]//2021IEEE 37th International Conference on Data Engineering(ICDE),Online,April 19

22,2021.Piscataway:IEEE,2021:2365

2368.)。第一类是经典的时间序列分析,它以时域和频域分析的方法,实现对历史查询负载的模式转化,以捕获查询工作负载的变化趋势及周期性特征,进而实现对未来查询负载的高效预测。此类方法原理简单,通用性强,但该方法的预测性能取决于查询负载数据的质量与稳定性,尤其在面临高度波动的负载数据时,经典的时间序列分析方法无法捕获查询负载的变化规律,难以实现精确预测。另一类是随机过程建模,该方法与经典的时间序列分析不同,其侧重于对查询负载的概率属性的提取,并采用诸如马尔可夫模型的技术来预测各负载模式的概率取值,进而自动选择DBMS可以使用的优化。但是,随机过程建模方法的实现更多依赖于当前数据,与历史负载数据的联系不够紧密,致使其难以捕获历史查询负载的周期性变化趋势,降低了查询负载预测的准确性。第三类是基于深度学习的方法实现查询负载预测,其通过使用循环神经网络、长短期记忆网络等时序网络模型,以历史查询负载数据为驱动,高效地预测未来查询工作负载的变化。但是上述时序模型中循环神经网络存在长期依赖问题,容易发生梯度弥散;长短期记忆网络可以克服长期依赖,但在超
长的记忆序列情况下,该模型仍然存在梯度减弱的问题,从而不能很好的捕获长时间负载序列的历史变化。

技术实现思路

[0004]针对现有技术存在的问题,本专利技术提出了一种新型的查询负载预测算法。首先,对给定的历史查询数据进行预处理,去除无效、低质的用户查询,并将其按时域窗口进行切割、划分,以构造查询负载数据;其次,设计了一种新型的时间序列预测模型,该模型融合高性能的时间卷积神经网络以及设计的时域注意力机制,从而更好地捕获序列数据在时间维度上的相关性特征,更加高效地完成时序预测。最后,以上述时序模型为基础,充分利用查询间隔时间完成对未来查询负载的精确预测,使得DBMS能够预先实现自身性能调优,从而更好地处理交互式查询。
[0005]本专利技术解决其技术问题采用的技术方案是:基于TCN

A模型的查询负载预测算法,包括:
[0006]对原始用户查询数据进行预处理,构建查询负载序列;
[0007]利用训练好的时间序列预测模型预测查询负载;
[0008]其中,所述的时间序列预测模型通过对查询负载序列进行时域注意力加权和时序预测获得查询负载的预测结果。
[0009]进一步地,对原始用户查询数据进行预处理具体包括:
[0010]首先,遍历历史用户查询,基于查询访问情况对原始查询数据进行过滤处理;其次,根据历史查询数据集的起止时间及指定的时域窗口大小对历史查询数据进行时域划分,形成各查询负载数据所对应的时域区间;之后,遍历过滤后的各个查询的起止时刻,利用AreaSelect函数计算当前查询所涵盖的时域区间,并逐个更新上述时域区间所包含的查询数目,以组成查询负载序列。
[0011]进一步地,对查询负载序列进行时域注意力加权的方法为:
[0012]将原始查询负载序列作为注意力算法的输入,采用softmax函数生成权重矩阵:
[0013]c
i
=W*softmax(w*h
i
+b)
ꢀꢀ
(1)
[0014][0015]u
i
=α
i
*h
i
ꢀꢀ
(3)
[0016]式中:h
i
表示输入数据经过注意力模型得到的隐藏层输出;α
i
表示注意力机制对隐藏层输出的注意力权重;u
i
表示原始查询序列经过注意力机制的输出值;W、w表示权重系数,b表示偏置系数。
[0017]进一步地,在所述时间序列预测模型的训练过程中,采用稀疏类别交叉熵以及均方误差进行误差衡量,具体为:
[0018][0019][0020]其中,N为样本个数,y
i
和y

i
分别表示真实值与预测值;p
i
和q
i
表示真实数据与预测数据的概率编码。
[0021]进一步地,使用RMSPropOptimizer与Adam优化器优化网络模型参数。
[0022]本专利技术还提供一种查询负载预测模型,该模型包括:时域注意力算法模块、时间卷积神经网络和全连接网络;其中,所述时域注意力算法模块用于对输入的原始查询负载序列进行注意力加权;所述时间卷积神经网本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于TCN

A模型的查询负载预测算法,其特征在于,包括:对原始用户查询数据进行预处理,构建查询负载序列;利用训练好的时间序列预测模型预测查询负载;其中,所述的时间序列预测模型通过对查询负载序列进行时域注意力加权和时序预测获得查询负载的预测结果。2.根据权利要求1所述的基于TCN

A模型的查询负载预测算法,其特征在于,对查询负载序列进行时域注意力加权的方法为:将原始查询负载序列作为输入,采用softmax函数生成权重矩阵:c
i
=W*softmax(w*h
i
+b)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)u
i
=α
i
*h
i
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)式中:h
i
表示第i个原始查询负载序列经过注意力模型得到的隐藏层输出;α
i
表示注意力机制对隐藏层输出的注意力权重;u
i
表示第i个原始查询序列经过注意力机制的输出值;W、w表示权重系数,b表示偏置系数;j=0,1,

,i。3.根据权利要求1所述的基于TCN

A模型的查询负载预测算法,其特征在于,在所述时间序列预测模型的训练过程中,采用稀疏类别交叉熵以及均方误差进行误差衡量,具体为:间序列预测模型的训练过程中,采用稀疏类别交叉熵以及均方误差进行误差衡量,具体为:其中,N为样本个数,y
i
和y
i

分别表示第i个真实值与预测值;p
i
和q
i
表示第i个真实数据与预测数据的概率编码;i=1,2,3

,N...

【专利技术属性】
技术研发人员:白文超韩希先赵禹博王金宝白淑雯
申请(专利权)人:哈尔滨工业大学威海
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1