基于特征摘要的离线数据查询复用方法及其应用技术

技术编号：36890161 阅读：71 留言：0更新日期：2023-03-15 21:52

本申请提出了基于特征摘要的离线数据查询复用方法及其应用，包括以下步骤：S00、获取查询SQL语句；S10、构建SQL解析语法树；S20、解析SQL语句用到的所有数据表并进行滤重排序；S30、遍历滤重排序后的所有数据表，获取每张数据表的最后更新时间的字符串组合；S40、将SQL进行重组格式化；S50、将字符串组合与格式化SQL文本进行组合；S60、生成特征摘要文本；S70、从数仓查询历史表中查找相同特征摘要文本的记录；S80、根据特征摘要文本从数仓查询历史表中获取SQL查询状况。本申请具有查询历史结果可以永久追溯，并且最大限度地避免数据重复存储的优点。储的优点。储的优点。

全部详细技术资料下载

【技术实现步骤摘要】
基于特征摘要的离线数据查询复用方法及其应用

[0001]本申请涉及大数据
，特别是涉及基于特征摘要的离线数据查询复用方法及其应用。

技术介绍

[0002]随着大数据时代的到来，数据量发生了显著的增加，业务系统越来越复杂，数据分析的要求也越来越高。此时，继续在业务系统做数据分析就变得不是很合适，原因之一是业务系统的架构并不擅长处理大量的历史数据分析和多维度的数据建模，二是数据分析对业务系统的性能造成非常大的挑战，甚至影响正常交易进行。
[0003]基于这样一个情况，政府、企事业单位等纷纷构建了自己的数据仓库，这些数据仓库对数据的实时性要求没有那么高往往是T+1或者T+N，基于这些数据仓库进行的数据建模分析不断地涌现和频繁使用，使得数仓往往需要不断地扩容计算能力来满足用户的分析需求或者限制用户的查询请求、复用查询结果，或者排队机制来保证上层应用的稳定，扩容计算能力往往需要不断提高数仓的维护成本，而限制查询请求和排队机制通常会带来不好的用户体验，尽管应用侧在提高查询复用方面做了一些努力，但是仍然有进一步提升的空间。
[0004]而且目前技术的查询复用方案基于查询SQL进行数据缓存，即基于查询SQL作为数据缓存Key，查询结果作为Value缓存到缓存中间件或者文件系统，存在如下缺陷：
[0005]1、缓存往往具有时效性，时间过长，SQL涉及的相关表更新后不能及时取得最新数据，时间过短，缓存过期后往往需要二次查询甚至同一个SQL在同一个数据周期内多次查询；
[0006]2、由于SQL写法上...

【技术保护点】

【技术特征摘要】
1.基于特征摘要的离线数据查询复用方法，其特征在于，包括以下步骤：S00、响应数仓查询指令，以获取查询SQL语句；S10、基于所述查询SQL构建SQL解析语法树；S20、通过所述SQL解析语法树解析SQL用到的所有数据表，并进行滤重排序；S30、遍历滤重排序后的所有数据表，获取每张数据表的最后更新时间的字符串组合；S40、通过所述SQL解析语法树，将SQL语句进行重组格式化，得到相同语义的格式化SQL文本；S50、将所述字符串组合与所述格式化SQL文本进行组合，形成组合字符串表；S60、基于所述组合字符串表生成特征摘要文本；S70、根据所述特征摘要文本，从数仓查询历史表中查找相同特征摘要文本的记录；S80、若查到记录则获取对应的文件数据作为查询结果，记录数据查询历史并返回结果；若未查到记录，则在数仓中查询格式化的SQL语句，获取查询的数据并将结果写入文件系统，同时将特征摘要文本和文件路径写入数仓查询历史表，记录数据查询历史并返回结果。2.如权利要求1所述的基于特征摘要的离线数据查询复用方法，其特征在于，S30步骤中，数仓更新情况表由ID、表名称、最后更新时间字段组成，当数仓的数据表的数据更新后表更新情况表同步进行更新，即数仓中新表加入、或者周期更新后，将数据的最后更新时间同步到表更新情况表中。3.如权利要求1所述的基于特征摘要的离线数据查询复用方法，其特征在于，S40步骤中，重组格式化具体为：将空白符数量、SQL关键词大小写、表名称大小写、字段大小写、输出字段顺序、as表定义以及关联表条件按设定规则统一格式。4.如权利要求3所述的基于特征摘要的离线数据查询复用方法，其特征在于，重组格式化具体为：将空白符统一转换为一个空格、SQ...

【专利技术属性】
技术研发人员：黄练纲，王永杰，张磊，盛小娟，
申请(专利权)人：城云科技中国有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人