针对一元基数约束的查询模板参数实例化方法技术

技术编号：36890963 阅读：29 留言：0更新日期：2023-03-15 21:56

本发明专利技术公开了一种针对一元基数约束的参数实例化方法，包括如下步骤：步骤一、根据列的值域的基数和所有相关的一元基数约束，计算得到相应的一元概率约束；步骤二、根据所有的一元不等值概率约束，获取一元不等值基数约束的累计分布函数，并根据获取到的累计分布函数将整个概率空间划分为互不相交的若干区间；步骤三、使用贪心算法将所有一元等值概率约束依次插入到满足约束的最小区间，并在每次插入后更新区间数据分布信息；步骤四、根据概率分布函数和区间数据分布信息，对所有一元基数约束对应的参数进行实例化。本发明专利技术方法中的输入信息不包含数据库具体的数据信息，不会造成数据泄露，同时参数实例化后的一元基数约束的过滤比与原先的相同。与原先的相同。与原先的相同。

全部详细技术资料下载

【技术实现步骤摘要】
针对一元基数约束的查询模板参数实例化方法

[0001]本专利技术属于分析型数据库、负载生成
，涉及一种针对一元基数约束的查询模板参数实例化方法。

技术介绍

[0002]目前，随着大数据时代的到来。数据规模不断扩大，新的应用场景也层出不穷。为了应对这些新的应用场景，对数据库进行性能评测变得越来越重要。传统基准测试(Benchmarking)已经被广泛应用于数据库系统的性能评测中。但是，如果基准所代表的应用场景和实际生产环境中的应用场景完全不一样，基本评测的可靠性就会大大降低。虽然最好的方法是使用真实应用场景下的负载对数据库系统进行评测，但是这样做会带来严重的数据泄露风险。因此，模拟真实环境下的负载特征的数据库实例变得至关重要。
[0003]针对上述需求，查询感知数据库生成器(QAG)
[1
‑
7]应运而生。查询感知数据库生成器可以通过生成仿真数据和仿真查询来仿真特定的应用场景，面向应用的数据库生成的本质是仿真负载在仿真数据库上执行时，每个算子的输入输出与原始负载尽可能相似，即在测试数据库上执行生成负载得到的查询执行成本与在原始数据库中执行原始工作负载得到的查询执行成本尽可能相似。简而言之，仿真数据库具有和真实负载相似的数据分布特征，可以被用来进行数据库系统的性能评测。
[0004]要实现查询感知数据库生成器，为了保证数据安全，要求从数据库中获取的信息要尽可能少。为了防止数据泄露，不能暴露测试环境原始分布的具体信息，需要对原始查询的所有参数符号化，这种将参数符号化后的查询称...

【技术保护点】

【技术特征摘要】
1.一种针对一元基数约束的参数实例化方法，其特征在于，包括如下步骤：步骤一、获取一元概率约束：对于给定的不参加连接的非键值列的值域和与该列相关的一元基数约束，计算每个一元基数约束对应的一元概率约束；步骤二、得到一元非等值概率约束的累计分布函数：对于步骤一中得到的所有一元非等值概率约束，将它们转换为累计分布函数的形式，并基于所有累计分布函数将整个概率空间划分为不相交的若干区间；步骤三、得到一元等值概率约束的累计分布函数：对于步骤一中得到的所有一元等值概率约束和步骤二中获得的概率空间中的区间数据分布信息，根据贪心算法依次将所有一元等值概率约束插入到满足约束的最小区间中，并在每次插入后更新区间数据分布信息，从而构造出所有一元等值概率约束的累计分布函数；步骤四、参数实例化：根据步骤二和步骤三得到的所有累计分布函数、最后更新得到的区间数据分布信息以及列的值域，将列的值域的基数分配给所有区间，最后根据区间分配到的基数，对所有参数进行实例化。2.如权利要求1所述的针对一元基数约束的参数实例化方法，其特征在于，步骤一中，所述一元基数约束是由单个列、单个关系符号和单个参数组成的数据库过滤谓词，以及经由这个谓词过滤得到的列的行数组成的；所述一元基数约束的形式为|AΘP
k
|＝k，其中A指的是列名，P
k
指的是符号化的参数，Θ指的是符号，包括＝、≠、＜、＞、≤、≥、(NOT)IN、(NOT)LIKE，|A|为列的值域的基数，k为满足谓词条件AΘP
k
的元组个数。3.如权利要求1所述的针对一元基数约束的参数实例化方法，其特征在于，一元概率约束是由一元基数约束的谓词和对相关列的过滤比组成的，一元概率约束的形式为P(AΘP
k
)＝pb，其中AΘP
k
为所述的一元基...

【专利技术属性】
技术研发人员：李好，王清帅，杨程程，张蓉，
申请(专利权)人：华东师范大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人