System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于增量学习解决概念漂移的近似查询处理方法技术_技高网

一种基于增量学习解决概念漂移的近似查询处理方法技术

技术编号:41126253 阅读:2 留言:0更新日期:2024-04-30 17:54
本发明专利技术提供一种基于增量学习解决概念漂移的近似查询处理方法,包括:获取查询样本集,对查询样本集进行划分得到多个查询样本子集;针对每个查询样本子集分别进行均匀采样构建一个对应的训练集;并利用每个训练集分别对两个BNNs贝叶斯神经网络进行训练构建初始后验混合高斯分布模型;利用EM算法对初始后验混合高斯分布模型进行近似得到估计后验混合高斯分布模型;当数据库中有新的查询样本数据集到达时,则对估计后验混合高斯分布模型进行更新;根据最终的估计后验混合高斯分布模型和用户的查询语句返回用户的查询结果,本发明专利技术很好地应对新插入数据的查询,并且避免对旧数据的遗忘,节省了存储资源的开销。

【技术实现步骤摘要】

本专利技术属于近似查询算法领域,特别是涉及一种基于增量学习解决概念漂移的近似查询处理方法


技术介绍

1、目前,数据库在各类计算机应用中扮演着基石的地位,存储着大量的关键数据。并且随着互联网日益深入到人们的生活中,越来越多的人随时随地都在生产数据,导致了数据规模的快速膨胀。如何高效地管理和分析如此海量的数据是目前数据库面临的主要问题之一。查询处理一直倍受关注,面对庞大的数据量和复杂条件时,精确结果需要较长时间才能反馈,难以实现交互式的快速响应速度,而太长的响应时间对于特定用户和应用程序而言是不可接受的。如果稍微放宽对于精确结果的要求,允许查询结果中包含一定的误差,那么通常查询处理的速度可以得有效提高。这一事实形成了近似查询技术发展的前提。

2、随着人工智能的发展,机器学习的方法逐渐被应用于近似查询领域,与传统方式不同,其通过对数据或者采样的数据进行学习从而建立起一套模型,通过模型来近似回答用户查询,传统查询需要维护大量样本或者预计算来维护查询的精确度,而导致了空间资源的开销,而基于机器学习的方法摒弃了这一理念,其不需要维护样本或者需要通过预计算花费资源开销,学习过的数据可以摒弃,仅通过维护小形模型即可,减少了内存资源开销。

3、目前基于机器学习的aqp在时间、精度、性能上取得了非常大的进步,但其仍然面临着诸多挑战,各专家学者都在针对查询的性能、时间和内存开销方面进行优化,但是他们往往忽略了数据集的多样性,有静态的本地数据集也有不断动态增长的数据流,在大数据诸如工业互联网的环境下,时间序列数据诸如温度变化,水温检测,ph值等,这类数据具有不断更新,无规律,更新快的特征,因此容易与原始数据分布差异较大而产生概念漂移的现象,新数据与原始数据的不同分布会导致离线模型的不适应,一种解决办法是定期地重新训练模型以应对数据更新,而这种方式又会导致较大的资源和成本开销,现有的模型缺乏对大量新增数据下的良好适应能力。


技术实现思路

1、为了解决
技术介绍
中存在的问题,本专利技术提供一种基于增量学习解决概念漂移的近似查询处理方法,引用贝叶斯学习网络(cblns)的持续学习方法,使网络分配额外的资源来学习新插入的数据分布,并且避免对过去学习过任务的“灾难性遗忘”,并且不需要访问过去的数据,使ml模型适应数据的分布变化,使用贝叶斯神经网络方法,优化学习不同数据所使用的资源数量,避免参数的指数性增长,该方法能很好地应对新插入数据的查询,并且避免对旧数据的遗忘,还能避免对原始数据的重新访问,节省了存储资源的开销。

2、为了达到上述技术目的,本专利技术提供如下技术方案:

3、s1:获取查询样本集,其中,查询样本集中每个查询样本包括:多个属性信息;

4、s2:根据查询样本集中查询样本的第一属性对查询样本集进行划分得到多个查询样本子集;

5、s3:针对每个查询样本子集分别进行均匀采样构建一个对应的训练集;并利用每个训练集分别对两个bnns贝叶斯神经网络进行训练,构建训练集中查询样本第二属性的bnns密度估计模型和第二属性到第一属性的bnns回归模型;

6、s4:根据所有训练集中查询样本第二属性的bnns密度估计模型和第二属性到第一属性的bnns回归模型,构建初始后验混合高斯分布模型;

7、s5:利用em算法对初始后验混合高斯分布模型进行近似得到估计后验混合高斯分布模型;

8、s6:当数据库中有新的查询样本数据集到达时,则根据步骤s2~s5对估计后验混合高斯分布模型进行更新;

9、s7:根据最终的估计后验混合高斯分布模型和用户的查询语句返回用户的查询结果。

10、优选地,所述根据查询样本集中查询样本的第一属性对查询样本集进行划分包括:根据查询样本集中查询样本第一属性的取值范围对查询样本集进行划分;将查询样本集中的查询样本按第一属性的取值划分为k个查询样本子集,记为d={d1,d2,...,dk,..dk},dk表示第k个查询样本子集。

11、优选地,所述步骤s3包括:

12、s31:对查询样本子集dk进行均匀采样得到训练集sk,利用训练集sk对一个bnns贝叶斯神经网络进行训练,构建训练集中查询样本第二属性的bnns密度估计模型dk(x),模型dk(x)的输入为训练集中查询样本的第二属性,模型dk(x)的输出为训练集中查询样本的第二属性的密度估计量;

13、s32:利用训练集sk对另一个bnns贝叶斯神经网络进行训练,构建训练集中查询样本第二属性到第一属性的bnns回归模型rk(x),模型rk(x)的输入为训练集中查询样本的第二属性,模型rk(x)的输出为训练集中查询样本的第一属性。

14、优选地,所述初始后验混合高斯分布模型包括:

15、

16、α=1/k

17、bk=(dk(x),rk(x))

18、其中,b1:k表示初始后验混合高斯分布模型,bk表示第k个训练集对应的初始后验高斯分布模型,α表示权重参数。

19、优选地,所述步骤s5包括:

20、s51:从初始后验混合高斯分布模型的后验混合分布中抽样n个观测数据点;

21、s52:在em算法的e-step,根据初始后验混合高斯分布模型的参数,计算分模型bk对观测数据的响应度:

22、

23、其中,γjk表示分模型bk对第j个观测数据的响应度,μk和表示分模型bk的参数;αk表示分模型bk的权重参数;

24、s53:在em算法的m-step,计算新一轮迭代时,分模型bk的参数:

25、

26、

27、

28、其中,和表示更新后分模型bk的参数,表示更新后分模型bk的权重参数;

29、s54:重复步骤s52和步骤s53,直到收敛,得到近似的后验混合高斯分布模型:

30、

31、

32、其中,表示近似的后验混合高斯分布模型;

33、s55:对后验混合高斯分布模型中相似的分模型进行合并,对后验混合高斯分布模型中冗余的分模型进行删除,得到估计后验混合高斯分布模型b1:n。

34、优选地,所述步骤s55包括:

35、s551:设置一个阈值当模型中的分模型的权重参数小于t1时,则视分模型是冗余的分量,将分模型删除;

36、s552:执行完步骤s551后,对于模型中剩余的任意两个分模型和计算分模型和的马氏距离设置阈值t2=3,若则将分模型和合并,得到估计后验混合高斯分布模型

37、优选地,所述分模型和的马氏距离包括:

38、

39、其中,和表示模型中第i个分模型的参数,和表示模型中第j个分模型的参数。

40、优选地,所述将分模型和合并包括:

41、

42、

43、

44、其中,μ和σ2表示本文档来自技高网...

【技术保护点】

1.一种基于增量学习解决概念漂移的近似查询处理方法,其特征在于,包括:

2.根据权利要求1所述的一种基于增量学习解决概念漂移的近似查询处理方法,其特征在于,所述根据查询样本集中查询样本的第一属性对查询样本集进行划分包括:根据查询样本集中查询样本第一属性的取值范围对查询样本集进行划分;将查询样本集中的查询样本按第一属性的取值划分为K个查询样本子集,记为D={D1,D2,...,Dk,..DK},Dk表示第k个查询样本子集。

3.根据权利要求1所述的一种基于增量学习解决概念漂移的近似查询处理方法,其特征在于,所述步骤S3包括:

4.根据权利要求3所述的一种基于增量学习解决概念漂移的近似查询处理方法,其特征在于,所述初始后验混合高斯分布模型包括:

5.根据权利要求1所述的一种基于增量学习解决概念漂移的近似查询处理方法,其特征在于,所述步骤S5包括:

6.根据权利要求5所述的一种基于增量学习解决概念漂移的近似查询处理方法,其特征在于,所述步骤S55包括:

7.根据权利要求6所述的一种基于增量学习解决概念漂移的近似查询处理方法,其特征在于,所述分模型和的马氏距离包括:

8.根据权利要求6所述的一种基于增量学习解决概念漂移的近似查询处理方法,其特征在于,所述将分模型和合并包括:

9.根据权利要求1所述的一种基于增量学习解决概念漂移的近似查询处理方法,其特征在于,所述步骤S6包括:每当数据库中有新的查询样本数据集Dnew到达时;利用步骤S2相同的规则将Dnew划分为K*个查询样本子集,得到通过均匀采样的方式对每个查询样本子集进行采样得到训练集通过每个训练集训练新的BNNs模型得到b′k=(Dk′(x),Rk′(x));

...

【技术特征摘要】

1.一种基于增量学习解决概念漂移的近似查询处理方法,其特征在于,包括:

2.根据权利要求1所述的一种基于增量学习解决概念漂移的近似查询处理方法,其特征在于,所述根据查询样本集中查询样本的第一属性对查询样本集进行划分包括:根据查询样本集中查询样本第一属性的取值范围对查询样本集进行划分;将查询样本集中的查询样本按第一属性的取值划分为k个查询样本子集,记为d={d1,d2,...,dk,..dk},dk表示第k个查询样本子集。

3.根据权利要求1所述的一种基于增量学习解决概念漂移的近似查询处理方法,其特征在于,所述步骤s3包括:

4.根据权利要求3所述的一种基于增量学习解决概念漂移的近似查询处理方法,其特征在于,所述初始后验混合高斯分布模型包括:

5.根据权利要求1所述的一种基于增量学习解决概念漂移的近似查询处...

【专利技术属性】
技术研发人员:黄海辉欧阳宇翔徐光侠董景楠张鹏张帆黄德玲
申请(专利权)人:重庆邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1