System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于数据网格的数据产品查询聚合方法技术_技高网

一种基于数据网格的数据产品查询聚合方法技术

技术编号:41833090 阅读:12 留言:0更新日期:2024-06-27 18:17
本发明专利技术公开了一种基于数据网格的数据产品查询聚合方法,其特征在于,包括以下步骤:步骤1:数据产品树结构创建,包括元数据设计与树结构管理;步骤2:分解查询,基于树结构与元数据将数据产品查询分解为结构化查询与非机构化查询,并进行查询的并行执行;步骤3:查询聚合,多方查询以及对应子查询的结果进行汇聚,并按照匹配相似度从高到底排列返回。本发明专利技术针对数据产品的元数据进行精细设计,提出元数据的结构化属性与非结构化属性,并将数据产品的血缘关联关系构建为树结构进行管理;对数据网格的元数据设计以及数据产品关联管理提出了新颖的创新方案,尤其针对数据产品的查询极大缩小了查询范围,提升了查询效率,直观且具有扩展性。

【技术实现步骤摘要】

本专利技术涉及大数据,尤其是一种基于数据网格的数据产品查询聚合方法


技术介绍

1、数据网格是一种分布式计算和数据管理的架构,基于数据的领域所有权和数据作为产品原则使得数据网格具有无限拓展的动态拓扑关系。在数据网格中,每个领域管理自身的业务数据并构建具有领域洞察的数据产品,数据产品是数据网格中的最小架构量子,封装了对应的分析数据以及运行数据产品需要的基础设施。

2、随着数据网格规模的不断扩大,分布在不同领域的数据产品的查询将会面临性能困境。针对数据网格的数据产品查询具有如下问题:(1)数据产品的查询基于数据产品的管理,需要一种直观的数据产品关联管理方法;(2)针对数据网格中产品的查询缺少一种基于具体拓扑关系的高效实现。

3、因此,有必要提供一种基于数据网格的数据产品查询聚合方法来解决上述技术问题。


技术实现思路

1、本部分的目的在于概述本专利技术的实施例的一些方面以及简要介绍一些较佳实施例,在本部分以及本申请的说明书摘要和专利技术名称中可能会做些简化或省略以避免使本部分、说明书摘要和专利技术名称的目的模糊,而这种简化或省略不能用于限制本专利技术的范围。

2、因此,本专利技术所要解决的技术问题是如何基于数据网格的分布式数据架构特性以及数据产品间数据流动依赖关系,构建树结构的层级管理,实现数据产品的高效查询。

3、为解决上述技术问题,本专利技术提供如下技术方案:一种基于数据网格的数据产品查询聚合方法,其特征在于,包括以下步骤:

>4、步骤1:数据产品树结构创建,包括元数据设计与树结构管理;

5、步骤2:分解查询,基于树结构与元数据将数据产品查询分解为结构化查询与非机构化查询,并进行查询的并行执行;

6、步骤3:查询聚合,多方查询以及对应子查询的结果进行汇聚,并按照匹配相似度从高到底排列返回。

7、作为本专利技术基于数据网格的数据产品查询聚合方法的一种优选方案,所述步骤1数据产品树结构创建对元数据的设计提出新的优化方案,并进行数据产品的树结构构建作为元数据的一个属性,具体的,包括步骤1-1元数据设计与步骤1-2树结构管理。

8、作为本专利技术基于数据网格的数据产品查询聚合方法的一种优选方案,所述步骤1-1中元数据设计将数据产品元数据分为两个层面:结构化层面与非结构化层面

9、(1)结构化层面

10、结构层面包含的元数据即为可以量化、可直接筛选查询的信息,该层面包含的信息有:

11、{

12、数据类型

13、数值范围

14、数据量(维度)

15、时间范围(时间戳)

16、地理位置信息

17、(领域)行业分类

18、下游数据产品树

19、数据权限

20、其他必要可量化属性

21、}

22、(2)非结构化层面

23、非结构层面即语义描述理解层面,该层面包含信息有:

24、{

25、关键词

26、数据来源描述

27、数据用途描述

28、领域描述

29、}

30、作为本专利技术基于数据网格的数据产品查询聚合方法的一种优选方案,所述步骤1-2树结构管理将数据产品之间的数据依赖构建为一个决策树结构数据模型,针对数据网格中的每一个数据产品,构建数据依赖树结构方法具体包括如下:

31、(1)初始化空子树;

32、(2)以当前数据产品节点作为当前子树的根节点;

33、(3)回溯查找当前节点的前序节点,作为根节点的下属子节点;

34、(4)逐级回溯,增加每个子节点的后续子节点;

35、(5)直到回溯到所有叶节点,当前子树构建完成;

36、(6)将构建的完整树结构填入该数据产品的元数据中的“下游数据产品树”描述中。

37、作为本专利技术基于数据网格的数据产品查询聚合方法的一种优选方案,所述步骤2分解查询通过已经构建的数据产品树结构与元数据对数据产品的查询进行分解并行实现,数据产品查询的方法如下:

38、(1)构建查询:包括结构化查询数据与非结构化查询数据;

39、(2)查询分解:将查询分解为多方查询并行处理;

40、(3)执行子查询:基于完整树层级逐层子树查询。

41、作为本专利技术基于数据网格的数据产品查询聚合方法的一种优选方案,所述步骤3查询聚合将多方查询以及对应子查询的结果进行汇聚,并按照匹配相似度从高到底排列返回,具体的,每个数据产品的查询中结构查询匹配度为s1,非结构化查询匹配度为s2,则该数据产品的匹配得分s为:

42、s=α*s1+β*s2;

43、其中s1、s2、α与β的范围均为[0,1],且α+β=1作为比例参数,默认α=β=0.5;

44、可选的,α与β作为权重调节参数可根据实际网格效果进行自适应调节:

45、(1)在网格运行过程中,原始比例参数α与β默认设置为0.5,代表结构化与非结构化查询的筛选比例相同;

46、(2)随机选取某次查询,将α与β进行均匀采样,取值范围[a,b],取值间隔为m,a默认为0.1,b默认为0.9,m默认为0.1;

47、(3)基于均匀采样进行网格搜索排序;

48、(4)每一种权重比例进行排序后获取前n个候选结果(n默认为1);

49、(5)多种权重比例获取的结果汇总并去重,相同候选值仅保留对应α与β最接近0.5的候选值;

50、(6)去重后结果返回给用户;

51、(7)将用户的点击确认事件进行记录,并记录对应的权重比例;

52、(8)多次模拟后将被选取次数最多的权重参数或多次点击对应参数的平均值作为最佳比例参数更新到网格系统中;

53、(9)随着网格的不断扩大,元数据的不断丰富,进行不定期的动态更新。

54、本专利技术的有益效果:本专利技术提出的基于数据网格的数据产品查询聚合方法,基于数据产品之间的数据依赖关系,构建数据产品间的树结构管理模型,并将数据产品的元数据设计为结构化属性与非结构属性用于后续的数据查询,针对具体查询需求进行查询分解执行并行子查询,最终将多个子查询的结果按照匹配度排列返回,优势如下:

55、(1)树结构的数据依赖表示,层次结构清晰直观,且适合动态的数据网格拓扑关系;

56、(2)元数据的结构化属性用于快速筛选,非结构属性用于相似匹配,结构化查询结果与非结构化匹配结果同时考虑,提升总体匹配性能;

57、(3)逐层数据查询、缩小查询子树范围,极大提升了查询效率。

本文档来自技高网...

【技术保护点】

1.一种基于数据网格的数据产品查询聚合方法,其特征在于,包括以下步骤:

2.根据权利要求1所述基于数据网格的数据产品查询聚合方法,其特征在于,所述步骤1数据产品树结构创建对元数据的设计提出新的优化方案,并进行数据产品的树结构构建作为元数据的一个属性,包括步骤1-1元数据设计与步骤1-2树结构管理。

3.根据权利要求2所述基于数据网格的数据产品查询聚合方法,其特征在于,所述步骤1-1元数据设计将数据产品元数据分为两个层面:结构化层面与非结构化层面,所述结构层面包括的元数据即为可以量化、可直接筛选查询的信息,该层面包含的信息有:

4.根据权利要求3所述基于数据网格的数据产品查询聚合方法,其特征在于,所述步骤1-2树结构管理将数据产品之间的数据依赖构建为一个决策树结构数据模型,针对数据网格中的每一个数据产品,构建数据依赖树结构方法具体包括如下:

5.根据权利要求1所述基于数据网格的数据产品查询聚合方法,其特征在于,所述步骤2分解查询通过已经构建的数据产品树结构与元数据对数据产品的查询进行分解并行实现,数据产品查询的方法如下:

6.根据权利要求1所述基于数据网格的数据产品查询聚合方法,其特征在于,所述步骤3查询聚合将多方查询以及对应子查询的结果进行汇聚,并按照匹配相似度从高到底排列返回,具体的,每个数据产品的查询中结构查询匹配度为s1,非结构化查询匹配度为s2,则该数据产品的匹配得分S为:

...

【技术特征摘要】

1.一种基于数据网格的数据产品查询聚合方法,其特征在于,包括以下步骤:

2.根据权利要求1所述基于数据网格的数据产品查询聚合方法,其特征在于,所述步骤1数据产品树结构创建对元数据的设计提出新的优化方案,并进行数据产品的树结构构建作为元数据的一个属性,包括步骤1-1元数据设计与步骤1-2树结构管理。

3.根据权利要求2所述基于数据网格的数据产品查询聚合方法,其特征在于,所述步骤1-1元数据设计将数据产品元数据分为两个层面:结构化层面与非结构化层面,所述结构层面包括的元数据即为可以量化、可直接筛选查询的信息,该层面包含的信息有:

4.根据权利要求3所述基于数据网格的数据产品查询聚合方法,其特...

【专利技术属性】
技术研发人员:于峰丁皓徐航张秦啸威
申请(专利权)人:江苏量界数据科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1