当前位置: 首页 > 专利查询>东北大学专利>正文

一种大数据环境下多维聚集查询与展示系统及方法技术方案

技术编号:13879597 阅读:121 留言:0更新日期:2016-10-23 01:07
本发明专利技术提出一种大数据环境下多维聚集查询与展示系统及方法,属于大数据的多维聚集查询、立方数据可视化和OLAP分析交互技术领域,本发明专利技术包括:采用频数统计的算法将原始大数据集压缩为小数据集,即获得频数统计图数据;将频数统计图数据处理为分析性数据并进行存储;根据所保存数据的维值采用构建数据立方的方式展示对应的聚集结果;本发明专利技术以空间换时间,通过大规模分布式处理将大数据集压缩为小数据集,解决了大数据环境下聚集分析的运算性能与查询效率问题,支持各种类型的聚集计算,提供直观的高维度分析型数据的展示与交互方式,使操作得到简化,可以供开发者开发多种交互方法,也有助于推动虚拟现实技术在数据查询与浏览方面的发展。

【技术实现步骤摘要】

本专利技术属于大数据的多维聚集查询、立方数据可视化和OLAP分析交互
,具体涉及一种大数据环境下多维聚集查询与展示系统及方法
技术介绍
在这个信息爆炸的时代,数据规模急剧增长;当n很大时,即使复杂度为O(n)的查询算法执行时间也会令人难以接受;云计算平台及相关技术能够提供处理大数据所需的计算和存储资源,而大数据环境下如何组织和存储数据,如何查询数据,以及如何以一种直观的方式展示数据,这些都是极具挑战的问题。OLAP(联机分析处理)是支持多维数据分析性查询,帮助企业做出决策的关键技术,可以在线的完成多维数据分析型查询;OLAP操作,包括上卷、下钻、切片、切块和旋转操作,其核心是多维聚集查询(或称OLAP查询);OLAP工具可支持从不同维度和不同粒度对数据进行聚集,并以分析报表的形式展示聚集结果;然而,大数据环境下无论是基于单一服务器的还是基于集群的OLAP都存在以下局限性包括:1.现有预计算技术代价过高,难以枚举维上不同级别不同粒度的所有查询条件的组合,不能高效地支持中位数、众数等聚集函数;2.现有OLAP查询算法难以对海量的事实数据进行过滤,如去除最大值和最小值的均值计算,传统OLAP查询需要扫描海量事实数据,查询性能低;3.现有OLAP工具数据展示方式为报表或者图表,展现功能有限;报表对于概要浏览数据或者观察数据的走势与分布很方便,但是难以支持高维数据的展示;且报表的操作复杂,用户体验差;OLAP操作的实质是多维聚集查询(OLAP查询),为提高查询效率,或降低算法复杂度、或采用近似算法、或采用大规模分布式并行处理、或将大数据集简化为小数据集;OLAP展示的实质是如何展现一个多维的数据空间,并且能够让这个空间自由的变换。
技术实现思路
针对现有技术的不足,本专利技术提出一种大数据环境下多维聚集查询与展示系统及方法,以达到解决大数据环境下聚集分析的运算性能与查询效率问题,提供直观的高维度分析型数据的展示与交互方式,简化OLAP工具的操作的目的。一种大数据环境下多维聚集查询与展示系统,该系统包括数据压缩模块、数据类型转换模块和多维数据立方展示模块,其中,数据压缩模块:用于采用频数统计的算法将原始大数据集压缩为小数据集,即获得频数
统计图数据,并将频数统计图数据发送至数据类型转换模块中;数据类型转换模块:用于根据实际需求获得全部的查询条件,即所需查询的维值和所选取的聚集计算;根据所需查询的维值获得对应的频数统计图数据,并根据所选取的聚集来计算频数统计图对应的聚集结果;将维值和聚集结果进行保存,并获得每个维度的上卷和下钻结果,并保存;多维数据立方展示模块:用于根据所保存数据的维值采用构建数据立方的方式展示对应的聚集结果。采用大数据环境下多维聚集查询与展示系统进行的查询与展示方法,包括以下步骤:步骤1、采用频数统计的算法将原始大数据集压缩为小数据集,即获得频数统计图数据;步骤2、将频数统计图数据处理为分析性数据并进行存储,具体步骤如下:步骤2-1、获得全部的查询条件,即所需查询的维值和所选取的聚集计算;步骤2-2、根据所需查询的维值获得对应的频数统计图数据,并根据所选取的聚集来计算频数统计图对应的聚集结果;步骤2-3、将步骤2-2中的维值和聚集结果进行保存;步骤2-4、获得所保存的每个维度的上卷和下钻结果,并保存;步骤3、根据所保存数据的维值采用构建数据立方的方式展示对应的聚集结果。步骤1所述的采用频数统计的算法将原始大数据集压缩为小数据集,即获得频数统计图数据,具体步骤如下:步骤1-1、统计原始大数据集中维值组合相同的数据的全部度量值;步骤1-2、获得相同维值组合中各个度量值出现的次数;步骤1-3、按照升序的方式对度量值进行排序,并按照“度量值,次数”的格式对每一个维值组合进行保存,获得频数统计图数据。步骤2-1所述的聚集计算,包括:计算最大值、计算最小值、计算极差、计算数据量、计算求和、计算平均值、计算众数和计算中位数。本专利技术优点:本专利技术提出一种大数据环境下多维聚集查询与展示系统及方法,以空间换时间,通过大规模分布式处理将大数据集压缩为小数据集,以牺牲一定的存储换取查询效率的提升,解决了大数据环境下聚集分析的运算性能与查询效率问题,本专利技术支持各种类型的聚集计算,包括中位数、众数等在内;提供直观的高维度分析型数据的展示与交互方式,使得OLAP工具的操作得到简化,这种展示方式可以供开发者开发多种交互方法,如鼠标、触摸等,也有助于推动虚拟现实技术在数据查询与浏览方面的发展;专利技术中的频数统计图提供了一种数据的
组织形式,利用了统计学中的知识,可以供具有离散特性的数据集参考和利用,这一组织形式允许了开发者在实际应用时开发自己需要的聚集计算,扩展性好。附图说明图1为本专利技术一种实施例的原始数据的存储模型示意图;图2为本专利技术一种实施例的大数据环境下多维聚集查询与展示系统结构示意图;图3为本专利技术一种实施例的大数据环境下多维聚集查询与展示方法流程图;图4为本专利技术一种实施例的三维数据展示示意图;图5为本专利技术一种实施例的高维数据展示示意图;图6为本专利技术一种实施例的上卷操作结果示意图;图7为本专利技术一种实施例的下钻操作结果示意图;图8为本专利技术一种实施例的切片切块操作结果示意图;图9为本专利技术一种实施例的旋转操作结果示意图。具体实施方式下面结合附图对本专利技术一种实施例做进一步说明。本专利技术实施例中,以三维的电商销量数据为例说明。该商业销量数据统计了各个时间各个地点各种商品的销量数据,维度包括时间、商品分类、地点三个,度量为商品的销量。时间维的维级别包括年、季度、月、日,商品分类维的维级别包括种类、细类和商品,地点维的维级别包括地区、省、市、县;该例子中原始数据的存储模型如图1所示;本专利技术实施例中,如图2所示,大数据环境下多维聚集查询与展示系统包括数据压缩模块、数据类型转换模块和多维数据立方展示模块;本专利技术实施例中,数据压缩模块用于采用频数统计的算法将原始大数据集压缩为小数据集,即获得频数统计图数据,并将频数统计图数据发送至数据类型转换模块中;数据类型转换模块用于获得全部的查询条件,即所需查询的维值和所选取的聚集计算;根据所需查询的维值获得对应的频数统计图数据,并根据所选取的聚集来计算频数统计图对应的聚集结果;将维值和聚集结果进行保存,并获得每个维度的上卷和下钻结果,并保存;多维数据立方展示模块用于根据所保存数据的维值采用构建数据立方的方式展示对应的聚集结果。本专利技术实施例中,采用大数据环境下多维聚集查询与展示系统进行的查询与展示方法,如图3所示,包括以下步骤:步骤1、采用频数统计的算法将原始大数据集压缩为小数据集,即获得频数统计图数据;具体步骤如下:步骤1-1、统计原始大数据集中维值组合相同的数据的全部度量值;在大数据环境下,数据规模巨大,事实数据表中度量的可枚举值远远小于数据量,会有度量值大量重复的现象,如表1所示:表1本专利技术实施例中,对于原始数据集事实数据表中的数据,首先将其所有维值相同的数据进行统计,并存储这些维值相同的数据对应的度量值;对表1中的数据,本专利技术的处理过程就是先把维值完全相同的数据统计起来,得到的数据如下:{A1,B1,C1,(78,46,32,20,78,46,32,46,20)本文档来自技高网
...

【技术保护点】
一种大数据环境下多维聚集查询与展示系统,其特征在于,该系统包括数据压缩模块、数据类型转换模块和多维数据立方展示模块,其中,数据压缩模块:用于采用频数统计的算法将原始大数据集压缩为小数据集,即获得频数统计图数据,并将频数统计图数据发送至数据类型转换模块中;数据类型转换模块:用于根据实际需求获得全部的查询条件,即所需查询的维值和所选取的聚集计算;根据所需查询的维值获得对应的频数统计图数据,并根据所选取的聚集来计算频数统计图对应的聚集结果;将维值和聚集结果进行保存,并获得每个维度的上卷和下钻结果,并保存;多维数据立方展示模块:用于根据所保存数据的维值采用构建数据立方的方式展示对应的聚集结果。

【技术特征摘要】
1.一种大数据环境下多维聚集查询与展示系统,其特征在于,该系统包括数据压缩模块、数据类型转换模块和多维数据立方展示模块,其中,数据压缩模块:用于采用频数统计的算法将原始大数据集压缩为小数据集,即获得频数统计图数据,并将频数统计图数据发送至数据类型转换模块中;数据类型转换模块:用于根据实际需求获得全部的查询条件,即所需查询的维值和所选取的聚集计算;根据所需查询的维值获得对应的频数统计图数据,并根据所选取的聚集来计算频数统计图对应的聚集结果;将维值和聚集结果进行保存,并获得每个维度的上卷和下钻结果,并保存;多维数据立方展示模块:用于根据所保存数据的维值采用构建数据立方的方式展示对应的聚集结果。2.采用权利要求1所述的大数据环境下多维聚集查询与展示系统进行的查询与展示方法,其特征在于,包括以下步骤:步骤1、采用频数统计的算法将原始大数据集压缩为小数据集,即获得频数统计图数据;步骤2、将频数统计图数据处理为分析性数据并进行存储,具体步骤如下:步骤2-1、获得全部的查询条件...

【专利技术属性】
技术研发人员:宋杰马忠义闫海平孟骋雒齐
申请(专利权)人:东北大学
类型:发明
国别省市:辽宁;21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1