一种社保大数据OLAP预处理方法及在线分析查询方法技术

技术编号:15391700 阅读:134 留言:0更新日期:2017-05-19 04:54
本发明专利技术公开了一种社保大数据OLAP预处理方法及在线分析查询方法,包括以下步骤:从原始数据库提取数据构建数据仓库;从数据仓库提取单维数据;针对单维数据以及单维数据之间的组合构建从数据属性到ID的反向映射,并利用反向映射构建键值对数据库;筛选合适的数据属性的组合,保证对多维属性的组合可以得到多维数据聚合的结果;由数据属性的组合得到不同的分割,通过各种不同的分割组合来去除重复冗余的分割,从而保证用最少的分割达到所有的分割组合,然后构造一维的CUBE,完成预处理过程。本发明专利技术能够有效的表达多维查询的数据模型的结果并减少其所占用的存储空间。

OLAP pretreatment method for social security large data and on-line analysis inquiry method

The invention discloses a security OLAP large data preprocessing method and online analysis query method, which comprises the following steps: extracting data from the original construction of the data warehouse database; extracting single dimensional data from the data warehouse; for the combination between single dimensional data and single dimensional data constructed from reverse mapping data attributes to ID, and the construction of key using the database reverse mapping; combinatorial screening data attributes appropriate, to ensure the combination of multi attributes can be multi-dimensional data aggregation results; get different segmentation by combination of attribute data, through the different combination of segmentation to remove redundant segmentation, so as to guarantee with the least segmentation to achieve all segmentation combination then the structure of one-dimensional CUBE, complete the pretreatment process. The invention can effectively represent the result of the data model of the multidimensional query and reduce the storage space occupied by the data model.

【技术实现步骤摘要】
一种社保大数据OLAP预处理方法及在线分析查询方法
本专利技术涉及大数据处理
,特别涉及一种社保大数据OLAP预处理方法及在线分析查询方法。
技术介绍
随着信息数据时代的来临,政府、企业等机构累积产生了大量社保数据,这些数据蕴含着大量的信息,但是需要合理的挖掘才能形成有用的可供处理的信息,以便于对未来进行预测和适时地做出决策。许多企业级别的系统能够达到TB、PB的数据量,而对于分析决策者而言,需要从中提取出可供参考的信息。目前通用的做法是,使用OLAP(OnlineAnalyticalProcessing,在线分析处理)数据仓库,将历史数据经过一系列的提取、清理、装载等步骤存放到数据变动相对较小的数据仓库中,再进行在线分析处理OLAP,就能得到相关的信息以供决策。我国的社保信息化管理已经经过多年的发展完善,但当下对五种社保信息系统的管理,仍然很难独立的进行有效的处理,更不用说直接进行操作。在线分析处理(OLAP)可以将原始数据转化为贴近用户所理解的业务维度,提供从各种角度(切片、聚集等)观察信息的技术,便于分析管理人员快速、一致、交互地访问数据。OLAP的功能特点是提供动态多维的查询、分析、整合数据,支持多用户的分析活动,包括各个维度的计算和查询应用,通过多层次结构进行趋势分析,进行子集切片细致查看,钻取到更深的层次,旋转到新的维度进行可见的区域比较等。数据分析应用程序经常对聚集在不同的层面上的数据挖掘一些非常理的模式。对于这种问题,传统方法是使用GROUPBY操作,但它已被证明不适合大量的数据分析应用。所以在1997年提出了一个新的替代它的方法,它的名字是立方体(CUBE),并已成为OLAP系统中一个非常热门的研究领域。针对OLAP的查询效率问题,经过了将近20年的发展,已经形成了一套完整的理论和方法,主要就是使用CUBE来提升查询的速度。对海量社保数据的多维查询分析,查询速度是评价系统性能的关键因素。随着数据立方体(CUBE)在OLAP中的作用日渐重要,需要一种更为高效、快速的算法来计算和存储CUBE。然而,已知的CUBE算法仍然存在很多缺点,如查询时的计算,长方体和立方体的具体化和压缩等。针对多维立方体查询的优化,有几个比较常见的方法:CUBE压缩,局部物化等。局部物化是一种典型的用空间换取时间的方法,通过提前建立CUBE达到减少表连接消耗时间,当涉及到多维的社保数据,为每一列建立视图将会带来时间信息、地理信息等方面的巨大冗余,因此这种方法是不尽如人意的,同时CUBE压缩同样存在在高维度下效率低下的情况。
技术实现思路
本专利技术的主要目的在于克服现有技术的缺点与不足,提供一种社保大数据OLAP预处理方法,能够有效的表达多维查询的数据模型的结果并减少其所占用的存储空间。本专利技术的另一目的在于提供一种基于上述预处理方法的在线分析查询方法,能够有效的表达多维查询的数据模型的结果并减少其所占用的存储空间。本专利技术的目的通过以下的技术方案实现:一种社保大数据OLAP预处理方法,包括以下步骤:S1、从原始数据库提取数据构建数据仓库;S2、从数据仓库提取单维数据;S3、对单维数据以及单维数据的组合构建从属性到ID的反向映射,并利用反向映射构建键值对数据仓库;S4、筛选合适的数据属性的组合,保证对多维属性的组合可以得到多维数据聚合的结果;S5、由数据属性的组合得到不同的分割,通过各种不同的分割组合来去除重复冗余的分割,从而保证用最少的分割达到所有的分割组合,针对社保数据的独特性并结合实际情况,构造一维的CUBE,完成预处理过程。优选的,不同属性元素对ID的反向映射,通过键值对数据库LMDB来进行存储。优选的,根据需求建立一种新的表示分割的数据结构,分为两部分,第一部分表示它的ID,即它所在原数据库中的ID值;第二部分表示它所属于的类的ID,即把ID分割成许多子集,每个子集的ID。进一步的,利用Boost库中的多重索引结构重新封装,得到一个可以根据ID或子集ID索引的新的数据结构。优选的,步骤S5中一维的CUBE只存储所有的一维分割,在查询时,对一维分割进行实时的组合即可达到所有的分割组合;一维的分割指的是单独属性的分割。一种基于上述预处理方法的在线分析查询方法,包括以下步骤:预处理:S1、从原始数据库提取数据构建数据仓库;S2、从数据仓库提取单维数据;S3、对单维数据以及单维数据的组合构建从属性到ID的反向映射,并利用反向映射构建键值对数据仓库;S4、筛选合适的数据属性的组合,保证对多维属性的组合可以得到多维数据聚合的结果;S5、由数据属性的组合得到不同的分割,通过各种不同的分割组合来去除重复冗余的分割,从而保证用最少的分割达到所有的分割组合,针对社保数据的独特性并结合实际情况,构造CUBE,完成预处理过程;查询步骤:S7、用户输入查询需求;S8、构建一个通用的SQL查询框架,将传统的SQL语言解析,使之可用于本方法的查询,以实现对底层的封装;S9、判断查询需求是否合法,结论为否则提醒用户重新输入查询需求,结论为是则继续步骤S10;S10、通过调用键值对数据仓库中的反向映射,分析属性到ID的数据,通过对数据的组合和分割处理,生成分割的交和并的算法;S11、从一维的CUBE得到单维数据并根据S10中所得的算法进行聚合,生成查询结果并返回。本专利技术与现有技术相比,具有如下优点和有益效果:本专利技术以一种反向的思维对传统数据库进行处理,得到一个属性对ID的键值对数据库,经过严格的理论证明,形成了一个可以基于此键值对数据库的查询方法。此方法克服了传统CUBE算法空间效率低下的问题,以一种全新的思维构造了一个基于分割的数据仓库系统,并取得了不错的时间效率。本方法可以满足日益提高的OLAP查询的要求,得到了一个空间消耗低、并满足实时性的OLAP系统。附图说明图1为实施例中数据预处理流程图;图2为实施例中在线分析查询方法流程图;图3为实施例中查询过程中读取数据时间与聚合时间比较图;图4为实施例中查询的行数与总时间的对比图;图5为本专利技术实施例模型与一个商用数据库(postgreSQL)的时间比较;图6为本专利技术实施例模型在数据集SSB中与一个商用数据库(postgreSQL)的时间比较。具体实施方式下面结合实施例及附图对本专利技术作进一步详细的描述,但本专利技术的实施方式不限于此。本实施例通过OLAP查询处理引擎和一个合理的数学的证明,提出了模型的广义的元组通过分割的对应元组。然后,可以证明本算法可以包含或者推导出所有数据立方体。然后,通过CUBE的通用查询模型,可以进行任意的分割的计算,从而实现了聚集的算法。最终,通过那些单个的数据分割结构,可以动态的提取所有聚集的组合,从中查询出任何需要的结果。本专利技术的算法的核心特点可以概括如下:{查询结果}=∧∨{所有提取得到的一维键值对数据,即所有的单维分割}一种社保大数据OLAP预处理方法,如图1,包括以下步骤:S1、从原始数据库抽取出所需的数据,经过抽取、转换、加载到数据仓库中去;S2、从数据仓库提取单维数据;S3、针对单维数据以及单维数据之间的组合,构建从属性到ID的反向映射,利用反向映射构建键值对数据库(使用LMDB作为Key/Value数据库进行存储),作为社保数据统计分析的存储空间;本文档来自技高网
...
一种社保大数据OLAP预处理方法及在线分析查询方法

【技术保护点】
一种社保大数据OLAP预处理方法,其特征在于,包括以下步骤:S1、从原始数据库提取数据构建数据仓库;S2、从数据仓库提取单维数据;S3、针对单维数据以及单维数据之间的组合构建从数据属性到ID的反向映射,并利用反向映射构建键值对数据库;S4、筛选合适的数据属性的组合,保证对多维属性的组合可以得到多维数据聚合的结果;S5、由数据属性的组合得到不同的分割,通过各种不同的分割组合来去除重复冗余的分割,从而保证用最少的分割达到所有的分割组合,然后构造一维的CUBE,完成预处理过程。

【技术特征摘要】
1.一种社保大数据OLAP预处理方法,其特征在于,包括以下步骤:S1、从原始数据库提取数据构建数据仓库;S2、从数据仓库提取单维数据;S3、针对单维数据以及单维数据之间的组合构建从数据属性到ID的反向映射,并利用反向映射构建键值对数据库;S4、筛选合适的数据属性的组合,保证对多维属性的组合可以得到多维数据聚合的结果;S5、由数据属性的组合得到不同的分割,通过各种不同的分割组合来去除重复冗余的分割,从而保证用最少的分割达到所有的分割组合,然后构造一维的CUBE,完成预处理过程。2.根据权利要求1所述的社保大数据OLAP预处理方法,其特征在于,数据属性到ID的反向映射通过键值对数据库程序接口LMDB来进行存储。3.根据权利要求1所述的社保大数据OLAP预处理方法,其特征在于,根据需求建立一种新的表示分割的数据结构,分为两部分,第一部分表示它的ID,即它所在原始数据库中的ID值;第二部分表示它所属于的类的ID,即把ID分割成许多子集,每个子集的ID。4.根据权利要求3所述的社保大数据OLAP...

【专利技术属性】
技术研发人员:王弘剑张星明
申请(专利权)人:华南理工大学
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1