基于数据仓库的数据处理系统和方法技术方案

技术编号:8959467 阅读:173 留言:0更新日期:2013-07-25 19:01
本发明专利技术公开了一种基于数据仓库的数据处理系统和方法。该数据处理系统包括:临时数据模型建立单元,被配置为根据用户输入动态地建立临时数据模型;筛选收集单元,被配置为根据所述临时数据模型从所述数据仓库中筛选并收集数据;以及加载单元,被配置为将筛选出的数据加载到扩展存储系统中。

【技术实现步骤摘要】

本专利技术涉及数据仓库集群存储,具体地,涉及对数据仓库系统中的数据的处理过程进行改进和扩展。
技术介绍
目前,工业、交通、互联网等企业的数据仓库环境下,主要包含数据收集、存储、预处理和报表呈现等模块。其中预处理部分主要是指传统的ETL(Extraction-Transformation-Loading提取、转换和加载)过程,这个过程按照固定周期执行,根据制定的数据规格、标准和数据仓库模型进行数据处理。当用户查询时,需要以固定的数据模型为基础,组织数据,而后呈现。但是,这种模式对于新的数据需求反应缓慢,不能适应对各种数据信息需求快速、多变的特点,进而造成对新需求的反应滞后。因此,希望提供能够克服传统数据仓库环境对快速、多变需求反应滞后问题的数据仓库数据处理系统和方法。
技术实现思路
鉴于以上所述的问题,本专利技术对传统集群式数据仓库系统进行了改进。根据本专利技术的一个方面,提供了一种基于数据仓库的数据处理系统。该系统包括:临时数据模型建立单元,被配置为根据用户输入动态地建立临时数据模型;筛选收集单元,被配置为根据所述临时数据模型从所述数据仓库中筛选并收集数据;加载单元,被配置为将筛选出的数据加载到扩展存储系统中。在一个示例中,扩展存储系统可以包括加速存储数据库和/或功能扩展数据库。例如,当所筛选出的数据的量大于阈值和/或需要多表关联查询时,则所筛选出的数据可以被加载到加速存储数据库中。在另一示例中,功能扩展数据库可以对所述所筛选出的数据进行高级统计函数处理。加速存储数据库可以包括列式存储数据库,例如Infobright存储引擎。功能扩展数据库可以包括关系数据库,例如PostgreSQL数据库。在另一示例中,该数据处理系统还包括:分析计算单元,被配置为根据用户查询条件,在扩展存储系统中对筛选出的数据执行分析和计算处理并输出处理结果。分析和计算处理可以包括合并汇总处理,用于对筛选出的数据进行汇总和统计。在一个示例中,加载单元还被配置为根据扩展存储系统的存储结构来对筛选出的数据进行格式转换。在一个示例中,数据仓库可以是基于筛选收集和合并汇总集群存储和计算的数据仓库。在一个示例中,该数据处理系统还包括报表输出单元,被配置为以表格、图表格式输出所述处理结果。在一个示例中,临时数据模型包括一个或多个用户查询项和与查询项相关联的一个或多个限定条件。根据本专利技术的另一实施例,提供了一种基于数据仓库的数据处理方法。该方法包括:临时数据模型建立步骤,用于根据用户输入动态地建立临时数据模型;筛选收集步骤,用于根据所述临时数据模型从所述数据仓库中筛选并收集数据;加载步骤,用于将筛选出的数据加载到扩展存储系统中。在一个示例中,扩展存储系统可以包括加速存储数据库和/或功能扩展数据库。例如,如果所筛选出的数据的量大于阈值和/或需要多表关联查询,则所筛选出的数据可以被加载到加速存储数据库中。在另一示例中,功能扩展数据库可以对所述所筛选出的数据进行高级统计函数处理。在一个示例中,加速存储数据库可以包括列式存储数据库。例如,列式存储数据库可以是Infobright存储引擎。在另一示例中,功能扩展数据库可以包括关系数据库。例如,关系数据库是PostgreSQL数据库。在另一示例中,该数据处理方法还包括:根据用户查询范围,在所述扩展存储系统中对所述筛选出的数据执行分析和计算处理并输出处理结果。分析和计算处理可以包括合并汇总处理,用于对筛选出的数据进行汇总和统计。在一个示例中,加载步骤还用于根据扩展存储系统的存储结构来对所述筛选出的数据进行格式转换。在一个示例中,数据仓库可以基于筛选收集和合并汇总集群存储和计算。在另一示例中,该数据处理方法还包括以表格、图表格式输出处理结果。在一个示例中,临时数据模型包括一个或多个用户查询项和与查询项相关联的一个或多个限定条件。根据本专利技术的至少以上实施例,可以在集群存储数据仓库环境中,及时地响应快速、多变的数据需求,同时能够优化基于筛选收集和合并汇总集群的数据仓库系统的计算效率,并灵活扩展数据仓库接口的功能。附图说明从下面结合附图对本专利技术的具体实施方式的描述中可以更好地理解本专利技术,其中:图1示例性地示出了根据本专利技术实施例的数据仓库数据处理系统。图2示例性地示出了根据本专利技术实施例的数据仓库数据处理流程。图3示例性地示出了以程序代码实现的本专利技术的临时模型的设置示例。图4(a)和图4(b)示例性地示出了利用图3所示的临时数据模型得到的数据的显示示例。具体实施例方式下面将详细描述本专利技术各个方面的特征和示例性实施例。下面的描述涵盖了许多具体细节,以便提供对本专利技术的全面理解。但是,对于本领域技术人员来说显而易见的是,本专利技术可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本专利技术的示例来提供对本专利技术更清楚的理解。本专利技术绝不限于下面所提出的任何具体配置和算法,而是在不脱离本专利技术的精神的前提下覆盖了相关元素、部件和算法的任何修改、替换和改进。在传统的数据仓库环境中,通常通过将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库中,成为联机分析处理、数据挖掘的基础。在对数据仓库中的数据进行分析处理和挖掘的过程中,传统上都是利用固定模型来组织数据,因此无法满足实时、多变的数据需求。此外,在利用模型组织数据的过程中,通常使用筛选收集-合并汇总,即,map-reduce分布式计算模式,筛选收集过程用于按照用户需要对数据仓库中的数据进行筛选和收集,合并汇总过程用于对筛选出的数据进行汇总和统计。在该模式中,筛选收集后的中间数据被存储在分布式节点的普通缓存结构中,从而导致后续合并汇总操作的处理量大、时间长、效率低。因此,需要对传统的数据仓库环境中的数据处理过程进行改进。图1示例性地示出了根据本专利技术实施例的数据仓库数据处理系统100。该数据仓库数据处理系统100包括临时数据模型建立单元110、数据仓库120、筛选收集单元130、加载单元140以及扩展存储系统150。临时数据模型建立单元110可以被配置为根据用户输入动态地建立临时数据模型。在一个示例中,临时数据模型可以包括一个或多个用户查询项和与查询项相关联的一个或多个限定条件。例如,临时数据模型建立单元110可以从用户获得用户通过输入装置键入的与数据仓库中一种或多种信息项相关联的关键词。在另一示例中,临时数据模型建立单兀Iio可以从系统中的诸如信息项列表选择一种或多种信息项作为输入。在另一不例中,临时数据模型可以是一组表结构以及其中数据,表结构可以根据需求灵活定义。信息项的示例例如可以是但不限于工业过程控制中的质量、模型、进度等,通讯条件和信号质量,环境监控过程中的环境状况信息,交通监控中的区域、路段交通流量,全局或局部气象信息、互联网中关于游戏客户端、用户的各种信息等。例如,限定条件可以是工业过程控制中的指定过程,交通控制中的指定路段,在线游戏中的指定游戏,等等。如上面提到的,在传统的基于数据仓库的数据处理技术中,都是以某种固定的数据模型为基础来组织数据的,由于这种模式的修改非常耗时且再次运行时处理量巨大,因此对于实时的数据需求反应缓慢,而且不能满足多样化的、灵活多变的数据需求。而本专利技术通过根据用户需本文档来自技高网...

【技术保护点】
一种基于数据仓库的数据处理系统,该系统包括:临时数据模型建立单元,被配置为根据用户输入动态地建立临时数据模型;筛选收集单元,被配置为根据所述临时数据模型从所述数据仓库中筛选并收集数据;以及加载单元,被配置为将筛选出的数据加载到扩展存储系统中。

【技术特征摘要】
1.一种基于数据仓库的数据处理系统,该系统包括: 临时数据模型建立单元,被配置为根据用户输入动态地建立临时数据模型; 筛选收集单元,被配置为根据所述临时数据模型从所述数据仓库中筛选并收集数据;以及 加载单元,被配置为将筛选出的数据加载到扩展存储系统中。2.如权利要求1所述的数据处理系统,其中,所述扩展存储系统包括加速存储数据库。3.如权利要求2所述的数据处理系统,其中,如果所述所筛选出的数据的量大于阈值和/或需要多表关联查询,则将所述所筛选出的数据加载到所述加速存储数据库中。4.如权利要求1所述的数据处理系统,其中,所述扩展存储系统包括功能扩展数据库。5.如权利要求4所述的数据处理系统,其中,所述功能扩展数据库对所述所筛选出的数据进行高级统计函数处理。6.如权利要求2所述的数据处理系统,其中,所述加速存储数据库包括列式存储数据库。7.如权利要求6所述的数据处理系统,其中,所述列式存储数据库是Infobright存储引擎。8.如权利要求4所述的数据处理系统,其中,所述功能扩展数据库包括关系数据库。9.如权利要求8 所述的数据处理系统,其中,所述关系数据库是PostgreSQL数据库。10.如权利要求1所述的数据处理系统,还包括:分析计算单元,被配置为根据用户查询范围,在所述扩展存储系统中对所述筛选出的数据执行分析和计算处理并输出处理结果O11.如权利要求10所述的数据处理系统,其中,所述分析和计算处理包括合并汇总处理,用于对所述筛选出的数据进行汇总和统计。12.如权利要求1所述的数据处理系统,其中,所述加载单元还被配置为根据所述扩展存储系统的存储结构来对所述筛选出的数据进行格式转换。13.如权利要求1所述的数据处理系统,其中,所述数据仓库基于筛选收集和合并汇总集群存储和计算。14.如权利要求10所述的数据处理系统,还包括报表输出单元,被配置为以表格、图表格式输出所述处理结果。15.如权利要求1所述的数据处理系统,其中,所述临时数据模型包括一个或多个用户查询项和与查询项相关联的一个或多个...

【专利技术属性】
技术研发人员:白冬立乔万里黄建张丽丽张岩魏来马小珩潘飞
申请(专利权)人:互爱互动北京科技有限公司
类型:发明
国别省市:

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1