一种应用于数据仓库的数据处理方法和数据处理装置制造方法及图纸

技术编号:10933724 阅读:92 留言:0更新日期:2015-01-21 13:53
本发明专利技术提供一种应用于数据仓库的数据处理方法和数据处理装置,能够提高数据仓库中的数据的时效性。本发明专利技术的应用于数据仓库的数据处理方法包括:在第一数据库被操作时,根据该操作对应的增量日志对数据仓库中的第一数据库的镜像数据库的记录进行修改,然后将修改后的记录另行保存到键值数据库中;从所述键值数据库中取出最新的条目,将该条目追加保存到所述数据仓库的第一数据表中,使该第一数据表中包含所述镜像数据库的该记录的各个历史版本;在所述第一数据表中查询数据。

【技术实现步骤摘要】
【专利摘要】本专利技术提供一种应用于数据仓库的数据处理方法和数据处理装置,能够提高数据仓库中的数据的时效性。本专利技术的应用于数据仓库的数据处理方法包括:在第一数据库被操作时,根据该操作对应的增量日志对数据仓库中的第一数据库的镜像数据库的记录进行修改,然后将修改后的记录另行保存到键值数据库中;从所述键值数据库中取出最新的条目,将该条目追加保存到所述数据仓库的第一数据表中,使该第一数据表中包含所述镜像数据库的该记录的各个历史版本;在所述第一数据表中查询数据。【专利说明】一种应用于数据仓库的数据处理方法和数据处理装置
本专利技术涉及计算机
,特别地涉及一种应用于数据仓库的数据处理方法和 数据处理装置。
技术介绍
数据仓库,英文名称为Data Warehouse,可简写为DW或DWH。数据仓库是为企业 所有级别的决策制定过程提供支持的所有类型数据的战略集合。其数据来自于各个分散的 源数据库,例如生产环境下的关系数据库,以及其他需要进行分析的数据所在的数据库。数 据仓库是出于分析性报告和决策支持的目的而创建,为企业提供需要业务智能来指导业务 流程改进和监视时间、成本、质量和控制。与源数据库相比,数据仓库是前者数据的汇总,具 有大容量的特点,并且一般有大量的查询操作,但修改和删除操作很少,通常只需要定期的 加载、刷新。 在搭建数据仓库系统,建设数据分析平台时,常常需要实时的数据流参与数据分 析,如PV(页面浏览量)、uv(独立访问量)、订单量、订单金额等,因此要求能够快速准确的 得到实时数据。 数据仓库的数据是从源数据库抽取数据而得到。数据抽取的时间间隔一般由最终 用户的查询数据的需求决定,大多数需求一般是一天至少更新一次数据。如果源数据库是 随时会有更新的在线数据库,则数据仓库可以在源数据库在线或离线时抽取数据,一般按 如下步骤: 步骤一:使用数据库SQL查询的方式获取源数据库在一定时间范围内更新的数 据。一般根据数据表更新字段获取每天更新的数据,如果没有更新字段则需要进行每天全 表查询抽取。 步骤二:将第一步获取的数据通过程序或者数据库原生方式从源数据库导入到中 转服务器或者数据仓库。 步骤三:经过数据清洗后的当天增量或者全量数据保存到数据仓库的源数据库的 镜像数据库内,并且生成该镜像数据在当天的一个快照数据。 按照现有技术中的上述从源数据库离线批量抽取数据方式,由于离线批量抽取只 能采用SQL方式通过数据库查询引擎进行数据提取,会对源数据库造成一定压力。为了减 少对源数据库的压力,从源数据库进行数据抽取一般都在每天夜间生产压力小的时候进 行,从而造成了数据至少一天的延时,并且只能通过抽取大于每次间隔时间的数据来更新。 这样,从数据仓库查询得到的数据比较陈旧,时效性不足。
技术实现思路
有鉴于此,本专利技术提供一种应用于数据仓库的数据处理方法和数据处理装置,能 够提高数据仓库中的数据的时效性。 为实现上述目的,根据本专利技术的一个方面,提供了一种应用于数据仓库的数据处 理方法。 本专利技术的应用于数据仓库的数据处理方法包括:在第一数据库被操作时,根据该 操作对应的增量日志对数据仓库中的第一数据库的镜像数据库的记录进行修改,然后将修 改后的记录另行保存到键值数据库中;从所述键值数据库中取出最新的条目,将该条目追 加保存到所述数据仓库的第一数据表中,使该第一数据表中包含所述镜像数据库的该记录 的各个历史版本;在所述第一数据表中查询数据。 可选地,在所述第一数据表中查询数据的步骤包括:在所述第一数据表中查询具 有指定标识并且距指定历史时刻最近且在该历史时刻之前更新的数据库记录。 可选地,在所述第一数据表中查询数据的步骤包括:在所述第一数据表中查询当 前最新的记录。 可选地,还包括:根据所述第一数据表的指定时刻之前的记录,将当前数据仓库的 第一数据库的镜像数据库更新为所述第一数据库在该指定时刻的状态。 可选地,所述键值数据库为Hbase数据库;所述第一数据表为Hive数据表。 根据本专利技术的另一方面,提供了一种应用于数据仓库的数据处理装置。 本专利技术的应用于数据仓库的数据处理装置包括:修改模块,用于在第一数据库被 操作时,根据该操作对应的增量日志对数据仓库中的第一数据库的镜像数据库的记录进行 修改,然后将修改后的记录另行保存到键值数据库中;保存模块,用于从所述键值数据库中 取出最新的条目,将该条目追加保存到所述数据仓库的第一数据表中,使该第一数据表中 包含所述镜像数据库的该记录的各个历史版本;查询模块,用于在所述第一数据表中查询 数据。 可选地,所述查询模块还用于在所述第一数据表中查询具有指定标识并且距指定 历史时刻最近且在该历史时刻之前更新的数据库记录。 可选地,所述查询模块还用于在所述第一数据表中查询当前最新的记录。 可选地,还包括更新模块,用于根据所述第一数据表的指定时刻之前的记录,将当 前数据仓库的第一数据库的镜像数据库更新为所述第一数据库在该指定时刻的状态。 可选地,所述键值数据库为Hbase数据库;所述第一数据表为Hive数据表。 根据本专利技术的技术方案,在第一数据库被操作时,根据该操作对应的增量日志对 数据仓库中的第一数据库的镜像数据库的记录进行修改,修改后的条目的内容被追加保 存到数据仓库的第一数据表中,使该第一数据表中包含镜像数据库的该记录的各个历史版 本,这样既能够从数据仓库中得到实时性很高的镜像数据,又可以得到镜像数据库在任意 历史时刻的版本即数据快照,还能够使镜像数据库的更新调度变得简单,调度间隔容易控 制。在Hadoop技术环境下,应用本实施例的方案无需编写复杂的Mapreduce程序,通过Hive SQL接口就可以从第一数据表中查询数据记录以及更新上述镜像数据库。 【专利附图】【附图说明】 附图用于更好地理解本专利技术,不构成对本专利技术的不当限定。其中: 图1是根据本专利技术实施例的应用于数据仓库的数据处理方法的流程的主要步骤 的不意图; 图2是根据本专利技术实施例的应用于数据仓库的数据处理装置的主要模块的示意 图。 【具体实施方式】 以下结合附图对本专利技术的示范性实施例做出说明,其中包括本专利技术实施例的各种 细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识 至IJ,可以对这里描述的实施例做出各种改变和修改,而不会背离本专利技术的范围和精神。同 样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。 在以下的描述中,以数据仓库保存生产环境下的在线的关系数据库(以下简称作 "第一数据库")的镜像数据库为例说明本实施例的技术方案对本专利技术实施例的技术方案作 详细说明,并且本实施例中采用Hadoop体系的技术。图1是根据本专利技术实施例的应用于数 据仓库的数据处理方法的流程的主要步骤的示意图。该方法可以由计算机程序来完成。如 图1所示,该方法主要包括如下的步骤S11至S13。 步骤S11 :判断当前是否产生增量日志。若是,则进行步骤S12,否则延时之后再次 判断。在第一数据库被操作后,日志处理程序监听到数据库的变化,然后产生一条对应于该 操作的日志,该日志对于第一本文档来自技高网
...

【技术保护点】
一种应用于数据仓库的数据处理方法,其特征在于,包括:在第一数据库被操作时,根据该操作对应的增量日志对数据仓库中的第一数据库的镜像数据库的记录进行修改,然后将修改后的记录另行保存到键值数据库中;从所述键值数据库中取出最新的条目,将该条目追加保存到所述数据仓库的第一数据表中,使该第一数据表中包含所述镜像数据库的该记录的各个历史版本;在所述第一数据表中查询数据。

【技术特征摘要】

【专利技术属性】
技术研发人员:刘羽刘彦伟
申请(专利权)人:北京京东尚科信息技术有限公司北京京东世纪贸易有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1