一种基于关系型数据库形成Hive数据仓库的方法及系统技术方案

技术编号：13903201 阅读：184 留言：0更新日期：2016-10-26 00:15

本发明专利技术涉及一种基于关系型数据库形成Hive数据仓库的方法及系统，其方法包括以下步骤：将数据源关联到关系型数据库中；在关系型数据库中将数据源中的源数据抽取到Hive中；判断抽取的源数据是否为按天抽取增量的原始数据，若是则在Hive中按日期建立时间分区外部表，每天将关系型数据库中源数据的增量抽取到对应的时间分区外部表中；若不是则将Hive中已有的数据删除，并将关系型数据库中源数据的全量抽取到Hive中形成Hive原始数据外部表；将存储有原始数据增量的时间分区外部表和Hive原始数据外部表组合形成Hive数据仓库。本发明专利技术将不同关系型数据库的数据集中到一点，可以按照全量进行操作也可以按照日期进行增量操作，减少人工干预。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种形成Hive数据仓库的方法及系统，具体的涉及一种基于关系型数据库形成Hive数据仓库的方法及系统。
技术介绍
随着核心业务系统的解耦以及外围平台的不断扩展，系统间数据一致性和系统内各处理环节与接口的数据一致性问题日趋重要，如何快速发现、定位数据差异，并进行针对性处理修复数据，是目前数据一致性管理中的重要工作。随着核心业务系统的解耦以及外围平台的不断扩展，生成数据的数据源越来越多，对于数据的统计、分析造成了不方便性，同时对在生成库上进行统计分析容易造成对生产库的影响，现将数据进行统一形成数据仓库。现在的处理模式存在以下缺陷：对于抽取语句的配置与变更与人工干预，对于hive表的变更需要人工参与，对于hive表增加字段则修改表结构之前的数据无该字段信息，同时无法进行增加，如历史数据需要该字段则需要重新进行抽取数据。
技术实现思路
本专利技术所要解决的技术问题是提供一种基于关系型数据库形成Hive数据仓库的方法及系统，减少人工干预，可实现全量和增量的抽取数据。本专利技术解决上述技术问题的技术方案如下：一种基于关系型数据库形成Hive数据仓库的方法，包括以下步骤：S1，通过配置数据源的网络配置信息与抽取配置信息将数据源关联到关系型数据库中；S2，在关系型数据库中通过网络配置信息和抽取配置信息将数据源中的源数据抽取到Hive中；S3，判断在关系型数据库中抽取的源数据是否为按天抽取增量的原始数据，若是则在Hive中按日期建立时间分区外部表，每天将关系型数据库中源数据的增量抽取到对应的时间分区外部表中；若不是则将Hive中已有的数据删除，并将关系型数据库中...

【技术保护点】
一种基于关系型数据库形成Hive数据仓库的方法，其特征在于，包括以下步骤：S1，通过配置数据源的网络配置信息与抽取配置信息将数据源关联到关系型数据库中；S2，在关系型数据库中通过网络配置信息和抽取配置信息将数据源中的源数据抽取到Hive中；S3，判断在关系型数据库中抽取的源数据是否为按天抽取增量的原始数据，若是则在Hive中按日期建立时间分区外部表，每天将关系型数据库中源数据的增量抽取到对应的时间分区外部表中；若不是则将Hive中已有的数据删除，并将关系型数据库中源数据的全量抽取到Hive中形成Hive原始数据外部表；S4，将存储有原始数据增量的时间分区外部表和Hive原始数据外部表组合形成Hive数据仓库。

【技术特征摘要】
1.一种基于关系型数据库形成Hive数据仓库的方法，其特征在于，包括以下步骤：S1，通过配置数据源的网络配置信息与抽取配置信息将数据源关联到关系型数据库中；S2，在关系型数据库中通过网络配置信息和抽取配置信息将数据源中的源数据抽取到Hive中；S3，判断在关系型数据库中抽取的源数据是否为按天抽取增量的原始数据，若是则在Hive中按日期建立时间分区外部表，每天将关系型数据库中源数据的增量抽取到对应的时间分区外部表中；若不是则将Hive中已有的数据删除，并将关系型数据库中源数据的全量抽取到Hive中形成Hive原始数据外部表；S4，将存储有原始数据增量的时间分区外部表和Hive原始数据外部表组合形成Hive数据仓库。2.根据权利要求1所述的一种基于关系型数据库形成Hive数据仓库的方法，其特征在于：所述网路配置信息包括IP、用户名和密码。3.根据权利要求1或2所述的一种基于关系型数据库形成Hive数据仓库的方法，其特征在于：所述抽取配置信息包括sql语句的属主、sql语句和抽取周期。4.根据权利要求3所述的一种基于关系型数据库形成Hive数据仓库的方法，其特征在于，在步骤S3中，判断在关系型数据库中抽取的源数据是否为按天抽取增量的原始数据的判断标准为：抽取配置信息中的抽取周期是否为按天抽取。5.根据权利要求4所述的一种基于关系型数据库形成Hive数据仓库的方法，其特征在于，在步骤S3中，在Hive中按日期建立时间分区外部表具体为：时间分区外部表按照年、月、日建立。6.一种基于关系型数据库形成Hive数据仓库的系统，其特征在于...

【专利技术属性】
技术研发人员：张森威，
申请(专利权)人：北京思特奇信息技术股份有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人