本发明专利技术涉及一种基于关系型数据库形成Hive数据仓库的方法及系统,其方法包括以下步骤:将数据源关联到关系型数据库中;在关系型数据库中将数据源中的源数据抽取到Hive中;判断抽取的源数据是否为按天抽取增量的原始数据,若是则在Hive中按日期建立时间分区外部表,每天将关系型数据库中源数据的增量抽取到对应的时间分区外部表中;若不是则将Hive中已有的数据删除,并将关系型数据库中源数据的全量抽取到Hive中形成Hive原始数据外部表;将存储有原始数据增量的时间分区外部表和Hive原始数据外部表组合形成Hive数据仓库。本发明专利技术将不同关系型数据库的数据集中到一点,可以按照全量进行操作也可以按照日期进行增量操作,减少人工干预。
【技术实现步骤摘要】
本专利技术涉及一种形成Hive数据仓库的方法及系统,具体的涉及一种基于关系型数据库形成Hive数据仓库的方法及系统。
技术介绍
随着核心业务系统的解耦以及外围平台的不断扩展,系统间数据一致性和系统内各处理环节与接口的数据一致性问题日趋重要,如何快速发现、定位数据差异,并进行针对性处理修复数据,是目前数据一致性管理中的重要工作。随着核心业务系统的解耦以及外围平台的不断扩展,生成数据的数据源越来越多,对于数据的统计、分析造成了不方便性,同时对在生成库上进行统计分析容易造成对生产库的影响,现将数据进行统一形成数据仓库。现在的处理模式存在以下缺陷:对于抽取语句的配置与变更与人工干预,对于hive表的变更需要人工参与,对于hive表增加字段则修改表结构之前的数据无该字段信息,同时无法进行增加,如历史数据需要该字段则需要重新进行抽取数据。
技术实现思路
本专利技术所要解决的技术问题是提供一种基于关系型数据库形成Hive数据仓库的方法及系统,减少人工干预,可实现全量和增量的抽取数据。本专利技术解决上述技术问题的技术方案如下:一种基于关系型数据库形成Hive数据仓库的方法,包括以下步骤:S1,通过配置数据源的网络配置信息与抽取配置信息将数据源关联到关系型数据库中;S2,在关系型数据库中通过网络配置信息和抽取配置信息将数据源中的源数据抽取到Hive中;S3,判断在关系型数据库中抽取的源数据是否为按天抽取增量的原始数据,若是则在Hive中按日期建立时间分区外部表,每天将关系型数据库中源数据的增量抽取到对应的时间分区外部表中;若不是则将Hive中已有的数据删除,并将关系型数据库中源数据的全量抽取到Hive中形成Hive原始数据外部表;S4,将存储有原始数据增量的时间分区外部表和Hive原始数据外部表组合形成Hive数据仓库。本专利技术的有益效果是:本专利技术一种基于关系型数据库形成Hive数据仓库的方法采用两层体系进行异常分析定位,基于抽取全量的,每天hive中的数据进行删除,然后原始数据抽取到对应的hive表中;按天抽取增量的,hive按照日期建立分区外部表,每天将增量抽取到对应的分区中;这样可以将不同关系型数据库的数据集中到一点,可以对全量数据进行统计分析,同时可以按照全量进行操作也可以按照日期进行增量操作,减少人工干预。在上述技术方案的基础上,本专利技术还可以做如下改进。进一步,所述网路配置信息包括IP、用户名和密码。进一步,所述抽取配置信息包括sql语句的属主、sql语句和抽取周期。进一步,在步骤S3中,判断在关系型数据库中抽取的源数据是否为按天抽取增量的原始数据的判断标准为:抽取配置信息中的抽取周期是否为按天抽取。进一步,在步骤S3中,在Hive中按日期建立时间分区外部表具体为:时间分区外部表按照年、月、日建立。基于上述一种基于关系型数据库形成Hive数据仓库的方法,本专利技术还提供一种基于关系型数据库形成Hive数据仓库的系统。一种基于关系型数据库形成Hive数据仓库的系统,包括关联模块、抽取模块、判断执行模块和成型模块,所述关联模块,其用于通过配置数据源的网络配置信息与抽取配置信息将数据源关联到关系型数据库中;所述抽取模块,其用于在关系型数据库中通过网络配置信息和抽取配置信息将数据源中的源数据抽取到Hive中;所述判断执行模块,其用于判断在关系型数据库中抽取的源数据是否为按天抽取增量的原始数据,若是则在Hive中按日期建立时间分区外部表,每天将关系型数据库中源数据的增量抽取到对应的时间分区外部表中;若不是则将Hive中已有的数据删除,并将关系型数据库中源数据的全量抽取到Hive中形成Hive原始数据外部表;所述成型模块,其用于将存储有原始数据增量的时间分区外部表和Hive原始数据外部表组合形成Hive数据仓库。本专利技术的有益效果是:本专利技术一种基于关系型数据库形成Hive数据仓库的系统采用两层体系进行异常分析定位,基于抽取全量的,每天hive中的数据进行删除,然后原始数据抽取到对应的hive表中;按天抽取增量的,hive按照日期建立分区外部表,每天将增量抽取到对应的分区中;这样可以将不同关系型数据库的数据集中到一点,可以对全量数据进行统计分析,同时可以按照全量进行操作也可以按照日期进行增量操作,减少人工干预。在上述技术方案的基础上,本专利技术还可以做如下改进。进一步,所述网路配置信息包括IP、用户名和密码。进一步,所述抽取配置信息包括sql语句的属主、sql语句和抽取周期。进一步,在所述判断执行模块中,判断在关系型数据库中抽取的源数据是否为按天抽取增量的原始数据的判断标准为:抽取配置信息中的抽取周期是否为按天抽取。进一步,在所述判断执行模块中,在Hive中按日期建立时间分区外部表具体为:时间分区外部表按照年、月、日建立。附图说明图1为本专利技术一种基于关系型数据库形成Hive数据仓库的方法的流程图;图2为本专利技术一种基于关系型数据库形成Hive数据仓库的系统的框图;图3为本专利技术一种基于关系型数据库形成Hive数据仓库的系统执行的原理图。具体实施方式以下结合附图对本专利技术的原理和特征进行描述,所举实例只用于解释本专利技术,并非用于限定本专利技术的范围。如图1所示,一种基于关系型数据库形成Hive数据仓库的方法,包括以下步骤:S1,通过配置数据源的网络配置信息与抽取配置信息将数据源关联到关系型数据库中。所述网路配置信息包括IP、用户名和密码;所述抽取配置信息包括sql语句的属主、sql语句和抽取周期。S2,在关系型数据库中通过网络配置信息和抽取配置信息将数据源中的源数据抽取到Hive中。S3,判断在关系型数据库中抽取的源数据是否为按天抽取增量的原始数据,若是则在Hive中按日期建立时间分区外部表,每天将关系型数据库中源数据的增量抽取到对应的时间分区外部表中;若不是则将Hive中已有的数据删除,并将关系型数据库中源数据的全量抽取到Hive中形成Hive原始数据外部表。S4,将存储有原始数据增量的时间分区外部表和Hive原始数据外部表组合形成Hive数据仓库。在步骤S3中,判断在关系型数据库中抽取的源数据是否为按天抽取增量的原始数据的判断标准为:抽取配置信息中的抽取周期是否为按天抽取。在Hive中按日期建立时间分区外部表具体为:时间分区外部表按照年、月、日建立。本专利技术一种基于关系型数据库形成Hive数据仓库的方法提出通过按天抽取关系型数据库增量数据形成Hive数据仓库,用于对数据进行进一步的加工以及对数据的应用、分析。抽取数据分的方法为在hive中按天建立原始数据的外部表;第一次抽取时按照全量进行抽取放入当天的分区内;每天定时抽取增量,放入对应的日期分区内。对于对已有数据更新的问题,因hive不支持DML语句,即不支持UPDATE、DELETE语句,需要对已有数据进行去重工作,根据操作时间和唯一标识符取得该条语句最后一条语句。需要注意的是,因抽取数据的数据源不同,针对抽取的语句也会不同,要保证不同的抽取数据源的抽取语句的字段数保持一致,并相对应的字段表达的意思应为相同类型,现在配置抽取语句为人工配置,需要对抽取数据源的有足够的了解,另外,如需要在hive表中增加字段,需通过人工手动添加,同时要在抽取语句上进行字段的增加,在以后的数据中会出现增加的字段值,以本文档来自技高网...
【技术保护点】
一种基于关系型数据库形成Hive数据仓库的方法,其特征在于,包括以下步骤:S1,通过配置数据源的网络配置信息与抽取配置信息将数据源关联到关系型数据库中;S2,在关系型数据库中通过网络配置信息和抽取配置信息将数据源中的源数据抽取到Hive中;S3,判断在关系型数据库中抽取的源数据是否为按天抽取增量的原始数据,若是则在Hive中按日期建立时间分区外部表,每天将关系型数据库中源数据的增量抽取到对应的时间分区外部表中;若不是则将Hive中已有的数据删除,并将关系型数据库中源数据的全量抽取到Hive中形成Hive原始数据外部表;S4,将存储有原始数据增量的时间分区外部表和Hive原始数据外部表组合形成Hive数据仓库。
【技术特征摘要】
1.一种基于关系型数据库形成Hive数据仓库的方法,其特征在于,包括以下步骤:S1,通过配置数据源的网络配置信息与抽取配置信息将数据源关联到关系型数据库中;S2,在关系型数据库中通过网络配置信息和抽取配置信息将数据源中的源数据抽取到Hive中;S3,判断在关系型数据库中抽取的源数据是否为按天抽取增量的原始数据,若是则在Hive中按日期建立时间分区外部表,每天将关系型数据库中源数据的增量抽取到对应的时间分区外部表中;若不是则将Hive中已有的数据删除,并将关系型数据库中源数据的全量抽取到Hive中形成Hive原始数据外部表;S4,将存储有原始数据增量的时间分区外部表和Hive原始数据外部表组合形成Hive数据仓库。2.根据权利要求1所述的一种基于关系型数据库形成Hive数据仓库的方法,其特征在于:所述网路配置信息包括IP、用户名和密码。3.根据权利要求1或2所述的一种基于关系型数据库形成Hive数据仓库的方法,其特征在于:所述抽取配置信息包括sql语句的属主、sql语句和抽取周期。4.根据权利要求3所述的一种基于关系型数据库形成Hive数据仓库的方法,其特征在于,在步骤S3中,判断在关系型数据库中抽取的源数据是否为按天抽取增量的原始数据的判断标准为:抽取配置信息中的抽取周期是否为按天抽取。5.根据权利要求4所述的一种基于关系型数据库形成Hive数据仓库的方法,其特征在于,在步骤S3中,在Hive中按日期建立时间分区外部表具体为:时间分区外部表按照年、月、日建立。6.一种基于关系型数据库形成Hive数据仓库的系统,其特征在于...
【专利技术属性】
技术研发人员:张森威,
申请(专利权)人:北京思特奇信息技术股份有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。