一种私有云数据传输方法及数据管理平台技术

技术编号:32970055 阅读:36 留言:0更新日期:2022-04-09 11:34
本发明专利技术公开了一种私有云数据传输方法及数据管理平台,涉及大数据处理技术领域,所述方法主要包括:利用flume组件、sqoop组件和datax组件采集异构数据,并通过canal组件将所述异构数据统一传输到kafka组件中,同时将所述异构数据分别存储在hive组件和hbase组件中;利用MapReduce组件和Spark组件对存储在hive组件中的数据进行离线计算;利用phoenix组件为存储在hbase组件中的数据添加二级索引,并利用Spark组件和flink组件对数据进行实时计算;利用DBapi组件为所述hive组件和所述hbase组件提供一致的访问接口,以实现数据的输出。本方案中将离线数据统一存储在hive组件中,实时数据通过flink组件或Spark组件编写ETL后实时传输到hbase组件,且hbase组件使用phoenix组件作为客户端连接DBapi组件,实现了多源数据统一输出存储。多源数据统一输出存储。多源数据统一输出存储。

【技术实现步骤摘要】
一种私有云数据传输方法及数据管理平台


[0001]本专利技术涉及大数据处理
,尤其涉及一种私有云数据传输方法及数据管理平台。

技术介绍

[0002]政府对于运营“云”的有关法律、法规目前还不是很完善,集团性企业一般有明显的竞争对手和重要数据等需要保密的信息,如果用公有云,数据出了问题很难追究责任,同时“云”运营商计费标准不统一,流量计费千差万别,企业有时需要独立的专线,费用谁来承担尚无标准,目前具备给集团企业提供“云”服务的运营商,数量还不多而且相互之间严重隔离,一旦更换云服务商,数据迁移是个大问题(数据标准、企业数据量一般很大等等)。
[0003]传统私有云组件服务多需要的部署周期长,对外输出数据的数据服务层涉及到的数据结构复杂并且是多源数据库,需要的开发人员比较多,同时要求开发者技能丰富,因此,如何实现数据输出以满足各种离线计算、实时计算以及复杂的数据分析场景,就需要有一个多功能的数据服务层实现多源数据的统一,大型公司自研的数据湖功能的数据服务层结构复杂,涉及的技术繁多,部署比较耗费资源且开源的很少,要满足企业自身的需求二次开发比较困难。

技术实现思路

[0004]本专利技术提供的一种私有云数据传输方法,旨在解决现有技术中私有云不能实现多源数据统一输出存储及离线数据产出时间长的问题。
[0005]为实现上述目的,本专利技术采用以下技术方案:
[0006]本专利技术的一种私有云数据传输方法,包括:
[0007]利用flume组件、sqoop组件和datax组件采集异构数据,并通过canal组件将所述异构数据统一传输到kafka组件中;
[0008]kafka组件接收所述异构数据,并按照数据类型将所述异构数据分别存储在hive组件和hbase组件中,所述数据类型包括离线数据和实时数据;
[0009]利用MapReduce组件和Spark组件对存储在hive组件中的数据进行离线计算;
[0010]利用phoenix组件为存储在hbase组件中的数据添加二级索引,并利用Spark组件和flink组件对数据进行实时计算;
[0011]利用DBapi组件为所述hive组件和所述hbase组件提供一致的访问接口,以实现数据的输出。
[0012]作为优选,所述利用DBapi组件为所述hive组件和所述hbase组件提供一致的访问接口,以实现数据的输出还包括:通过DBapi组件连接phoenix组件编写SQL语句以实现hbase组件中数据的实时输出。
[0013]作为优选,所述利用DBapi组件为所述hive组件和所述hbase组件提供一致的访问接口,以实现数据的输出还包括:使用java springboot框架,封装jdbc驱动,解析json参
数,拼接动态SQL,使用SQL语言开发,连接数据库并编写数据接口。
[0014]作为优选,所述利用DBapi组件为所述hive组件和所述hbase组件提供一致的访问接口,以实现数据的输出还包括:利用token验证,对访问所述hive组件或所述hbase组件的ip进行黑白名单检验。
[0015]作为优选,所述异构数据包括日志数据、关系型数据和埋点数据。
[0016]一种私有云数据管理平台,包括:
[0017]数据平台监控系统,用于收集异构数据,并将所述异构数据进行分类处理;
[0018]数据服务模块,用于为所述平台监控系统处理的数据提供统一的访问接口以实现数据的输出,并对访问所述接口的ip进行验证;
[0019]数据应用模块,用于对所述数据服务模块输出的数据进行个性化应用处理。
[0020]作为优选,所述数据平台监控系统包括:
[0021]数据采集模块,用于利用flume组件、sqoop组件和datax组件收集异构数据;
[0022]数据导入模块,用于利用canal组件将所述数据采集模块收集的异构数据统一传输到kafka组件中;
[0023]数据存储模块,用于kafka组件接收所述异构数据,并按照数据类型将所述异构数据分别存储在hive组件和hbase组件中,所述数据类型包括离线数据和实时数据;
[0024]离线处理模块,用于利用MapReduce组件和Spark组件对存储在hive组件中的数据进行离线计算;
[0025]实时处理模块,用于利用phoenix组件为存储在hbase组件中的数据添加二级索引,并利用Spark组件和flink组件对数据进行实时计算。
[0026]作为优选,用户画像库,用于根据用户行为建立用户画像;
[0027]实时看板子模块,用于实时展示数据的处理过程;
[0028]报表子模块,用于将各种数据以报表方式统计出来,进行数据分析;
[0029]监控预警子模块,用于对所述管理平台的运行状态进行监控,并在发生故障前进行报警;
[0030]其他数据应用子模块,用于对数据进行其他个性化处理。
[0031]作为优选,所述管理平台的架构由Apache DolphinScheduler、CDH和DBapi组件组成。
[0032]作为优选,所述管理平台还包括flink组件、phoenix组件、sqoop组件、kafka组件和datax组件组件。
[0033]本专利技术具有如下有益效果:
[0034]本方案中数据库数据通过flink组件监控binlog编写解析脚本实现增删改等操作实时同步到hbase组件,log日志、埋点数据等数据通过flink组件或者Spark组件编写ETL后实时传输到hbase组件,hbase组件使用phoenix组件作为客户端连接DBapi组件这样就实现了多源数据统一输出存储;同时,使用kafka组件+datax组件+DBapi组件实现了离线数据分钟级或者小时级别的数据产出,并通过编写sql接口实现快速分析。
附图说明
[0035]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现
有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0036]图1是本申请实施例1实现一种私有云数据传输方法的第一流程图;
[0037]图2是本申请实施例2实现一种私有云数据传输方法的具体流程图;
[0038]图3是本申请实施例3实现一种私有云数据管理平台的模块方框图;
[0039]图4是本申请实施例4实现一种私有云数据管理平台的结构示意图。
具体实施方式
[0040]下面将结合附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0041]本专利技术的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种私有云数据传输方法,其特征在于,包括以下步骤:利用flume组件、sqoop组件和datax组件采集异构数据,并通过canal组件将所述异构数据统一传输到kafka组件中;kafka组件接收所述异构数据,并按照数据类型将所述异构数据分别存储在hive组件和hbase组件中,所述数据类型包括离线数据和实时数据;利用MapReduce组件和Spark组件对存储在hive组件中的数据进行离线计算;利用phoenix组件为存储在hbase组件中的数据添加二级索引,并利用Spark组件和flink组件对数据进行实时计算;利用DBapi组件为所述hive组件和所述hbase组件提供一致的访问接口,以实现数据的输出。2.根据权利要求1所述的一种私有云数据传输方法,其特征在于,所述利用DBapi组件为所述hive组件和所述hbase组件提供一致的访问接口,以实现数据的输出还包括:通过DBapi组件连接phoenix组件编写SQL语句以实现hbase组件中数据的实时输出。3.根据权利要求1所述的一种私有云数据传输方法,其特征在于,所述利用DBapi组件为所述hive组件和所述hbase组件提供一致的访问接口,以实现数据的输出还包括:使用java springboot框架,封装jdbc驱动,解析json参数,拼接动态SQL,使用SQL语言开发,连接数据库并编写数据接口。4.根据权利要求1所述的一种私有云数据传输方法,其特征在于,所述利用DBapi组件为所述hive组件和所述hbase组件提供一致的访问接口,以实现数据的输出还包括:利用token验证,对访问所述hive组件或所述hbase组件的ip进行黑白名单检验。5.根据权利要求1所述的一种私有云数据传输方法,其特征在于,所述异构数据包括日志数据、关系型数据和埋点数据。6.一种私有云数据管理平台,实现权利要求1所述的一种私有云数据传输方法,其特征在于,...

【专利技术属性】
技术研发人员:刘波陈帅斌蒋泽飞王晨程
申请(专利权)人:杭州登虹科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1