当前位置: 首页 > 专利查询>河南大学专利>正文

基于Hive和Spark的遥感数据服务离线批处理系统及方法技术方案

技术编号:31372428 阅读:26 留言:0更新日期:2021-12-15 10:14
本发明专利技术提供一种基于Hive和Spark的遥感数据服务离线批处理系统及其数据处理方法。该系统包括采集模块、存储模块、计算模块、数据服务接口和数据应用模块,所述计算模块包括迭代式内存计算Spark和统一资源调度管理Yarn;所述系统还包括:Hive数据仓库;所述Hive数据仓库包括原始数据ODS层、维度数据DIM层、明细数据EDW层、汇总数据CDM层和应用数据APP层。本发明专利技术使用Hive和Spark计算引擎来对遥感数据服务进行离线处理,为满足用户多样化的需求、实现主动的服务模式提供数据支撑。动的服务模式提供数据支撑。动的服务模式提供数据支撑。

【技术实现步骤摘要】
基于Hive和Spark的遥感数据服务离线批处理系统及方法


[0001]本专利技术涉及遥感数据处理
,尤其涉及一种基于Hive和Spark的遥感数据服务离线批处理系统及方法。

技术介绍

[0002]随着遥感对地观测技术的不断成熟,遥感技术在军事、民用、研究等领域逐渐得到了广泛应用,遥感数据出现井喷式增长,逐渐进入遥感大数据时代。与此同时,遥感数据服务平台应运而生,主要用来实现遥感影像数据的检索与下载,算法模型、处理工具、文档资料的共享,遥感产品的生产处理与个性化定制,以及仿真过境分析等。随着用户的不断增多,平台积累了大量的用户行为数据以及业务数据,但是用户的需求却变得更加多样化,这就使得传统的服务模式难以满足用户需求的多样化。

技术实现思路

[0003]为了满足遥感用户的多样化需求,本专利技术提供一种基于Hive和Spark的遥感数据服务离线批处理系统及方法。
[0004]一方面,本专利技术提供一种基于Hive和Spark的遥感数据服务离线批处理系统,包括采集模块、存储模块、计算模块、数据服务接口和数据应用模块,所述计算模块包括迭代式内存计算Spark和统一资源调度管理Yarn;所述系统还包括:Hive数据仓库;所述Hive数据仓库包括原始数据ODS层、维度数据DIM层、明细数据EDW层、汇总数据CDM层和应用数据APP层;所述原始数据ODS层,用于将采集到的遥感用户行为数据和遥感服务平台业务数据保持数据的原貌;创建支持压缩的表,通过该表按照日期对数据进行分区存储;所述维度数据DIM层,用于统计事实度量值时所需要的多样环境;所述明细数据EDW层,用于对遥感用户行为数据进行解析得到启动日志表、基础明细表和动作日志表;以及用于根据业务过程对保持原貌的遥感服务平台业务数据进行建模;所述汇总数据CDM层,用于将公共型数据进行聚集沉淀,采用宽表化的处理方式将预设时间周期内的数据按照主题划分进行轻度汇总;所述应用数据APP层,用于对要分析的指标进行统计计算;其中,所述要分析的指标包括预设时间周期的活跃数、下单总次数、下单用户数、各地区下单量排行、各地区检索量排行和各产品检索量与下单量。
[0005]进一步地,所述原始数据ODS层保持数据的原貌,具体包括:仅以一个字段log来存储遥感用户行为数据的检索行为或者下载行为;以及根据遥感服务平台业务数据的原表结构存储业务数据。
[0006]进一步地,所述明细数据EDW层对遥感服务平台业务数据进行建模的过程包括:在遥感数据服务平台业务中,选取需要分析的订单业务;选取数据明细粒度;选择订单业务的
识别维度,所述识别维度包括用户维度、地区维度、产品维度和时间维度;确定分析订单业务时所需要衡量的指标度量值。
[0007]进一步地,所述汇总数据CDM层在对数据按照主题划分的过程中,所述主题类型包括用户主题、地区主题、产品主题和卫星主题;其中:所述用户主题,用于统计用户的登录次数、检索次数、下载次数、下单次数;所述地区主题,用于统计指定地区的下单次数、检索次数、下载次数;所述产品主题,用于统计指定产品的检索次数、下载次数、下单次数;所述卫星主题,用于统计各卫星的检索次数。
[0008]进一步地,所述存储模块包括:分布式消息队列Kafka、关系型数据库、Hive和分布式文件系统。
[0009]进一步地,所述采集模块包括日志数据采集组件Flume和业务数据同步工具;所述日志数据采集组件Flume,用于通过LogBack将遥感服务平台的前端埋点所采集到的遥感用户行为数据写入到文件,并存储至日志服务器中;以及用于通过分布式消息队列Kafka将日志服务器中的遥感用户行为数据存储至分布式文件系统;所述业务数据同步工具,用于将遥感服务平台业务数据库中的业务数据按照对应的同步策略直接同步到分布式文件系统。
[0010]进一步地,所述同步策略包括:对于第一类型业务表,采用全量同步的策略;所述第一类型业务表是指数据量小,并且每个时间周期内既会有新数据的添加,又会有旧数据的修改的业务表;对于第二类型业务表,采用增量同步的策略;所述第二类型业务表是指数据量大,并且每个时间周期内只会有新数据的添加的业务表;对于第三类型业务表,采用新增及变化的同步策略;所述第三类型业务表是指数据量大,并且每个时间周期内既会有新数据的添加,又会有数据变化的业务表;对于特殊业务表,采用只同步一次的同步策略,所述特殊业务表是指每个时间内不会有数据变化的业务表。
[0011]进一步地,所述业务数据同步工具采用DataX或Sqoop。
[0012]进一步地,所述遥感数据服务离线批处理系统中的各模块之间采用Azkaban进行自动化全流程调度,以及采用zookeeper进行分布式协调。
[0013]另一方面,本专利技术提供一种如上述的基于Hive和Spark的遥感数据服务离线批处理系统的数据处理方法,包括:步骤1:对遥感数据服务平台进行前端埋点,通过采集模块采集遥感用户行为数据和遥感服务平台业务数据;步骤2:将采集到的遥感用户行为数据和遥感服务平台业务数据存储至存储模块;步骤3:通过原始数据ODS层将存储模块中的遥感用户行为数据和遥感服务平台业务数据保持数据的原貌,并支持压缩的表,通过该表按照日期对数据进行分区存储;步骤4:通过明细数据EDW层对来自原始数据ODS层的遥感用户行为数据进行解析得到启动日志表、基础明细表和动作日志表;以及通过明细数据EDW层根据业务过程对来自原始数据ODS层的遥感服务平台业务数据进行建模;步骤5:通过汇总数据CDM层将明细数据EDW层处理后的数据和维度数据DIM层处理
的数据中的公共型数据进行聚集沉淀,采用宽表化的处理方式将预设时间周期内的数据按照主题划分进行轻度汇总;步骤6:通过应用数据APP层根据汇总数据CDM层中的数据和明细数据EDW层中的数据对要分析的指标进行统计计算;其中,所述要分析的指标包括预设时间周期的活跃数、下单总次数、下单用户数、各地区下单量排行、各地区检索量排行和各产品检索量与下单量;步骤7:发布数据服务接口,搭建可视化界面,请求数据接口地址,进行可视化展示;以及将相关数据对接用户画像系统或推荐系统,实现主动服务模式。
[0014]本专利技术的有益效果:本专利技术通过对遥感平台用户行为进行埋点采集,构建行为数据和平台业务数据采通道集、搭建离线数据仓库,统计分析数据,发现其中潜在的价值信息,能够在用户检索之前提前对热点区域进行数据缓存,减少用户在检索时的延迟时间,降低成本;还可以主动推送热点遥感产品,让用户更快的获得感兴趣的产品,同时还可以辅助卫星遥感部门分析各产品的应用情况,对相关产品及算法做出优化,从而更好地服务于遥感领域。本专利技术为满足用户多样化的需求、实现主动服务模式提供了数据支撑。
附图说明
[0015]图1为本专利技术实施例提供的基于Hive和Spark的遥感数据服务离线批处理系统的架构层级图;图2为本专利技术实施例提供的基于Hive和Spark的遥感数据服务离线批处理系统的数据处理方法的流程图;图3为本专利技术实施例提供的维本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于Hive和Spark的遥感数据服务离线批处理系统,包括采集模块、存储模块、计算模块、数据服务接口和数据应用模块,其特征在于,所述计算模块包括迭代式内存计算Spark和统一资源调度管理Yarn;所述系统还包括:Hive数据仓库;所述Hive数据仓库包括原始数据ODS层、维度数据DIM层、明细数据EDW层、汇总数据CDM层和应用数据APP层;所述原始数据ODS层,用于将采集到的遥感用户行为数据和遥感服务平台业务数据保持数据的原貌;创建支持压缩的表,通过该表按照日期对数据进行分区存储;所述维度数据DIM层,用于统计事实度量值时所需要的多样环境;所述明细数据EDW层,用于对遥感用户行为数据进行解析得到启动日志表、基础明细表和动作日志表;以及用于根据业务过程对保持原貌的遥感服务平台业务数据进行建模;所述汇总数据CDM层,用于将公共型数据进行聚集沉淀,采用宽表化的处理方式将预设时间周期内的数据按照主题划分进行轻度汇总;所述应用数据APP层,用于对要分析的指标进行统计计算;其中,所述要分析的指标包括预设时间周期的活跃数、下单总次数、下单用户数、各地区下单量排行、各地区检索量排行和各产品检索量与下单量。2.根据权利要求1所述的基于Hive和Spark的遥感数据服务离线批处理系统,其特征在于,所述原始数据ODS层保持数据的原貌,具体包括:仅以一个字段log来存储遥感用户行为数据的检索行为或者下载行为;以及根据遥感服务平台业务数据的原表结构存储业务数据。3.根据权利要求1所述的基于Hive和Spark的遥感数据服务离线批处理系统,其特征在于,所述明细数据EDW层对遥感服务平台业务数据进行建模的过程包括:在遥感数据服务平台业务中,选取需要分析的订单业务;选取数据明细粒度;选择订单业务的识别维度,所述识别维度包括用户维度、地区维度、产品维度和时间维度;确定分析订单业务时所需要衡量的指标度量值。4.根据权利要求1所述的基于Hive和Spark的遥感数据服务离线批处理系统,其特征在于,所述汇总数据CDM层在对数据按照主题划分的过程中,所述主题类型包括用户主题、地区主题、产品主题和卫星主题;其中:所述用户主题,用于统计用户的登录次数、检索次数、下载次数、下单次数;所述地区主题,用于统计指定地区的下单次数、检索次数、下载次数;所述产品主题,用于统计指定产品的检索次数、下载次数、下单次数;所述卫星主题,用于统计各卫星的检索次数。5.根据权利要求1所述的基于Hive和Spark的遥感数据服务离线批处理系统,其特征在于,所述存储模块包括:分布式消息队列Kafka、关系型数据库、Hive和分布式文件系统。6.根据权利要求5所述的基于Hive和Spark的遥感数据服务离线批处理系统,其特征在于,所述采集模块包括日志数据采集组件Flume和业务数据同步工具;所述日志数据采集组件Flume,用于通过LogBack将遥感服务平台的前端...

【专利技术属性】
技术研发人员:乔保军张洪阔林英豪张磊左宪禹臧文乾
申请(专利权)人:河南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1