【技术实现步骤摘要】
一种批流融合处理的大数据整合方法
[0001]本专利技术公开了一种批流融合处理的大数据整合方法,属于数据科学领域,用于在保证已有数据服务服务统一性和一致性的基础上,进一步提高数据处理实时性。
技术介绍
[0002]以HDFS、Hive等Hadoop项目为核心的大数据技术在构建企业级数据湖/数据仓库的基础设施建设方面,已经成为了一种较为成型的事实标准。然而由于其原始技术基础等原因上的限制,导致该方案无法对已有的数据进行基于文件内容的高效的更新、删除等操作。
[0003]Hudi是一个面向HDFS、云存储等文件系统,对大型数据集进行摄取、管理和查询的新一代数据湖框架,通过Spark可便捷地进行需要的操作,同时将元数据暴露给Hive,再利用Presto、Kylin、Amazon Athena、Impala、Drill等多种大数据查询引擎进行数据的实时与增量查询。
[0004]本专利技术公开的一种批流融合处理的大数据整合方法,在Hudi原有架构的基础上,结合企业数据实际情况,集成和整合流处理,对Hudi架构进行定制化开发,使其能够实现数据流与批的并行化处理,以及如何在Hudi基础上进行湖仓一体化平台的数据服务。在大数据平台构建和应用的类似场景中提供可借鉴的解决方案。
技术实现思路
[0005]本专利技术要解决的问题是在企业不支持流处理的原有数据架构基础上,引入流处理架构并整合已有的批处理系统,以优化数据分析服务的扩展性、弹性伸缩、动态扩容与服务发现。
[0006]为实现上述目的,本专利 ...
【技术保护点】
【技术特征摘要】
1.一种批流融合处理的大数据整合方法,其特征在于,重构Hudi的多表消费策略,通过Spark服务间的表信息共享,在批处理服务基础上,新增流处理分析过程,以优化数据分析服务的扩展性、弹性伸缩、动态扩容与服务发现。包括下述内容与方法:(1)内容1:Hudi流处理,在CDC(Change Data Capture,变化数据捕捉)服务支持下,解析数据库操作日志,形成格式化数据,推送给Kafka消息队列,利用Spark Streaming消费对应主题内的数据,分间隔和批次写入数据。(2)内容2:Hudi定制化改造,重构Hudi的多表消费策略,优化Spark内部独立运行的任务分发服务,支持Spark容纳更多的表,实现Hudi流消费的服务,采用Zookeeper调度分布式集群服务,通过多个消费进程间的调度和服务发现,支持多个Spark服务间的表信息共享。(3)内容3:流处理与批处理融合,考虑已有基于批处理的接入方案和流处理方案的整合适配,将上层服务进行抽象,形成数据源、数据集等统一的服务对象,通过构建多套微服务来集中进行服务管理控制;中层涉及元数据信息部分则做流程的拆分和关联;底层复用处理逻辑,保持服务的统一和一致性。(4)内容4:优化数据服务,建立统一数据层级包含各类型数据的统一平台,对外提供统一的数据服务。2.根据权利要求1所述的Hudi流处理,其特征在于,所述的内容1具体内容与方法如下:(1)在Huid流处理模式下,切换为Merge On Read(MOR)模式存储数据,每次更新前先追加写入日志文件,不直接进行数据文件的更新操作,仅在数据做读取时候做轻量级数据与日志的合并,侧重于提高数据写入效率。(2)Hudi基于服务启动的配置信息,在任务后端异步做追加日志和已有数据的合并,达到数据一致性。3.根据权利要求1所述的Hudi定制化改造,其特征在于,所述的内容...
【专利技术属性】
技术研发人员:陈爱明,曾仲大,文里梁,
申请(专利权)人:大连达硕信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。