基于Flink实现postgreSQL到HIVE的数据同步方法技术

技术编号：38205760 阅读：28 留言：0更新日期：2023-07-21 16:52

本发明专利技术适用于大数据实时数据流处理技术领域，提供一种基于Flink实现postgreSQL到HIVE的数据同步方法，包括：对postgreSQL开启WAL权限，建立Flink Job，并在源端配置并监听WAL日志信息；对WAL日志信息进行解析，按照增删改分类并转换为对象数据；把对象数据发送给目标端；目标端接收数据并写入HDFS分布式文件系统中。本发明专利技术能通过HDFS分布式文件系统上传数据提高数据的写入能力，支持多个HIVE数据库表的同时写入操作，保证对流式数据处理的低延迟、高性能，通过Flink的checkpoint机制实现数据的断点续传，以高效的实现postgreSQL实时数据到HIVE库的实时同步功能。据到HIVE库的实时同步功能。据到HIVE库的实时同步功能。

全部详细技术资料下载

【技术实现步骤摘要】
基于Flink实现postgreSQL到HIVE的数据同步方法

[0001]本专利技术属于大数据实时数据流处理
，尤其涉及一种基于Flink实现postgreSQL到HIVE的数据同步方法。

技术介绍

[0002]目前对postgreSQL到HIVE（Hive是基于Hadoop的一个数据仓库工具）库的数据同步存在以下问题：由于postgreSQL库类似于mysql库，通过解析事务日志，实时采集动态的增量日志，目前无法实时采集修改、删除操作的数据到HIVE数据源；传统的把数据写入HIVE库的方式是通过JDBC(Java Database Connectivity，Java数据库连接)的方式将数据写入到对应的目标表中，在高并发大数据量的情况下，无法保证数据的吞吐量和数据的完整性，可能存在数据丢失的情形；HIVE数据库对数据的删除和修改操作的支持不友好，数据传输的效率低，延迟高；postgreSQL的WAL（write ahead log，预写式日志）记录了数据库中所有表的增量日志，当采集数据到HIVE库的任务中断时，无法保证下次任务重启时，对数据的续传；对WAL的流式数据同步时，无法保证数据同步的高效性。

技术实现思路

[0003]鉴于上述问题，本专利技术的目的在于提供一种基于Flink实现postgreSQL到HIVE的数据同步方法，旨在解决现有方法可能存在数据丢失、数据传输效率低延迟高以及数据中断后无法续传的技术问题。
[0004]本专利技术采用如下技术方案：一种基于Flink实现pos...

【技术保护点】

【技术特征摘要】
1.一种基于Flink实现postgreSQL到HIVE的数据同步方法，其特征在于，所述数据同步方法包括下述步骤：步骤S1、对postgreSQL开启WAL权限，建立Flink Job，并在Flink Job源端，配置并监听WAL日志信息；步骤S2、在所述Flink Job源端，对所述WAL日志信息进行解析，把WAL日志信息按照增删改分类并转换为对象数据；步骤S3、把所述对象数据发送给Flink Job目标端；步骤S4、所述Flink Job目标端接收数据，并写入HDFS分布式文件系统中。2.如权利要求1所述基于Flink实现postgreSQL到HIVE的数据同步方法，其特征在于，所述步骤S1具体过程如下：S101、更改postgreSQL对应WAL权限的配置，使得postgreSQL支持事务日志的记录；S102、建立Flink Job，对所述Flink Job建立集成Flink的读数据组件，重写Flink对应接收源端数据的接口；S103、在所述读数据组件中，监听postgreSQL的WAL日志信息，并将相应的监听配置信息记录在脚本文件。3.如权利要求2所述基于Flink实现postgreSQL到HIVE的数据同步方法，其特征在于，上述步骤S102中，建立Flink Job后，在初始化阶段通过所述Flink Job的CheckPoint功能获取上一次数据采集时保存的偏移量信息，修正述WAL日志订阅的位置。4.如权利要求3所述基于Flink实现postgreSQL到HIVE的数据同步方法，其特征在于，上述步骤S102中，读数据组件还通过所述Flink Job的CheckPoint记录对所述WAL日志信息进行解析时的日志消费的偏移量。5.如权利要求4所述基于Flink实现postgreSQL到HIVE的数据同步方法，其特征在于，所述步骤S2的具体过程如下：S201、在所述读数据组件中，...

【专利技术属性】
技术研发人员：许雷，杨志祥，郭朝霞，刘鑫，谢倩，皮辉，杨小涛，夏璐，蔡烨彬，
申请(专利权)人：中船重工武汉凌久高科有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人