当前位置: 首页 > 专利查询>成都延华西部健康医疗信息产业研究院有限公司专利>正文

一种基于Confluent社区开源版的实时大数据应用开发方法及系统技术方案

技术编号：28472365 阅读：16 留言：0更新日期：2021-05-15 21:40

本发明专利技术公开了一种基于Confluent社区开源版的实时大数据应用开发方法及系统，属于数据处理领域。本发明专利技术的开发方法及系统时用于解决现有的Confluent社区开源版产品缺乏实时数据应用开发流程化支持，进而导致基于其实时大数据的开发效率较低、且对Confluent社区开源版的易用性差的技术问题，本发明专利技术基于Confluent社区开源版的一整套向导式的开发流程服务，可以大大提高实时数据应用开发工程师的开发效率；基于优化的连接器配置，可以大大提高用户配置连接器的效率与成功率；并对查询操作进行了优化，从而提高了易用性，以较好支撑业务数据查询需求；对删除实时表/流流程进行了优化，以提高易用性，进而提高实时数据应用开发工程师的体验舒适度。师的体验舒适度。师的体验舒适度。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于Confluent社区开源版的实时大数据应用开发方法及系统

[0001]本专利技术涉及数据处理领域，尤其涉及一种基于Confluent社区开源版的实时大数据应用开发技术。

技术介绍

[0002]随着互联网技术以及信息技术的发展，大量的信息被数据化，产生了无法用常规工具捕捉、管理和处理的海量数据集合，这种数据集合也称为大数据。
[0003]大数据具有海量的数据规模以及多样的数据类型，对这些海量、流式的数据进行处理分析是一种巨大的挑战。为了更好地对大数据进行数据统计分析，大数据工具应运而生。
[0004]大数据工具可以用来开发各种大数据应用，用以处理海量数据。现有技术中，可以利用大数据工具来开发大数据应用，其开发过程一般是由大数据开发工程师搭建的大数据开发环境，利用分布式计算理论等大数据技术，在已搭建好的大数据开发环境下编写相应的代码，进行相应的大数据应用开发。
[0005]在实时大数据领域，开源流处理平台Kafka被广泛应用，Kafka平台是一种高吞吐量的分布式发布订阅消息系统，它可以处理消费者在网站中的所有动作流数据，基于所配置的流式处理程序(Stream Processing)，使用一个或多个主题的输入流，并生成一个输出流到一个或多个输出主题，从而有效地将输入流转换为输出流，其处理过程如图1所示，Kafka平台通过连接器(Connector)实现与Kafka平台与其它系统(数据库(DB)、应用程序(APP)等)之间的数据传输，其中，连接器包括源连接器(Source connector...

【技术保护点】

【技术特征摘要】
1.基于Confluent社区开源版的实时大数据应用开发方法，在其特征在于，在基于Confluent社区开源版实现源端与目标端之间的实时数据交换时，按照下述处理过程进行配置：(A1)源连接器实时监听源端是否发生增量的业务数据，当监听到发生增量的业务数据时，将增量的业务数据写入到Kafka主题中；(A2)目标连接器实时监听Kafka主题的数据，实时读取新数据并写入到目标端数据库中。2.基于Confluent社区开源版的实时大数据应用开发方法，在其特征在于，在基于Confluent社区开源版的实现实时数据指标统计时，按照下述处理过程进行配置：(B1)源连接器实时监听源端是否发生增量的业务数据，当监听到发生增量的业务数据时，将增量的业务数据写入到Kafka主题中；(B2)主题流实时对当前新的Kafka主题数据进行主题流处理：按照用户预配置的主题结构模型，对Kafka主题数据进行结构化处理，得到结构化处理后的Kafka主题数据；其中，主题结构模型包括一个或多个指定的关键字段，基于所述主题结构模型进行结构化处理以得到所述kafka主题数据的一个或多个关键字段及其数据内容；(B3)实时流/表实时生成与用户指定的查询指标相匹配的查询字段，并基于该查询字段对当前结构化处理后的Kafka主题数据进行指标统计记录查询处理，生成新的指标统计记录流；(B4)目标连接器实时监听指标统计记录流，当监听到新的指标统计记录流时，实时将当前的指标统计记录流发送至目标端。3.如权利要求1或2所述的方法，其特征在于，源连接器监听源端是否发生增量的业务数据的监听规则为：源端的数据库存在自增主键或存在业务更新时间戳增量。4.如权利要求2所述的方法，其特征在于，所述源连接器的配置包括：配置源连接器同步的表与查询互斥；配置源连接器同步的增量模式为：时间戳和/或自增项。5.如权利要求2所述的方法，其特征在于，所述目标连接器的配置包括：对目标连接器选择的kafka主题数据做模式校验，若不存在模式信息，则所述kafka主题数据被拒绝用作目标连接器的数据源输入。6.如权利要求2所述的方法，其特征在于，步骤(B3)中，所述查询处理的查询规则为：采用推式查询统计实时流/表的数据条数N；在查询记录条数上限设置为N的条件下，采用推式查询进行指标统计记录查询处理。7.如权利要求2所述的方法，其特征在于，所述实时流/表的删除操作配置为：检测实时流/表是否被查询占用，当检测到被查询占用时，则识别出占用查询并执行查询终止后，再执行实时流/表的删除。8.如权利要求2所述的方法，其特征在于，所述实时表/流的安全配置为：对授权的字段进行真实内容显示，未授权的字段通过预置的通配符进行显示。...

【专利技术属性】
技术研发人员：吴彬，朱智源，
申请(专利权)人：成都延华西部健康医疗信息产业研究院有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人