实时流处理系统、方法、电子设备和存储介质技术方案

技术编号:37716781 阅读:17 留言:0更新日期:2023-06-02 00:13
本发明专利技术提供一种实时流处理系统、方法、电子设备和存储介质,其中系统包括:流处理框架,流处理框架的流批计算逻辑一致;第一数仓数据库,第一数仓数据库支持流批读写和物化视图;流处理框架用于将预设格式的数据存储到第一数仓数据库,第一数仓数据库用于应用物化视图对数据进行数据处理;预设格式支持流批读写。本发明专利技术提供的系统、方法、电子设备和存储介质,结合流批计算逻辑一致的流处理框架、支持流批读写的预设格式,以及支持流批读写和物化视图的第一数仓数据库实现实时流处理,在降低了实时流处理系统维护成本和维护复杂度的同时,提高了实时流处理系统的数据处理、尤其是数据追踪的执行效率,并且为实现数据追溯提供了条件。件。件。

【技术实现步骤摘要】
实时流处理系统、方法、电子设备和存储介质


[0001]本专利技术涉及数据流处理
,尤其涉及一种实时流处理系统、方法、电子设备和存储介质。

技术介绍

[0002]随着实时化场景的增多,实时数仓技术得到的广泛关注。目前,在大数据应用场景中,主流的实时数仓架构是Lambda架构+Kappa架构的形式。
[0003]其中,Lambda架构维护实时和批量两套代码+存储,存在资源浪费,并且由于Lambda架构的流批技术逻辑和存储逻辑不一致,一旦存在变更即需要同时修改两套逻辑,维护成本很高。
[0004]而Kappa架构的流式存储功能,仅支持近几天数据的存储,无法溯源历史数据,如果存在计算逻辑错误需要更正结果的情况,只能从出错的时间段起从头开始消费历史数据变更数据,且Kappa架构中各层都通过流式作业来维护,链路比较长,导致数据追踪效率低,可能需要数小时到数天。
[0005]由此,亟需一种维护简单、处理效率更高的实时数仓架构。

技术实现思路

[0006]本专利技术提供一种实时流处理系统、方法、电子设备和存储介质,用以解决现有技术中实时数仓维护复杂、数据处理效率低的缺陷。
[0007]本专利技术提供一种实时流处理系统,包括:
[0008]流处理框架,所述流处理框架的流批计算逻辑一致;
[0009]第一数仓数据库,所述第一数仓数据库支持流批读写和物化视图;
[0010]所述流处理框架用于将预设格式的数据存储到所述第一数仓数据库,所述第一数仓数据库用于应用物化视图对所述数据进行数据处理;所述预设格式支持流批读写。
[0011]根据本专利技术提供的一种实时流处理系统,还包括运营数据库;
[0012]所述流处理框架具体用于将所述预设格式的业务数据实时存储到所述运营数据库,并消费所述运营数据库中的数据生成数据细节层数据输出到所述第一数仓数据库。
[0013]根据本专利技术提供的一种实时流处理系统,所述第一数仓数据库具体用于:
[0014]存储所述流处理框架输入的所述预设格式的数据细节层数据;
[0015]应用物化视图,对所述数据细节层数据进行数据处理,得到数据服务层数据。
[0016]根据本专利技术提供的一种实时流处理系统,还包括第二数仓数据库,所述第二数仓数据库支持流批读写;
[0017]所述流处理框架还用于将数据细节层数据输出到所述第二数仓数据库。
[0018]根据本专利技术提供的一种实时流处理系统,在生成数据细节层数据报错的情况下,所述流处理框架还用于暂停数据生成操作,在数据生成逻辑修改后以批处理模式进行所述数据生成操作,并在批处理模式结束后以流处理模式重启所述数据生成操作。
[0019]根据本专利技术提供的一种实时流处理系统,所述流处理框架为Flink框架,所述第一数仓数据库为Clickhouse,所述预设格式为Hudi。
[0020]本专利技术还提供一种实时流处理方法,包括:
[0021]基于流处理框架,将预设格式的数据存储到第一数仓数据库;
[0022]基于所述第一数仓数据库的物化视图,对所述数据进行数据处理;
[0023]所述流处理框架的流批计算逻辑一致,所述预设格式和所述第一数仓数据库支持流批读写,所述第一数仓数据库还支持物化视图。
[0024]本专利技术还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述实时流处理方法。
[0025]本专利技术还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述实时流处理方法。
[0026]本专利技术还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述实时流处理方法。
[0027]本专利技术提供的实时流处理系统、方法、电子设备和存储介质,结合流批计算逻辑一致的流处理框架、支持流批读写的预设格式,以及支持流批读写和物化视图的第一数仓数据库实现实时流处理,在降低了实时流处理系统维护成本和维护复杂度的同时,提高了实时流处理系统的数据处理、尤其是数据追踪的执行效率,并且为实现数据追溯提供了条件。
附图说明
[0028]为了更清楚地说明本专利技术或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0029]图1是本专利技术提供的实时流处理系统的结构示意图之一;
[0030]图2是本专利技术提供的实时流处理系统的结构示意图之二;
[0031]图3是本专利技术提供的实时流处理方法的流程示意图;
[0032]图4是本专利技术提供的电子设备的结构示意图。
具体实施方式
[0033]为使本专利技术的目的、技术方案和优点更加清楚,下面将结合本专利技术中的附图,对本专利技术中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0034]目前,实时数仓的实现方案,多体现为Lambda架构+Kappa架构的形式。然而,Lambda架构需要维护两套存储+计算逻辑,存在资源浪费和维护困难的问题。另外,Kappa架构的流式存储+计算设置,存在数据追溯困难的问题,并且Kappa架构中各层都需要通过流式作业来维护,长链路也影响了数据处理、尤其是数据追踪的效率。
[0035]针对上述问题,本专利技术实施例提供了一种实时流处理系统,以实现维护简单、成本
低、效率高的实时数仓。
[0036]图1是本专利技术提供的实时流处理系统的结构示意图之一,如图1所示,该系统包括:
[0037]流处理框架10,所述流处理框架10的流批计算逻辑一致;
[0038]第一数仓数据库20,所述第一数仓数据库20支持流批读写和物化视图;
[0039]所述流处理框架10用于将预设格式的数据存储到所述第一数仓数据库20,所述第一数仓数据库20用于应用物化视图对所述数据进行数据处理;所述预设格式支持流批读写。
[0040]具体地,相较于常规技术中选用Lambda架构作为流处理框架,本专利技术实施例中应用流批计算逻辑一致的框架作为流处理框架10,从而避免同时维护两套逻辑导致的资源浪费和维护困难的问题。例如,可以选用Flink框架作为流处理框架10,此处,Flink即Apache Flink,是一个开源的流处理框架,通常应用于分布式、高性能、高可用的数据流应用程序。诸如Flink一类天然支持流计算和批计算,且计算逻辑一致的流处理框架10,在应用于实时流处理系统时,极大降低了对于流处理框架10的维护需求。
[0041]另外,相较于常规技术中应用Kappa架本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种实时流处理系统,其特征在于,包括:流处理框架,所述流处理框架的流批计算逻辑一致;第一数仓数据库,所述第一数仓数据库支持流批读写和物化视图;所述流处理框架用于将预设格式的数据存储到所述第一数仓数据库,所述第一数仓数据库用于应用物化视图对所述数据进行数据处理;所述预设格式支持流批读写。2.根据权利要求1所述的实时流处理系统,其特征在于,还包括运营数据库;所述流处理框架具体用于将所述预设格式的业务数据实时存储到所述运营数据库,并消费所述运营数据库中的数据生成数据细节层数据输出到所述第一数仓数据库。3.根据权利要求2所述的实时流处理系统,其特征在于,所述第一数仓数据库具体用于:存储所述流处理框架输入的所述预设格式的数据细节层数据;应用物化视图,对所述数据细节层数据进行数据处理,得到数据服务层数据。4.根据权利要求2所述的实时流处理系统,其特征在于,还包括第二数仓数据库,所述第二数仓数据库支持流批读写;所述流处理框架还用于将数据细节层数据输出到所述第二数仓数据库。5.根据权利要求2至4中任一项所述的实时流处理系统,其特征在于,在生成数据细节层数据报错的情况下,所述流处理框架还用...

【专利技术属性】
技术研发人员:赵雅男李良斌
申请(专利权)人:北京声智科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1