批量数据与流式数据的集成处理方法、装置、设备及介质制造方法及图纸

技术编号：44081445 阅读：6 留言：0更新日期：2025-01-17 16:15

本发明专利技术涉及数据处理技术领域和金融科技领域，公开了一种批量数据与流式数据的集成处理方法，通过从数据源获取待处理数据，基于这些数据的元数据信息，配置适合的处理逻辑，并利用适配层将该处理逻辑应用于批处理引擎和流处理引擎。历史批量数据通过批处理引擎进行处理，实时流数据则通过流处理引擎进行处理，两者生成各自的处理结果。接着，通过适配层将这两类结果进行合并，生成一个综合数据集，便于后续统一查询与分析。本发明专利技术通过建立统一的框架，实现了批量数据与流式数据的集成处理。通过适配层，数据处理逻辑被分别适配至批处理引擎和流处理引擎用于处理数据，实现了通过同一架构对两类数据的独立处理逻辑，而无需维护两套独立系统。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及数据处理和金融科技领域，尤其涉及一种批量数据与流式数据的集成处理方法、装置、设备及存储介质。

技术介绍

1、在金融行业中，数据的分析与处理已成为重要的决策依据。金融机构需要处理大量的历史交易数据和实时交易数据，以便进行风险控制、市场分析、合规管理等关键任务。数据的处理方式主要分为两种：批量计算和流式计算。批量计算适用于处理已积累的大量历史数据，而流式计算则用于实时监控和分析新生成的数据。

2、批量计算是对一组数据集进行一次性处理，通常在数据积累到一定规模后统一执行。这种方式适合历史数据的分析，但无法实时反映市场或交易的最新变化。相比之下，流式计算能够对数据流进行实时处理和分析，满足金融机构对实时风险评估、实时监控以及合规管理的要求。然而，批量计算和流式计算的分离导致了金融行业在数据处理架构设计中的复杂性。

3、为了同时支持批量和流式计算，行业内引入了两种架构模式：

4、lambda架构：lambda架构通过批处理层处理历史数据，通过速度处理层进行实时数据的处理，并将结果统一输出给服务层。该架构的优势在于既能处理历史数据，又能支持实时计算，满足了大数据场景下的综合需求。但其缺点是需要维护两套逻辑系统，批处理层与速度处理层的逻辑需要保持一致，这增加了系统的复杂性和维护成本。

5、kappa架构：为了解决lambda架构的复杂性，kappa架构对架构进行了简化，只保留了速度处理层，通过流式处理实现了批处理的功能。这种架构虽然简化了系统的维护，但在处理金融行业的大规模历史数据时表现并不如lambda架构灵活。

6、然而，金融行业对数据分析和处理的要求高，现有的lambda和kappa架构在应用过程中存在以下不足：

7、lambda架构虽然能够同时支持批量和流式计算，但需要维护两套逻辑系统。批处理层和速度处理层的同步十分困难，尤其是在处理金融数据时，保持两套系统的一致性至关重要，但也增加了开发和维护的复杂性。

8、kappa架构在简化系统的同时，以流处理为核心实现批处理功能，但对于金融行业的历史数据处理，kappa架构在批量数据的处理效率和灵活性上不如lambda架构，尤其是处理大规模历史数据时可能存在性能瓶颈。

9、在金融场景中，数据的准确性和一致性极为重要。现有的lambda架构由于批处理层和速度处理层之间的逻辑不一致，可能导致分析结果不一致，进而影响到金融决策的准确性和时效性。

10、综上，金融领域在数据处理架构上面临着系统复杂性、实时性和数据一致性等方面的挑战，现有技术难以同时高效支持批量与实时数据的处理需求。

技术实现思路

1、本专利技术的主要目的在于提供一种批量数据与流式数据的集成处理方法、装置、设备及存储介质，旨在解决现有数据处理技术依赖两套独立的处理系统，导致批量计算与流式计算的逻辑难以协调一致，增加了系统的复杂性和维护成本的技术问题。

2、为实现上述目的，本专利技术提供一种批量数据与流式数据的集成处理方法，包括：

3、从数据源获取待处理数据，所述待处理数据包括历史批量数据和实时流数据；

4、基于所述待处理数据的元数据信息，配置数据处理逻辑；

5、通过适配层将所述数据处理逻辑适配至批处理引擎和流处理引擎；

6、使用所述批处理引擎对所述历史批量数据进行处理，生成对应的批量数据处理结果；

7、使用所述流处理引擎对所述实时流数据进行处理，生成对应的流式数据处理结果；

8、通过所述适配层合并所述批量数据处理结果和所述流式数据处理结果，生成综合数据集，所述综合数据集能够用于统一查询。

9、进一步地，为实现上述目的，本专利技术提供一种批量数据与流式数据的集成处理装置，包括：

10、数据源连接模块，用于从数据源获取待处理数据，所述待处理数据包括历史批量数据和实时流数据；

11、处理逻辑配置模块，用于基于所述待处理数据的元数据信息，配置数据处理逻辑；

12、适配层模块，用于通过适配层将所述数据处理逻辑适配至批处理引擎和流处理引擎；

13、批处理引擎模块，用于使用所述批处理引擎对所述历史批量数据进行处理，生成对应的批量数据处理结果；

14、流处理引擎模块，用于使用所述流处理引擎对所述实时流数据进行处理，生成对应的流式数据处理结果；

15、数据合并与查询模块，用于通过所述适配层合并所述批量数据处理结果和所述流式数据处理结果，生成综合数据集，所述综合数据集能够用于统一查询。

16、进一步地，为实现上述目的，本专利技术还提供一种计算机设备，所述计算机设备包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的批量数据与流式数据的集成处理程序，所述批量数据与流式数据的集成处理程序被所述处理器执行时实现如上述所述的批量数据与流式数据的集成处理方法的步骤。

17、进一步地，为实现上述目的，本专利技术还提供一种计算机可读存储介质，所述存储介质上存储有批量数据与流式数据的集成处理程序，所述批量数据与流式数据的集成处理程序被处理器执行时实现如上所述的批量数据与流式数据的集成处理方法的步骤。

18、有益效果：本专利技术涉及数据处理
和金融科技领域，公开了一种批量数据与流式数据的集成处理方法，通过从数据源获取待处理数据，基于这些数据的元数据信息，配置适合的处理逻辑，并利用适配层将该处理逻辑应用于批处理引擎和流处理引擎。历史批量数据通过批处理引擎进行处理，实时流数据则通过流处理引擎进行处理，两者生成各自的处理结果。接着，通过适配层将这两类结果进行合并，生成一个综合数据集，便于后续统一查询与分析。本专利技术通过建立统一的框架，实现了批量数据与流式数据的集成处理。通过适配层，数据处理逻辑被分别适配至批处理引擎和流处理引擎，针对历史批量数据执行汇总与统计，针对实时流数据执行实时监控和异常检测。通过同一架构实现了对两类数据的独立处理逻辑，而无需维护两套独立系统。相比现有技术，减少了系统复杂性，简化了维护过程，并确保数据处理结果在批量与流式计算场景中的一致性与协调性。合并后的综合数据集统一支持查询，进一步提高了数据处理效率与准确性。

本文档来自技高网...

【技术保护点】

1.一种批量数据与流式数据的集成处理方法，其特征在于，包括以下步骤：

2.如权利要求1所述的批量数据与流式数据的集成处理方法，其特征在于，基于所述待处理数据的元数据信息，配置数据处理逻辑，包括：

3.如权利要求1所述的批量数据与流式数据的集成处理方法，其特征在于，通过所述适配层合并所述批量数据处理结果和所述流式数据处理结果，生成综合数据集，包括：

4.如权利要求1所述的批量数据与流式数据的集成处理方法，其特征在于，使用所述批处理引擎对所述历史批量数据进行处理，生成对应的批量数据处理结果，包括：

5.如权利要求1所述的批量数据与流式数据的集成处理方法，其特征在于，使用所述流处理引擎对所述实时流数据进行处理，生成对应的流式数据处理结果，包括：

6.如权利要求1所述的批量数据与流式数据的集成处理方法，其特征在于，从数据源获取待处理数据，所述待处理数据包括历史批量数据和实时流数据，包括：

7.如权利要求1中所述的批量数据与流式数据的集成处理方法，其特征在于，生成综合数据集之后，还包括：

8.一种批量数据与

9.一种计算机设备，其特征在于，所述计算机设备包括存储器、处理器以及存储在所述存储器上并可以在所述处理器上运行的批量数据与流式数据的集成处理程序，所述批量数据与流式数据的集成处理程序被所述处理器执行时实现如权利要求1-7中任一项所述的批量数据与流式数据的集成处理方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述存储介质上存储有批量数据与流式数据的集成处理程序，所述批量数据与流式数据的集成处理程序被处理器执行时实现如权利要求1-7中任一项所述的批量数据与流式数据的集成处理方法的步骤。

...

【技术特征摘要】

1.一种批量数据与流式数据的集成处理方法，其特征在于，包括以下步骤：

2.如权利要求1所述的批量数据与流式数据的集成处理方法，其特征在于，基于所述待处理数据的元数据信息，配置数据处理逻辑，包括：

6.如权利要求1所述的批量数据与流式数据的集成处理方法，其特征在于，从数据源获取待处理数据...

【专利技术属性】
技术研发人员：杨志彪，仲雪莲，
申请(专利权)人：平安银行股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人