批流融合的信息处理方法和装置、存储介质制造方法及图纸

技术编号：31823926 阅读：25 留言：0更新日期：2022-01-12 12:46

本申请公开了一种批流融合的信息处理方法和装置、存储介质。该方法包括基于输入的查询语句获取索引；基于索引提取预计算的索引数据段作为查询结果；提取新计算的索引数据段更新查询结果。本申请解决了实时数据与离线数据难以进行融合分析的技术问题。难以进行融合分析的技术问题。难以进行融合分析的技术问题。

全部详细技术资料下载

【技术实现步骤摘要】
批流融合的信息处理方法和装置、存储介质

[0001]本专利技术属于数据处理
，尤其涉及一种批流融合的信息处理方法和装置、存储介质。

技术介绍

[0002]随着工业4.0以及5G时代的到来，人们对于数据处理的时效性有了越来越高的需求。研究表明，数据的价值随着时间的流逝而降低。反过来说，越实时的数据，其价值越高。在此背景下，业界涌现出了像Storm，Spark，Kafka，Flink等一批优秀的开源流计算框架。然而，尽管不少流计算框架宣称自己具备批流一体的处理能力，事实上由于批处理与流计算在使用场景和侧重点的不同——流计算更关注数据的时效性，而批处理则更关注数据的完整性、准确性和计算成本，像Hive这样的批处理系统仍然无法被完全替代。这使得人们在需要将实时数据与离线数据进行融合分析的时候，变得非常困难。数据口径不一致，语义不统一，无法跨系统查询，查询性能无法满足要求等问题，常常会成为难以逾越的鸿沟，困扰着大数据架构师和工程师们。
[0003]综上所述，现有技术存在如下技术问题：
[0004]将实时数据与离线数据进行融合分析的时候，变得非常困难。

技术实现思路

[0005]为解决上述技术问题，本专利技术提供一种批流融合的信息处理方法，包括步骤：
[0006]基于输入的查询语句获取索引；
[0007]基于索引提取预计算的索引数据段作为查询结果；
[0008]提取新计算的索引数据段更新查询结果。
[0009]优选的，所述基于索引提取预计算的索引数据段作为查询...

【技术保护点】

【技术特征摘要】
1.一种批流融合的信息处理方法，其特征在于，包括：基于输入的查询语句获取索引；基于索引提取预计算的索引数据段作为查询结果；提取新计算的索引数据段更新查询结果。2.如权利要求1所述的方法，其特征在于，所述基于索引提取预计算的索引数据段作为查询结果，具体包括：获取索引的统计信息；在内存中检索拥有该统计信息的预创建索引；基于预创建索引在存储介质中定位其预计算的索引数据段；将定位到的预计算的索引数据段作为查询结果。3.如权利要求1所述的方法，其特征在于，所述预计算的索引数据段，具体包括：基于预先定义的统一模型定义预创建索引；基于预创建索引进行预计算得到索引数据段；将预创建索引的统计信息储存于内存，并将预计算的索引数据段储存于存储介质。4.如权利要求3所述的方法，其特征在于，所述基于预先定义的统一模型定义预创建索引，具体包括：获取预先创建的流数据源映射表、批数据源映射表，其中，流数据源映射表为事实表，批数据源映射表为与其绑定的影子表；获取预先创建的事实表与影子表连接的维度和度量；基于获取的维度和度量，确定事实表和影子表与维度表的连接关系；基于连接关系定义预创建索引。5.如权利要求3所述的方法，其特征在于，所述基于预创建索引计算得到索引数据段，具体包括：获取预创建索引，其中，预创建索引分为批索引、流索引和融合索引；基于预创建索引，通过计算引擎在数据源中进行预计算，其中，计算引擎包括批处理计算引擎、流处理计算引擎，...

【专利技术属性】
技术研发人员：曹鲁，马洪宾，张逸凡，陈志雄，李扬，韩卿，
申请(专利权)人：上海跬智信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人