本申请公开了一种批流融合的信息处理方法和装置、存储介质。该方法包括基于输入的查询语句获取索引;基于索引提取预计算的索引数据段作为查询结果;提取新计算的索引数据段更新查询结果。本申请解决了实时数据与离线数据难以进行融合分析的技术问题。难以进行融合分析的技术问题。难以进行融合分析的技术问题。
【技术实现步骤摘要】
批流融合的信息处理方法和装置、存储介质
[0001]本专利技术属于数据处理
,尤其涉及一种批流融合的信息处理方法和装置、存储介质。
技术介绍
[0002]随着工业4.0以及5G时代的到来,人们对于数据处理的时效性有了越来越高的需求。研究表明,数据的价值随着时间的流逝而降低。反过来说,越实时的数据,其价值越高。在此背景下,业界涌现出了像Storm,Spark,Kafka,Flink等一批优秀的开源流计算框架。然而,尽管不少流计算框架宣称自己具备批流一体的处理能力,事实上由于批处理与流计算在使用场景和侧重点的不同——流计算更关注数据的时效性,而批处理则更关注数据的完整性、准确性和计算成本,像Hive这样的批处理系统仍然无法被完全替代。这使得人们在需要将实时数据与离线数据进行融合分析的时候,变得非常困难。数据口径不一致,语义不统一,无法跨系统查询,查询性能无法满足要求等问题,常常会成为难以逾越的鸿沟,困扰着大数据架构师和工程师们。
[0003]综上所述,现有技术存在如下技术问题:
[0004]将实时数据与离线数据进行融合分析的时候,变得非常困难。
技术实现思路
[0005]为解决上述技术问题,本专利技术提供一种批流融合的信息处理方法,包括步骤:
[0006]基于输入的查询语句获取索引;
[0007]基于索引提取预计算的索引数据段作为查询结果;
[0008]提取新计算的索引数据段更新查询结果。
[0009]优选的,所述基于索引提取预计算的索引数据段作为查询结果,具体包括:
[0010]获取索引的统计信息;
[0011]在内存中检索拥有该统计信息的预创建索引;
[0012]基于预创建索引在存储介质中定位其预计算的索引数据段;
[0013]将定位到的预计算的索引数据段作为查询结果。
[0014]优选的,所述预计算的索引数据段,具体包括:
[0015]基于预先定义的统一模型定义预创建索引;
[0016]基于预创建索引进行预计算得到索引数据段;
[0017]将预创建索引的统计信息储存于内存,并将预计算的索引数据段储存于存储介质。
[0018]优选的,所述基于预先定义的统一模型定义预创建索引,具体包括:
[0019]获取预先创建的流数据源映射表、批数据源映射表,其中,流数据源映射表为事实表,批数据源映射表为与其绑定的影子表;
[0020]获取预先创建的事实表与影子表连接的维度和度量;
[0021]基于获取的维度和度量,确定事实表和影子表与维度表的连接关系;
[0022]基于连接关系定义预创建索引。
[0023]优选的,所述基于预创建索引计算得到索引数据段,具体包括:
[0024]获取预创建索引,其中,预创建索引分为批索引、流索引和融合索引;
[0025]基于预创建索引,通过计算引擎在数据源中进行预计算,其中,计算引擎包括批处理计算引擎、流处理计算引擎,数据源包括批数据源、流数据源;
[0026]基于预计算得到预计算的索引数据段,其中,预计算的索引数据段分为批索引数据段、流索引数据段。
[0027]优选的,所述将预创建索引的统计信息储存于内存,具体包括:
[0028]提取预创建索引的统计信息,其中,统计信息包括行数、大小和基数。
[0029]优选的,所述提取新计算的索引数据段更新查询结果,具体包括:
[0030]基于索引在数据源中进行新计算,其中,索引分为批索引、流索引和融合索引,数据源包括批数据源、流数据源;
[0031]通过计算引擎新计算得到新计算的索引数据段,其中,计算引擎包括批处理计算引擎、流处理计算引擎,新计算的索引数据段分为批索引数据段、流索引数据段;
[0032]将新计算的索引数据段储存在存储介质中;
[0033]提取存储介质中新计算的索引数据段更新查询结果。
[0034]一种批流融合的信息处理的装置,其特征在于,包括:
[0035]客户端,用于基于输入的查询语句获取索引;
[0036]查询引擎,用于基于索引提取预计算的索引数据段作为查询结果;
[0037]更新模块,用于提取新计算的索引数据段更新查询结果。
[0038]优选的,所述查询引擎:
[0039]获取索引的统计信息;
[0040]在内存中检索拥有该统计信息的预创建索引;
[0041]基于预创建索引在存储介质中定位其预计算的索引数据段;
[0042]将定位到的预计算的索引数据段作为查询结果。
[0043]优选的,所述查询引擎,包括:
[0044]预创建索引定义模块,用于基于预先定义的统一模型定义预创建索引;
[0045]预计算模块,用于基于预创建索引进行预计算得到索引数据段;
[0046]信息储存模块,将预创建索引的统计信息储存于内存,并将预计算的索引数据段储存于存储介质。
[0047]优选的,所述预创建索引定义模块:
[0048]获取预先创建的流数据源映射表、批数据源映射表,其中,流数据源映射表为事实表,批数据源映射表为与其绑定的影子表;
[0049]获取预先创建的事实表与影子表连接的维度和度量;
[0050]基于获取的维度和度量,确定事实表和影子表与维度表的连接关系;
[0051]基于连接关系定义预创建索引。
[0052]优选的,所述预计算模块:
[0053]获取预创建索引,其中,预创建索引分为批索引、流索引和融合索引;
[0054]基于预创建索引,通过计算引擎在数据源中进行预计算,其中,计算引擎包括批处理计算引擎、流处理计算引擎,数据源包括批数据源、流数据源;
[0055]基于预计算得到预计算的索引数据段,其中,预计算的索引数据段分为批索引数据段、流索引数据段。
[0056]优选的,所述信息储存模块:
[0057]提取预创建索引的统计信息,其中,统计信息包括行数、大小和基数。
[0058]优选的,所述更新模块:
[0059]基于索引在数据源中进行新计算,其中,索引分为批索引、流索引和融合索引,数据源包括批数据源、流数据源;
[0060]通过计算引擎新计算得到新计算的索引数据段,其中,计算引擎包括批处理计算引擎、流处理计算引擎,新计算的索引数据段分为批索引数据段、流索引数据段;
[0061]将新计算的索引数据段储存在存储介质中;
[0062]提取存储介质中新计算的索引数据段更新查询结果。
[0063]一种电子设备,包括存储器和处理器,所述存储器存储计算机程序,其特征在于,所述计算机程序在所述处理器中执行可实现以上任一种方法。
[0064]一种存储介质,存储计算机程序,其特征在于,所述计算机程序在处理器中执行可实现以上任一种方法。
[0065]本专利技术通过定义统一模型,实现了通过一条SQL查询语句本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种批流融合的信息处理方法,其特征在于,包括:基于输入的查询语句获取索引;基于索引提取预计算的索引数据段作为查询结果;提取新计算的索引数据段更新查询结果。2.如权利要求1所述的方法,其特征在于,所述基于索引提取预计算的索引数据段作为查询结果,具体包括:获取索引的统计信息;在内存中检索拥有该统计信息的预创建索引;基于预创建索引在存储介质中定位其预计算的索引数据段;将定位到的预计算的索引数据段作为查询结果。3.如权利要求1所述的方法,其特征在于,所述预计算的索引数据段,具体包括:基于预先定义的统一模型定义预创建索引;基于预创建索引进行预计算得到索引数据段;将预创建索引的统计信息储存于内存,并将预计算的索引数据段储存于存储介质。4.如权利要求3所述的方法,其特征在于,所述基于预先定义的统一模型定义预创建索引,具体包括:获取预先创建的流数据源映射表、批数据源映射表,其中,流数据源映射表为事实表,批数据源映射表为与其绑定的影子表;获取预先创建的事实表与影子表连接的维度和度量;基于获取的维度和度量,确定事实表和影子表与维度表的连接关系;基于连接关系定义预创建索引。5.如权利要求3所述的方法,其特征在于,所述基于预创建索引计算得到索引数据段,具体包括:获取预创建索引,其中,预创建索引分为批索引、流索引和融合索引;基于预创建索引,通过计算引擎在数据源中进行预计算,其中,计算引擎包括批处理计算引擎、流处理计算引擎,...
【专利技术属性】
技术研发人员:曹鲁,马洪宾,张逸凡,陈志雄,李扬,韩卿,
申请(专利权)人:上海跬智信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。