一种基于SparkSQL的聚合计算优化方法技术

技术编号：32240437 阅读：14 留言：0更新日期：2022-02-09 17:44

本发明专利技术公开了一种基于Spark SQL的聚合计算优化方法，包括如下步骤：S1、通过原生Spark SQL提供的规则扩展接口，进行执行计划阶段的重新编排；S2、使用基于块数据模型实现的BlockSortedAggregateExec和BlockHashAggregateExec执行计划；S3、进行执行计划匹配，匹配是否有聚合统计节点，若没有匹配规则，则聚合优化规则结束；若匹配到聚合执行计划，则会提取聚合计算节点类型，并判断其为哪种聚合节点；S4、若是基于Hash的聚合节点，则将Spark SQL原生的HashAggregateExec执行计划替换为BlockHashAggregateExec，聚合优化规则结束；若是基于Sort的聚合节点，则将Spark SQL原生的SortedAggregateExec执行计划替换为BlockSortedAggregateExec，聚合优化规则结束。通过对原生Spark SQL的逻辑执行计划的规则匹配，重新实现聚合计算逻辑的编排，并重新实现基于“块”数据的聚合计算执行计划。数据的聚合计算执行计划。数据的聚合计算执行计划。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于Spark SQL的聚合计算优化方法

[0001]本专利技术涉及大数据、数据库
，具体为一种基于Spark SQL的聚合计算优化方法。

技术介绍

[0002]Spark SQL提供了高效的聚合计算框架，可针对海量数据提供通用的聚合计算能力，目前Spark聚合计算执行计划主要有HashAggregateExec、SortAggregateExec和ObjectHashAggregateExec三种。
[0003]基于Hash的HashAggregateExec，该执行计划内置了Map类型的数据结构，以分组的属性作为key，将数据保存到该Map中并进行聚合计算。HashAggregateExec执行计划可能会内存不足的情况会退化为SortAggregateExec的执行逻辑。Hash聚合计算的逻辑如说明书附图中的图1所示，如果当前Hash聚合计算对数据分布存在要求，则原生Spark SQL执行计划会按照SQL要求进行局部计算，再进行数据Shuffle，最后进行数据的最终聚合计算。其计算流程如说明书附图中的图2所示。分布式Hash聚合计算本质是一种通用的MapReduce架构，图2中的Stage0阶段作为Map阶段，主要进行数据的读取，过滤，在条件允许的情况下进行Map内的局部聚合操作，可以进行局部聚合计算依赖于聚合算子和数据分布情况。完成局部计算和数据重分区后，需要通过Exchange执行计划进行数据的Shuffle，数据的Shuffle会将计算结果数据和计算结果的索引数据溢写到磁盘上，最终完成Ma

【技术保护点】

【技术特征摘要】
1.一种基于Spark SQL的聚合计算优化方法，其特征在于，包括如下步骤：S1、通过原生Spark SQL提供的规则扩展接口，进行执行计划阶段的重新编排；S2、使用基于块数据模型实现的BlockSortedAggregateExec和BlockHashAggregateExec执行计划；S3、进行执行计划匹配，匹配是否有聚合统计节点，若没有匹配规则，则聚合优化规则结束；若匹配到聚合执行计划，则会提取聚合计算节点类型，并判断其为哪种聚合节点；S4、若是基于Hash的聚合节点，则将Spark SQL原生的HashAggregateExec执行计划替换为BlockHashAggregateExec，聚合优化规则结束；若是基于Sort的聚合节点，则将Spark SQL原生的SortedAggregateExec执行计划替换为BlockSortedAggrega...

【专利技术属性】
技术研发人员：廖闻剑，赵智峰，李岩，苏锋，周涛，丁军峰，
申请(专利权)人：西安烽火软件科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人