一种SparkSQL在线优化方法和装置制造方法及图纸

技术编号：37708431 阅读：42 留言：0更新日期：2023-06-01 23:59

本发明专利技术公开了一种Spark SQL在线优化方法和装置。该方法利用贝叶斯优化在Spark SQL上执行待优化配置参数的迭代搜索，包括：通过与贝叶斯迭代搜索过程进行交互收集参数样本，获得样本数据集，其中每个样本数据包括迭代过程使用的配置参数和各个query的执行时间；针对所述样本数据集，根据参数重要程度进行参数降维，并将降维后的样本数据集输入到贝叶斯优化过程中，用于高斯过程的建模，以确定应用程序的执行时间与参数样本之间的关联关系。本发明专利技术实现了低成本、深层次且高性能的调参优化，能够实现从底层的Spark引擎到上层的Spark SQL的整体在线优化。的整体在线优化。的整体在线优化。

全部详细技术资料下载

【技术实现步骤摘要】
一种SparkSQL在线优化方法和装置

[0001]本专利技术涉及计算机
，更具体地，涉及一种Spark SQL在线优化方法和装置。

技术介绍

[0002]Spark SQL(结构化查询语言)基于Spark构建，可以实现高性能的结构化数据处理。与Spark RDD API不同，Spark SQL接口为Spark提供了更多关于数据结构和正在执行的计算的信息。因此在OLAP(联机分析处理)等场景中得到了广泛的应用。Spark SQL应用程序是一个执行单元，通常由许多查询(query)组成，Spark SQL框架将每个查询转换成一个DAG(有向无环图)，然后将DAG分解成由一组并行任务组成的stage(阶段)集合。每个任务对应一个应用程序的分区计算部分结果。每个阶段可能依赖于存储在RDD中的称为沿袭的其他阶段。随后，Spark的DAG调度器将每个阶段的任务调度给多个executor(执行器)并行执行。这种并行性由几个配置参数控制。例如，在Yarn模式下，参数spark.executor.instances指定executor的数量，参数spark.executor.cores指定每个executor使用的核数。executor数量与每个executor的核数的乘积决定了Spark SQL集群一次可执行的最大任务数。经分析，一个Spark SQL应用的行为由200多个配置参数控制，这些配置参数一般分为两个级别：Spark SQL内部配置(上层)和Spark运行时配置(下层)。上层配置用于指定Spark SQL应用的属性...

【技术保护点】

【技术特征摘要】
1.一种Spark SQL在线优化方法，该方法利用贝叶斯优化在Spark SQL上执行待优化配置参数的迭代搜索，包括以下步骤：步骤S1：通过与贝叶斯迭代搜索过程进行交互收集参数样本，获得样本数据集，其中每个样本数据包括迭代过程使用的配置参数和各个query的执行时间；步骤S2：针对所述样本数据集，根据参数重要程度进行参数降维，并将降维后的样本数据集输入到贝叶斯优化过程中，用于高斯过程的建模，以确定应用程序的执行时间与参数样本之间的关联关系。2.根据权利要求1所述的方法，其特征在于，步骤S2包括：基于所述样本数据集，通过斯皮尔曼相关性分析，进行第一次参数降维，进而通过核主成分分析进行第二次参数降维，获得降维后的样本数据集。3.根据权利要求1所述的方法，其特征在于，在步骤S2中，在贝叶斯优化的迭代过程中，将应用程序的性能建模为配置参数和输入数据量大小的函数分布。4.根据权利要求1所述的方法，其特征在于，所述待优化参数包括Spark SQL内部配置参数和Spark运行时配置参数，其中内部配置参数用于指定Spark SQL应用的属性，运行时配置参数用于指定Spark不同方面的执行性能。5.一种Spark SQL在线优化装置，该装置利用贝叶斯优化在Spark SQL上执行待优化配置参数的迭代搜索，包括：参数样本收集模块：用于通过与贝叶斯迭代搜索过程进行交互...

【专利技术属性】
技术研发人员：辛锦瀚，喻之斌，陈超，黄世鑫，苏子浩，郭伟钰，曾思棋，李惠娟，杨永魁，王峥，
申请(专利权)人：中国科学院深圳先进技术研究院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人