【技术实现步骤摘要】
本专利技术属于大数据处理
,更具体而言,涉及一种基于机器学习的Hadoop参数的自动调优方法及系统。
技术介绍
Hadoop作为应用广泛的大型数据并行处理框架Mapreduce的一种开源实现,具有良好的扩展性和容错性。用户能够使用Hadoop轻松扩展应用程序,但是必须为特定应用配置参数,不同的参数配置会对系统的性能产生很大的影响。Hadoop任务的性能优化是一个多维的优化问题,影响因素主要有数据集规模大小、机器硬件的配置、作业对资源利用特征,以及不同的调度算法。首先,就一套集群而言,不同集群参数设置存在很大差别,因此每个Hadoop系统需要根据所处集群自身的特点来配置以优化性能。其次,各参数间的关系非常复杂,有的参数可能与一个或多个参数相互影响。参数间存在相互制约或依赖关系,设置不合理可能会导致资源竞争,整个系统的整体性能降低,所以使配置参数间的相互制约关系达到平衡非常重要;此外,不同应用任务对执行环境的要求不同,需要对系统进行相应配置以匹配任务需要来提高整体性能。传统的基于经验规律的调优方法是Hadoop用户通过大量实验和对系统本身的分析总结对某类Hadoop作业性能影响较大的参数,并在具体应用实践中调节这些参数值。这种方法需要用户对Hadoop系统有比较深入了解和大量实战经验,并且会因用户不同而产生截然不同的效果。每一次参数调整需要进行多次测试,需要消耗大量的硬件资源和时间。如Vaidya(详见:Vaidya.[Online].Availab1e:http://Hadoop.apache.org/Mapreduce/doc s/r0.21.0/ ...
【技术保护点】
一种基于机器学习的Hadoop参数自动调优方法,包括离线过程和在线过程,其中,离线过程包括下述步骤:S1.收集当前集群中运行的历史作业的执行时间、输入数据集规模、Mapreduce的参数配置和各类资源消耗的时间序列信息;S2.将收集的历史作业的各类资源消耗的时间序列信息进行归一化预处理,然后构建资源消耗特征向量;S3.计算不同作业的资源消耗特征向量之间距离,用于衡量不同作业的相似度,并将作业聚类分组,使得资源消耗特征相似的作业分为一组;S4.根据聚类结果,利用每组历史作业的配置参数、输入数据规模和执行时间,分组构建作业执行时间训练集;S5.针对每组作业,分别采用逐步回归方法选择最佳预测因子,即选择与作业执行时间强相关的因子;S6.针对每组作业,分别利用逐步回归分析的结果进行SVM回归预测分析,选择合适核函数,构建SVM性能模型;所述在线过程包括下述步骤:S7.针对新提交的作业,采用默认参数配置和输入数据集的一部分,在聚类集群中运行该作业,收集各类资源消耗的时间序列信息,并按照步骤S2中方法构建资源消耗特征向量;S8.将新提交作业的资源消耗特征向量与步骤S3聚类结果中的每类聚类中心进行距 ...
【技术特征摘要】
1.一种基于机器学习的Hadoop参数自动调优方法,包括离线过程和在线过程,其中,离线过程包括下述步骤:S1.收集当前集群中运行的历史作业的执行时间、输入数据集规模、Mapreduce的参数配置和各类资源消耗的时间序列信息;S2.将收集的历史作业的各类资源消耗的时间序列信息进行归一化预处理,然后构建资源消耗特征向量;S3.计算不同作业的资源消耗特征向量之间距离,用于衡量不同作业的相似度,并将作业聚类分组,使得资源消耗特征相似的作业分为一组;S4.根据聚类结果,利用每组历史作业的配置参数、输入数据规模和执行时间,分组构建作业执行时间训练集;S5.针对每组作业,分别采用逐步回归方法选择最佳预测因子,即选择与作业执行时间强相关的因子;S6.针对每组作业,分别利用逐步回归分析的结果进行SVM回归预测分析,选择合适核函数,构建SVM性能模型;所述在线过程包括下述步骤:S7.针对新提交的作业,采用默认参数配置和输入数据集的一部分,在聚类集群中运行该作业,收集各类资源消耗的时间序列信息,并按照步骤S2中方法构建资源消耗特征向量;S8.将新提交作业的资源消耗特征向量与步骤S3聚类结果中的每类聚类中心进行距离匹配,然后利用匹配的作业类对应的性能模型,预测不同参数配置和输入数据集规模下的执行时间,作为参数寻优的搜索空间;S9.利用搜索算法搜索最优参数配置,并输出;S10.利用步骤S9得到的最优参数配置方案,指定输入数据集,在当前集群中运行新提交作业。2.根据权利要求1所述的一种基于机器学习的Hadoop参数自动调优方法,其特征在于,所述步骤S3中衡量不同作业相似度所采用的距离计算公式,使相同作业间相似度比不同作业间相似度高。3.根据权利要求1或2所述的一种基于机器学习的Hadoop参数自动调优方法,其特征在于,所述步骤S3中衡量不同作业相似度所采用的距离计算公式为余弦距离公式。4.根据权利要求1或2所述的一种基于机器学习的Hadoop参数自动调优方法,其特征在于,所述步骤S3中聚类分组所采用的聚类算法为无监督聚类算法,原则是:使得资源特征最相似的作业自动地聚类成一组。5.根据权利要求1或2所述的一种基于机器学习的Hadoop参数自动调优方法,其特征在于,所述步骤S3中聚类分组采用K-means算法。6.根据权利要求1或2所述的一种基于机器学习的Hadoop参数自动调优方法...
【专利技术属性】
技术研发人员:施展,冯丹,于瑞丽,童颖,王子毅,彭亚妹,
申请(专利权)人:华中科技大学,
类型:发明
国别省市:湖北;42
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。