一种基于数据分布的任务分配优化方法技术

技术编号:14817902 阅读:62 留言:0更新日期:2017-03-15 11:50
本发明专利技术公开了一种基于数据分布的任务分配优化方法,其实现过程为:根据节点间的网络距离和中间结果权重分布情况评估reduce任务的数据传输代价;根据reduce任务在不同节点上的数据传输代价得出每个任务的最优执行节点集合;基于最优执行节点集合给出具体的任务分配策略和算法。该基于数据分布的任务分配优化方法与现有技术相比,有效减少执行reduce任务带来的数据传输,可以为MapReduce程序减少约12%的网络访问请求,而作业响应时间也缩短了9%左右,实用性强。

【技术实现步骤摘要】

本专利技术涉及计算机数据集成
,具体地说是一种实用性强、基于数据分布的任务分配优化方法
技术介绍
信息的爆炸式增长推动着互联网进入大数据时代,如今大数据已成为一种重要的战略资源和新型决策方式,而云计算则为大数据处理与分析提供了强大的计算和存储能力。随着大数据和云计算的兴起,越来越多的公司开始利用MapReduce和Hadoop来提供云服务。其中,MapReduce是谷歌提出的一种编程模型,通常用于大规模数据集的并行运算,而Hadoop是一个实现了包括MapReduce模型和分布式文件系统(HDFS)在内的开源的并行编程框架,具有高效率、高可靠、高容错、低成本和可扩展的特性。网络带宽一直是制约云计算发展的瓶颈,同时也是当前的研究热点之一。如图1所示,MapReduce程序可以抽象成两个特定的函数:map函数和reduce函数,其中map函数负责分解输入数据并进行初步处理,而reduce函数负责汇总中间结果以得到最终结果。MapReduce框架通常在存储数据块的节点上构建map任务,这样可以减少数据传输和对网络带宽的占用。但是reduce任务并不具备数据本地化的优势,因为单个reduce任务的输入通常来自多个map任务的输出,并且每个reduce任务都需要将最终结果输出到HDFS中,所以reduce函数的输入和输出都需要占用网络带宽。基于此,本专利技术提出了一种基于数据分布的任务分配优化方法,通过合理分配reduce任务的启动节点减少数据传输带来的网络和I/O开销,同时提高MapReduce程序的性能。
技术实现思路
本专利技术的技术任务是针对以上不足之处,提供一种实用性强、基于数据分布的任务分配优化方法。一种基于数据分布的任务分配优化方法,其具体实现过程为:一、根据节点间的网络距离和中间结果权重分布情况评估reduce任务的数据传输代价;二、根据reduce任务在不同节点上的数据传输代价得出每个任务的最优执行节点集合;三、基于最优执行节点集合给出具体的任务分配策略和算法。所述节点间的网络距离具体指:当MapReduce程序有m个map任务Mi和n个reduce任务Rj时,其中0≤i≤m,0≤j≤n,并且每个reduce任务的输入均来自所有map任务的输出;map任务产生的中间结果通过网络传输到运行reduce任务的节点上,所有map任务所在的节点到reduce任务Rj所在节点的距离之和即为Rj的全部网络距离TNDRj。所述的中间结果权重分布,通过获取全局分布信息还原局部预测分布图,以键值对为粒度对中间结果的权重分布情况进行统计和预测,并结合网络距离对reduce任务的数据传输代价进行评估。获取全局分布信息的具体过程如下:1)当map阶段的执行进度为α时,各个节点对中间结果键值对进行统计,其中slowstartconf≤α≤1,slowstartconf为用户配置的参数,表示当执行完成的map任务的比例达到slowstartconf时,开始执行reduce任务;2)当各个节点按照分区函数对中间结果进行分区时,统计中间结果所对应的键值对,生成一系列的(k,n)元组并按照n的值从大到小进行排序;3)设置全局截断阈值θ,即仅以局部分布图中前θ%个(k,n)元组列表做为构建全局分布图的依据,局部分布图中第θ%个(k,n)的键值对数n称为局部截断阈值,截断后的分布图称为局部截断分布图L;4)构建全局分布图G:首先定义全局分布下限GL和全局分布上限GU,它们分别表示由局部截断分布图和局部截断阈值得到的各键对应元组数的最大值和最小值,然后设全局分布下限GL={(k,NL)k∈K本文档来自技高网...
一种基于数据分布的任务分配优化方法

【技术保护点】
一种基于数据分布的任务分配优化方法,其特征在于,其实现过程为:一、根据节点间的网络距离和中间结果权重分布情况评估reduce任务的数据传输代价;二、根据reduce任务在不同节点上的数据传输代价得出每个任务的最优执行节点集合;三、基于最优执行节点集合给出具体的任务分配策略和算法。

【技术特征摘要】
1.一种基于数据分布的任务分配优化方法,其特征在于,其实现过程为:一、根据节点间的网络距离和中间结果权重分布情况评估reduce任务的数据传输代价;二、根据reduce任务在不同节点上的数据传输代价得出每个任务的最优执行节点集合;三、基于最优执行节点集合给出具体的任务分配策略和算法。2.根据权利要求1所述的一种基于数据分布的任务分配优化方法,其特征在于,所述节点间的网络距离具体指:当MapReduce程序有m个map任务Mi和n个reduce任务Rj时,其中0≤i≤m,0≤j≤n,并且每个reduce任务的输入均来自所有map任务的输出;map任务产生的中间结果通过网络传输到运行reduce任务的节点上,所有map任务所在的节点到reduce任务Rj所在节点的距离之和即为Rj的全部网络距离TNDRj。3.根据权利要求1所述的一种基于数据分布的任务分配优化方法,其特征在于,所述的中间结果权重分布,通过获取全局分布信息还原局部预测分布图,以键值对为粒度对中间结果的权重分布情况进行统计和预测,并结合网...

【专利技术属性】
技术研发人员:王洪添李萍
申请(专利权)人:山东浪潮云服务信息科技有限公司
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1