【技术实现步骤摘要】
本专利技术涉及计算机数据集成
,具体地说是一种实用性强、基于数据分布的任务分配优化方法。
技术介绍
信息的爆炸式增长推动着互联网进入大数据时代,如今大数据已成为一种重要的战略资源和新型决策方式,而云计算则为大数据处理与分析提供了强大的计算和存储能力。随着大数据和云计算的兴起,越来越多的公司开始利用MapReduce和Hadoop来提供云服务。其中,MapReduce是谷歌提出的一种编程模型,通常用于大规模数据集的并行运算,而Hadoop是一个实现了包括MapReduce模型和分布式文件系统(HDFS)在内的开源的并行编程框架,具有高效率、高可靠、高容错、低成本和可扩展的特性。网络带宽一直是制约云计算发展的瓶颈,同时也是当前的研究热点之一。如图1所示,MapReduce程序可以抽象成两个特定的函数:map函数和reduce函数,其中map函数负责分解输入数据并进行初步处理,而reduce函数负责汇总中间结果以得到最终结果。MapReduce框架通常在存储数据块的节点上构建map任务,这样可以减少数据传输和对网络带宽的占用。但是reduce任务并不具备数据本地化的优势,因为单个reduce任务的输入通常来自多个map任务的输出,并且每个reduce任务都需要将最终结果输出到HDFS中,所以reduce函数的输入和输出都需要占用网络带宽。基于此,本专利技术提出了一种基于数据分布的任务分配优化方法,通过合理分配reduce任务的启动节点减少数据传输带来的网络和I/O开销,同时提高MapReduce程序的性能。
技术实现思路
本专利技术的技术任务是针对以上不足之 ...
【技术保护点】
一种基于数据分布的任务分配优化方法,其特征在于,其实现过程为:一、根据节点间的网络距离和中间结果权重分布情况评估reduce任务的数据传输代价;二、根据reduce任务在不同节点上的数据传输代价得出每个任务的最优执行节点集合;三、基于最优执行节点集合给出具体的任务分配策略和算法。
【技术特征摘要】
1.一种基于数据分布的任务分配优化方法,其特征在于,其实现过程为:一、根据节点间的网络距离和中间结果权重分布情况评估reduce任务的数据传输代价;二、根据reduce任务在不同节点上的数据传输代价得出每个任务的最优执行节点集合;三、基于最优执行节点集合给出具体的任务分配策略和算法。2.根据权利要求1所述的一种基于数据分布的任务分配优化方法,其特征在于,所述节点间的网络距离具体指:当MapReduce程序有m个map任务Mi和n个reduce任务Rj时,其中0≤i≤m,0≤j≤n,并且每个reduce任务的输入均来自所有map任务的输出;map任务产生的中间结果通过网络传输到运行reduce任务的节点上,所有map任务所在的节点到reduce任务Rj所在节点的距离之和即为Rj的全部网络距离TNDRj。3.根据权利要求1所述的一种基于数据分布的任务分配优化方法,其特征在于,所述的中间结果权重分布,通过获取全局分布信息还原局部预测分布图,以键值对为粒度对中间结果的权重分布情况进行统计和预测,并结合网...
【专利技术属性】
技术研发人员:王洪添,李萍,
申请(专利权)人:山东浪潮云服务信息科技有限公司,
类型:发明
国别省市:山东;37
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。