Hadoop平台下的任务调度方法及装置制造方法及图纸

技术编号:29199028 阅读:10 留言:0更新日期:2021-07-10 00:32
本发明专利技术公开了一种Hadoop平台下的任务调度方法及装置,该方法包括:对每个待处理任务在MapReduce分布式计算框架的映射阶段的处理耗时和归约阶段的混洗时期以及排序时期的处理耗时进行预估;根据所述映射阶段的处理耗时以及归约阶段中混洗时期以及排序时期的处理耗时对任务队列中的多个待处理任务进行重排序处理;根据重排序结果将待处理任务调度给执行节点以供进行任务处理。通过上述方式,本发明专利技术可以通过预估映射阶段以及归约阶段的混洗时期和排序时期的处理耗时,来对任务队列中的任务进行重排序,避免处理过程中的拥堵,以使任务的调度更为合理。任务的调度更为合理。任务的调度更为合理。

【技术实现步骤摘要】
Hadoop平台下的任务调度方法及装置


[0001]本专利技术涉及计算机
,具体涉及一种Hadoop平台下的任务调度方法及装置。

技术介绍

[0002]随着“互联网+及5G+”的提出,各行业大中型企业每天都在产生海量的非结构化数据。海量数据的存储以及计算处理迫切需要一种新型的计算方式,云计算在这种情况下应运而生。而Hadoop平台是目前应用最广泛的云计算平台,也是专家学者们对大数据进行研究使用最多的平台。MapReduce是一种分布式计算框架,是Hadoop对大数据进行分布式计算的核心组件。MapReduce分布式计算框架的性能直接影响着Hadoop集群的性能,因此对MapReduce分布式计算框架作业调度算法进行研究,对提高Hadoop集群的性能有着重要的意义。
[0003]MapReduce分布式计算框架调度过程总体上分为Map(映射,下文中相同)阶段和Reduce(归约,下文中相同)阶段。Reduce阶段分为三个时期,包括shuffle(混洗,下文中相同)时期、sort(排序,下文中相同)时期以及Reduce时期,其中,在Shuffle时期的时候任务应当从各个Map任务所处的节点中将其需要处理的数据进行远程拷贝,在全部数据都拷贝结束的时候Shuffle时期也对随之结束;然后进入到Sort时期,Sort时期主要是将已经输入的数据根据顺序进行再次排列,将排列好的数据当作Reduce时期的输入数据;Reduce时期指的是把已经排序的数据交给Reduce()函数进一步处理,将最终的结果保存到HDFS中,在所有的Reduce任务都完成之后就意味着一个完整的MapReduce分布式计算框架全作业调度过程就实现了。
[0004]然而,现有技术中缺乏对于MapReduce分布式计算框架的内部调度研究关注不足,小作业执行过程会受到到大作业的占用,导致整体执行效率降低,同时数据倾斜问题会导致单一节点占用率超负荷,进而影响执行效率。

技术实现思路

[0005]鉴于上述问题,提出了本专利技术以便提供一种克服上述问题或者至少部分地解决上述问题的Hadoop平台下的任务调度方法及装置。
[0006]根据本专利技术的一个方面,提供了一种Hadoop平台下的任务调度方法,包括:
[0007]对每个待处理任务在MapReduce分布式计算框架的映射阶段的处理耗时和归约阶段的混洗时期以及排序时期的处理耗时进行预估;
[0008]根据所述映射阶段的处理耗时以及归约阶段中混洗时期以及排序时期的处理耗时对任务队列中的多个待处理任务进行重排序处理;
[0009]根据重排序结果将待处理任务调度给执行节点以供进行任务处理。
[0010]根据本专利技术的另一方面,提供了一种Hadoop平台下的任务调度系统,包括:
[0011]预估模块,适于对每个待处理任务在MapReduce分布式计算框架的映射阶段的处
理耗时和归约阶段的混洗时期以及排序时期的处理耗时进行预估;
[0012]排序模块,适于根据所述映射阶段的处理耗时以及归约阶段中混洗时期以及排序时期的处理耗时对任务队列中的多个待处理任务进行重排序处理;
[0013]调度模块,适于根据重排序结果将待处理任务调度给执行节点以供进行任务处理。
[0014]根据本专利技术的又一方面,提供了一种计算设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
[0015]所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行上述Hadoop平台下的任务调度方法对应的操作。
[0016]根据本专利技术的再一方面,提供了一种计算机存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行如上述Hadoop平台下的任务调度方法对应的操作。
[0017]根据本专利技术的Hadoop平台下的任务调度方法及装置,通过预估map阶段以及reduce阶段中shuffle时期以及sort时期的处理耗时,可以确定出map阶段和reduce阶段之间的任务处理的衔接情况,并据此对任务队列中的多个待处理任务进行重排序处理,以减少待处理任务执行过程中map阶段和reduce阶段之间的等待和拥堵。由此可见,本实施例方案,通过对MapReduce分布式计算框架内部各个阶段地处理耗时的预估,实现对任务队列中多个待处理任务的重排序,进而可以有效的解决map阶段和reduce阶段之间的处理等待以及进一步造成的任务拥堵的问题,有利于提高任务调度的合理性。
[0018]上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,而可依照说明书的内容予以实施,并且为了让本专利技术的上述和其它目的、特征和优点能够更明显易懂,以下特举本专利技术的具体实施方式。
附图说明
[0019]通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本专利技术的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
[0020]图1示出了本专利技术Hadoop平台下的任务调度方法实施例的流程图;
[0021]图2示出了本专利技术Hadoop平台下的任务调度方法另一个实施例的流程图;
[0022]图3示出了一个具体示例中的预测算法引擎的预测原理示意图;
[0023]图4示出了本专利技术Hadoop平台下的任务调度装置实施例的结构示意图;
[0024]图5示出了本专利技术计算设备实施例的结构示意图。
具体实施方式
[0025]下面将参照附图更详细地描述本专利技术的示例性实施例。虽然附图中显示了本专利技术的示例性实施例,然而应当理解,可以以各种形式实现本专利技术而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本专利技术,并且能够将本专利技术的范围完整的传达给本领域的技术人员。
[0026]图1示出了本专利技术Hadoop平台下的任务调度方法实施例的流程图。如图1所示,该
方法包括以下步骤:
[0027]步骤S110:对每个待处理任务在MapReduce分布式计算框架的映射阶段的处理耗时和归约阶段的混洗时期以及排序时期的处理耗时进行预估。
[0028]在本专利技术中,通过对reduce(归约,下文中相同)阶段中shuffle(混洗,下文中相同)时期以及sort(排序,下文中相同)时期的处理耗时进行预估,可以准确的确定reduce阶段的任务处理所需时长,进而有利于合理的进行任务调度。
[0029]其中,map(映射,下文中相同)阶段的处理耗时是指在map阶段即将处理任务的耗时,reduce阶段的shuffle时期和sort时期分别的处理耗时是指即将在reduce阶段进行复制和排序的任务的耗时。
[0030]步骤S120:根据该映射阶段的处理耗时以及归约阶段中混洗时期以及排序时期的处理耗时对任务队列中的多个待处理任务进行重排本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种Hadoop平台下的任务调度方法,包括:对每个待处理任务在MapReduce分布式计算框架的映射阶段的处理耗时和归约阶段的混洗时期以及排序时期的处理耗时进行预估;根据所述映射阶段的处理耗时以及归约阶段中混洗时期以及排序时期的处理耗时对任务队列中的多个待处理任务进行重排序处理;根据重排序结果将待处理任务调度给执行节点以供进行任务处理。2.根据权利要求1所述的方法,其中,所述根据所述映射阶段的处理耗时以及归约阶段中混洗时期以及排序时期的处理耗时对任务队列中的多个待处理任务进行重排序处理进一步包括:将当前待处理任务之后的至少一个待处理任务在所述映射阶段的处理耗时,分别与当前待处理任务在归约阶段的混洗时期和排序时期的处理耗时之和进行比较,得到对应至少一个待处理任务的至少一个第一时间差值;和/或,将所述当前待处理任务之后的至少一个待处理任务在所述映射阶段的处理耗时,与当前待处理任务在归约阶段的混洗时期的处理耗时进行比较,得到对应至少一个待处理任务的至少一个第二时间差值;根据所述对应至少一个待处理任务的第一时间差值和/或对应至少一个待处理任务的第二时间差值对任务队列中至少一个待处理任务进行重排序处理。3.根据权利要求2所述的方法,其中,所述根据所述对应至少一个待处理任务的第一时间差值和/或对应至少一个待处理任务的第二时间差值对任务队列中至少一个待处理任务进行重排序处理进一步包括:若所述至少一个待处理任务中对应前若干个待处理任务的第一时间差值小于0,且对应前若干个待处理任务的第二时间差值小于0时,判断所述前若干个待处理任务之后是否连续存在满足预设条件的一个或多个优先待处理任务,若是,则将所述一个或多个优先待处理任务调整至所述前若干个待处理任务之前。4.根据权利要求3所述的方法,其中,所述判断所述前若干个待处理任务之后是否连续存在满足预设条件的一个或多个优先待处理任务进一步包括:判断所述前若干个待处理任务之后连续的一个或多个待处理任务的数据量是否小于预设数据量,若是,则判定所述一个或多个待处理任务为满足预设条件的一个或多个优先待处理任务;和/或,判断所述前若干个待处理任务之后连续的一个或多个待处理任务在映射阶段的处理耗时是否小于或等于预设耗时,若是,则判定所述一个或多个...

【专利技术属性】
技术研发人员:马超
申请(专利权)人:中国移动通信集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1