当前位置: 首页 > 专利查询>山东大学专利>正文

一种动态调整任务分配的流处理作业调度方法及系统技术方案

技术编号:17037494 阅读:25 留言:0更新日期:2018-01-13 22:13
本发明专利技术公开了一种动态调整任务分配的流处理作业调度方法及系统,其中该方法包括主控节点服务器接收流处理作业,按照给定的参考并发度以及集群中可用资源及流处理作业的自身结构,生成初始任务分配方案;在流处理业务运行过程中,各个计算节点服务器将其自身运行状态信息自动汇报至主控节点服务器,由主控节点服务器进行统一汇总及相应聚合操作;主控节点服务器根据聚合操作后的信息预测下一时段的数据平均处理量以及相应资源占用值,进而动态调整在各个计算节点服务器的流处理任务实例,最终生成流处理作业的动态分配方案并分配至相应计算节点服务器。

A flow processing scheduling method and system for dynamically adjusting task allocation

The invention discloses a stream processing scheduling method and system for dynamic adjustment of the task assignment, wherein the method comprises the master node server receives the stream processing operations, in accordance with the structure of a given reference and concurrency in a cluster of available resources and flow of the job itself, the initial task allocation scheme; in the process of business operation process flow each computing node, the server will automatically report its running status information to the master node server, unified collection and corresponding aggregation operations by the master node server; the master node server according to the prediction of the next time after the polymerization operation information data processing capacity and the corresponding average resource value stream processing task instance and dynamic the adjustment in each computing node server, the generated stream processing dynamic allocation operations and allocated to the corresponding meter Calculate the node server.

【技术实现步骤摘要】
一种动态调整任务分配的流处理作业调度方法及系统
本专利技术属于分布式流处理领域,尤其涉及一种动态调整任务分配的流处理作业调度方法及系统。
技术介绍
近年来,随着信息化和互联网的不断发展,大量数据被快速、实时的产生。为了能够快速,高效,即时的对数据中的信息进行获取和分析,流处理系统作为一种数据实时处理系统,受到了广泛的应用。流处理作业作为一种长时间持续运行的作业任务,在运行过程中所处理的数据量通常会随时间发生较大变化。分布式流处理系统中,通常将流处理作业抽象为一个有向无环图。图中的点表示作业的逻辑单元,图中的边表示数据的流向和分组策略。流处理作业运行时,需将有向无环图映射为物理执行图,将作业逻辑单元按照一定并发度展开,形成流处理任务实例,分配至不同的物理节点上。现有的分布式流处理系统大都采用指定并发度的模式运行。这种方式虽然能够以直接简便的方式部署流处理应用,但该种方式存在以下不足之处:当面对变化的数据量时,难以针对作业任务中不同逻辑单元的并发度进行动态的调整。因此,为了应对流处理应用的处理量高峰,需预先计算并分配合适的并发度,从而导致在低负荷运行情况下对集群资源占用的浪费。为了能够减少流处理运行过程中对资源的多余占用,提升集群整体资源利用率,需要引入一种动态的调整机制,以动态使用,动态申请为原则,使分布式流处理系统能够根据数据量的变化,按需使用节点,以动态调整任务分配策略。
技术实现思路
为了解决现有技术的不足,本专利技术提供了一种动态调整任务分配的流处理作业调度方法,其能解决长期运行的流处理作业对集群资源的多余占用,根据流处理作业运行时处理的数据量及负载,动态调整流处理作业的并发度,从而达到最小化资源占用的目的。本专利技术的动态调整任务分配的流处理作业调度方法,该方法适用于分布式集群服务器中,所述分布式集群服务器包括一个主控节点服务器以及与其相互的通讯的若干个计算节点服务器;该动态调整任务分配的流处理作业调度方法,包括:主控节点服务器接收流处理作业,按照给定的参考并发度以及集群中可用资源及流处理作业的自身结构,生成初始任务分配方案;在流处理业务运行过程中,各个计算节点服务器将其自身运行状态信息自动汇报至主控节点服务器,由主控节点服务器进行统一汇总及相应信息聚合操作;主控节点服务器根据聚合操作后的信息预测下一时段的数据平均处理量以及相应资源占用值,进而动态调整在各个计算节点服务器的流处理任务实例,最终生成流任务动态分配方案并分配至相应计算节点服务器。进一步的,该方法还包括:实时存储生成的流任务动态分配方案,并采用事件驱动模型来检测当前分配任务是否发生变化,若是,则将变化后的流任务分配方案实时分配至相应计算节点服务器。进一步的,主控节点服务器接收的流处理作业为有向无环图的形式。其中图中每个点为执行处理流程的逻辑单元,边为逻辑单元之间进行信息传递的通路。进一步的,主控节点服务器生成初始任务分配方案的过程,包括:步骤1.1:分析接收的流处理作业的拓扑结构,利用图搜索算法对流处理中逻辑单元进行排序,获取排序后列表;步骤1.2:利用初始化并发度对上述排序列表按比例展开为任务实例列表;步骤1.3:获取当前集群中可用的计算节点服务器及插槽,对当前集群中可用计算节点服务器按照插槽剩余数目进行升序排序;步骤1.4:将任务实例列表按序分配至可用计算节点服务器上,完成第一步分配;步骤1.5:寻找能够替换当前分配方案的计算节点服务器,使得所使用的计算节点服务器的空余插槽尽可能少,若有,执行替换并重复该步骤,直至完成;步骤1.6:获得流处理作业的初始化分配方案。这样本专利技术能够在没有其他辅助信息的前提下,充分利用流处理作业自身的结构特性,减少初始化分配带来的通信开销,并为后续动态的调度提供调整空间。进一步的,主控节点服务器根据预测数据,检查是否违反物理资源约束,若违反,计算满足需求的相应流处理逻辑单元的并发度,作为新的并发度。本专利技术能够根据流处理业务运行过程中的数据处理量及计算节点负载,利用历史信息及预测信息等多种信息来源,动态监控并调整任务分配策略。进一步的,主控节点服务器利用排队理论,将流数据处理过程看作是一系列排队的过程,数据在逻辑单元上的处理时间以及逻辑单元之间的数据通信时间对数据计算整体时间进行估算,利用信息预测模块的数据量预测值,通过排队理论计算整体排队时间,进而计算出数据流平均处理时间。本专利技术根据给定的不同任务分配方案,快速有效的对现有分配策略进行调整,并最小化调整过程对流处理作业整体带来的影响。本专利技术还提供了一种动态调整作业中任务分配的流处理作业调度系统。本专利技术的一种动态调整作业中任务分配的流处理作业调度系统,包括:主控节点服务器,其被配置为接收流处理作业,按照给定的参考并发度以及集群中可用资源及流处理作业的自身结构,生成初始任务分配方案;若干个分别与主控节点服务器相互通讯的计算节点服务器,在流处理业务运行过程中,计算节点服务器被配置为将其自身运行状态信息自动汇报至主控节点服务器,由主控节点服务器进行统一汇总及相应聚合操作;主控节点服务器,还被配置为根据聚合操作后的信息预测下一时段的数据平均处理量以及相应资源占用值,进而动态调整在各个计算节点服务器的流处理任务实例,最终生成流任务动态分配方案并分配至相应计算节点服务器。进一步的,主控节点服务器还被配置为:分析接收的流处理作业的拓扑结构,利用搜索算法对流处理中逻辑单元进行排序,获取排序后列表;利用初始化并发度对上述排序列表按比例展开为任务实例列表;获取当前集群中可用的计算节点服务器及插槽,对当前集群中可用计算节点服务器按照插槽剩余数目进行升序排序;将任务实例列表按序分配至可用计算节点服务器上,完成第一步分配;寻找能够替换当前分配方案的计算节点服务器,使得所使用的计算节点服务器的空余插槽尽可能少,若有,执行替换并重复该步骤,直至完成;获得流处理作业的初始化分配方案。进一步的,主控节点服务器还被配置为:根据预测数据,检查是否违反物理资源约束,若违反,计算满足需求的相应流处理逻辑单元的并发度,作为新的并发度。进一步的,主控节点服务器还被配置为:利用排队理论,将流数据处理过程看作是一系列排队的过程,数据在逻辑单元上的处理时间以及逻辑单元之间的数据通信时间对数据计算整体时间进行估算,利用信息预测模块的数据量预测值,通过排队理论计算整体排队时间,进而计算出数据流平均处理时间。本专利技术还提供了另一种动态调整作业中任务分配的流处理作业调度系统。本专利技术的另一种动态调整作业中任务分配的流处理作业调度系统,包括:主控节点服务器和若干个分别与主控节点服务器相互通讯的计算节点服务器;所述计算节点服务器包括运行状态汇报模块,其用于将其自身运行状态信息自动汇报至主控节点服务器;所述主控节点服务器包括:任务初始化分配模块,其用于接收流处理作业,按照给定的参考并发度以及集群中可用资源及流处理作业的自身结构,生成初始任务分配方案;及信息汇聚模块,其用于接收节点服务器自身运行状态信息进行统一汇总及相应聚合操作;及信息预测模块,其用于根据聚合操作后的信息预测下一时段的数据平均处理量以及相应资源占用值;及分配方案动态生成模块,其用于动态调整在各个计算节点服务器的流处理作业,最终生成流任务动态分配方案并分配至相应本文档来自技高网...
一种动态调整任务分配的流处理作业调度方法及系统

【技术保护点】
一种动态调整任务分配的流处理作业调度方法,其特征在于,该方法适用于分布式集群服务器中,所述分布式集群服务器包括一个主控节点服务器以及与其相互的通讯的若干个计算节点服务器;该动态调整任务分配的流处理作业调度方法,包括:主控节点服务器接收流处理作业,按照给定的参考并发度以及集群中可用资源及流处理作业的自身结构,生成初始任务分配方案;在流处理业务运行过程中,各个计算节点服务器将其自身运行状态信息自动汇报至主控节点服务器,由主控节点服务器进行统一汇总及相应聚合操作;主控节点服务器根据聚合操作后的信息预测下一时段的数据平均处理量以及相应资源占用值,进而动态调整在各个计算节点服务器的流处理任务实例列表,最终生成流任务动态分配方案并分配至相应计算节点服务器。

【技术特征摘要】
1.一种动态调整任务分配的流处理作业调度方法,其特征在于,该方法适用于分布式集群服务器中,所述分布式集群服务器包括一个主控节点服务器以及与其相互的通讯的若干个计算节点服务器;该动态调整任务分配的流处理作业调度方法,包括:主控节点服务器接收流处理作业,按照给定的参考并发度以及集群中可用资源及流处理作业的自身结构,生成初始任务分配方案;在流处理业务运行过程中,各个计算节点服务器将其自身运行状态信息自动汇报至主控节点服务器,由主控节点服务器进行统一汇总及相应聚合操作;主控节点服务器根据聚合操作后的信息预测下一时段的数据平均处理量以及相应资源占用值,进而动态调整在各个计算节点服务器的流处理任务实例列表,最终生成流任务动态分配方案并分配至相应计算节点服务器。2.如权利要求1所述的一种动态调整任务分配的流处理作业调度方法,其特征在于,该方法还包括:实时存储生成的流任务动态分配方案,并采用事件驱动模型来检测当前分配任务是否发生变化,若是,则将变化后的流任务分配方案实时分配至相应计算节点服务器。3.如权利要求1所述的动态调整任务分配的流处理作业调度方法,其特征在于,主控节点服务器接收的流处理作业为有向无环图的形式。4.如权利要求3所述的动态调整任务分配的流处理作业调度方法,其特征在于,主控节点服务器生成初始任务分配方案的过程,包括:步骤1.1:分析接收的流处理作业的拓扑结构,利用搜索算法对流处理中逻辑单元进行排序,获取排序后列表;步骤1.2:利用初始化并发度对上述排序列表按比例展开为任务实例列表;步骤1.3:获取当前集群中可用的计算节点服务器及插槽,对当前集群中可用计算节点服务器按照插槽剩余数目进行升序排序;步骤1.4:将任务实例列表按序分配至可用计算节点服务器上,完成第一步分配;步骤1.5:寻找能够替换当前分配方案的计算节点服务器,使得所使用的计算节点服务器的空余插槽尽可能少,若有,执行替换并重复该步骤,直至完成;步骤1.6:获得流处理作业的初始化分配方案。5.如权利要求1所述的动态调整任务分配的流处理作业调度方法,其特征在于,主控节点服务器根据预测数据,检查是否违反物理资源约束,若违反,计算满足需求的相应流处理逻辑单元的并发度,作为新的并发度;或/和主控节点服务器利用排队理论,将流数据处理过程看作是一系列排队的过程,数据在逻辑单元上的处理时间以及逻辑单元之间的数据通信时间对数据计算整体时间进行估算,利用信息预测模块的数据量预测值,通过排队理论计算整体排队时间,进而计算出数据流平均处理时间。6.一种动态调整作业中任务分配的流处理作业调度系统,其特征在于,包括:主控节点服务器,其被配置为接收流处理作业,按照给定的参考并发度以及集群中可用资源及流处理作业的自身结构,生成初始任务分配方案;若干个分别与主控节点服务器相互通讯的计算节点服务器,在流处理业务运行过程中,计算节点服务器被配置为将其自身运行状态信息自动汇报...

【专利技术属性】
技术研发人员:陈岳亭禹晓辉
申请(专利权)人:山东大学
类型:发明
国别省市:山东,37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1