一种基于生命周期模型的互联网大数据任务调度的系统及方法技术方案

技术编号:13332747 阅读:67 留言:0更新日期:2016-07-12 02:06
一种基于生命周期模型的互联网大数据任务调度的系统及方法,调度系统的构建过程包括:通过建立数据任务生命周期模型、设计基于数据任务生命周期模型的任务表达方法、构建任务调度系统,任务调度系统,包括:界面层、存储层、元数据层和执行层。元数据层将任务实例以及任务实例之间的依赖关系抽象成一张属性图,属性图中的节点表示任务实例,节点属性包括任务实例的参数;属性图中的边表示任务实例之间的依赖关系;通过属性图来调度任务实例。本发明专利技术可自动推导任务依赖关系,自动化程度更高、可靠性更好。数据任务开发完成后,只需要提交不同的实例化参数,即可控制任务执行,效率更高、更智能化。

【技术实现步骤摘要】

本专利技术涉及数据业务处理
,尤其涉及一种基于生命周期模型的互联网大数据任务调度的系统及方法
技术介绍
大数据技术是近年来发展极为迅速的一个领域,是支撑现代互联网广告、电子商务以及020等主流互联网业务的重要基石。以互联网广告业务为例,仅2011至2014年,互联网广告的市场规模已经超过了报纸广告规模,名列第二位,市场规模连续保持高速增长。互联网业务的持续火热增长不断推动大数据技术的发展。目前,主流的大数据解决方案是基于Hadoop集群的HDFS的分布式存储加上MapReduce、Spark等分布式计算引擎。大数据生产业务一般分为如下环节:(1)ETL数据入库,将外部数据导入集群,并做数据抽取、清洗变换,并加载到大数据仓库;(2)业务数据分析,在ETL环节产出的基础数据上,结合业务进行各种分析以及高层信息抽取;(3)业务监控和分析报表,根据业务高层分析数据,给出业务监控所需的时间序列数据已经汇总报表数据;(4)机器学习模型训练,针对业务,训练机器学习模型,进行分类、回归预测等任务;(5)业务数据生产,产出业务所需的数据。一个互联网业务的背后,通常有成千上万的大数据分析处理任务作为支撑,而这些数据任务之间的关系错综复杂,需要一套任务调度系统进行管理。任务调度器的主要工作包括但不限于:(1)提供数据任务的执行监控和报警功能;(2)在数据任务彼此相互依赖时,提供依赖检查,确保每个数据任务运行时,其前置依赖任务都已经完成;(3)任务批次管理和回溯。一般任务调度系统通常使用DAG描述任务之间的依赖关系,并计算任务的执行顺序。目前常见的任务调度系统有:(1)oozie:一款开源的工作流引擎,主要用来管理hadoop任务。Oozie将hadoop任务抽象成一个有向无环图(DAG),并按照DAG上的依赖关系,将任务发布到Hadoop上执行。(2)Azkaban:也是一款开源工作流引擎,不同于Oozie的是,Azkaban提供用户友好的图形化环境,能够更快更有效的设置和编辑工作流。上述数据任务调度系统目前存在如下问题:(一)使用困难,用户难以直接有效的和系统交互;(二)缺乏严格的调度逻辑,虽然都通过有向无环图(DAG)进行任务依赖的管理,但实际调度作业中,难以在DAG上进行状态跟踪和恢复;(三)目前主流任务调度器均是通过人工直接定义DAG的方式,来进行任务调度。这样做的一个主要弊端是DAG定义过程复杂,并且容易出错。
技术实现思路
本专利技术的目的是针对现有技术的不足,提供一种一种基于生命周期模型的互联网大数据任务调度的系统及方法。本专利技术的目的是通过以下技术方案实现的:本专利技术的第一个目的是构建一种基于生命周期模型的互联网大数据任务调度的系统,包括:A、建立数据任务生命周期模型:数据任务生命周期包括:数据需求阶段:需求人员提出数据需求;数据开发阶段:开发人员完成数据任务的设计;数据执行阶段:运维人员完成数据任务的上线、执行和监控;数据执行结果阶段:运维人员进行数据任务执行结果的回溯和修正。B、设计一种基于数据任务生命周期模型的任务表达方法:所述任务表达方法包括数据任务声明、数据任务定义、数据任务实例的表达方法,分别为:任务声明=任务名(形参列表);任务定义=任务名(形参列表)→[依赖名1(依赖形参1),依赖名2(依赖形参2)…];任务实例=任务名(实参列表)→[依赖名1(依赖实参1),依赖名2(依赖实参2)…]。C、构建任务调度系统,包括:界面层、存储层、元数据层和执行层;所述界面层用来储存和管理任务声明;所述存储层用来存储和管理任务定义和任务的实现代码;所述元数据层用来存储和管理任务实例,元数据层将任务实例以及任务实例之间的依赖关系抽象成一张属性图,属性图中的节点表示任务实例,节点属性包括任务实例的参数;属性图中的边表示任务实例之间的依赖关系;所述的执行层用来调度属性图中需要执行的任务实例。上述的一种基于生命周期模型的互联网大数据任务调度的系统,其中,所述执行层中由用于任务分发的主节点和用于任务处理的工作节点构成,所述主节点检测元数据层,将可执行的任务实例分发给工作节点。上述的一种基于生命周期模型的互联网大数据任务调度的系统,其中,所述工作节点包含存储层发送的实现代码。本专利技术的第二个目的是提供一种基于生命周期模型的互联网大数据任务调度的方法,是基于上述的一种基于生命周期模型的互联网大数据任务调度的系统的调度方法,步骤包括:(1)运维人员或者采用自动化脚本触发某个任务实例执行;(2)解析任务实例,获取任务实参,并通过任务实参推导依赖任务;(3)检查依赖任务是否存在,若存在并已完成,则调度运行任务实例,任务实例进入“就绪”状态;若存在但未完成,则任务实例进入“等待”状态;若依赖任务不存在,则创建任务实例,并触发执行层执行依赖任务;(5)执行层检查集群资源空闲情况,若有资源可用,则从元数据层的属性图中取等待时间最长的任务实例进入集群执行。上述的一种基于生命周期模型的互联网大数据任务调度的方法,还包括根据元数据层的属性图推导任务实例对应的属性图子图,根据任务实例的属性图子图调度任务实例,步骤包括:(1)解析任务实例,读取任务实例的任务名和任务实参;(2)根据任务实例的任务名,从存储层获取对应的任务定义;(3)根据任务定义,获取任务依赖的依赖名和依赖形参,带入实参,得到任务依赖的任务实例;(5)以该任务实例以及依赖的任务实例为节点,以依赖关系为边,构建属性图子图。综上所述,由于采用了上述技术方案,本专利技术与现有技术相比,有如下优点和突出效果:(1)通过建立数据任务生命周期模型和基于生命周期模型的统一任务表达方法,可自动推导任务依赖关系,构建任务依赖属性图。相比传统手动构建DAG的方式,自动化程度更高、可靠性更好。(2)实例化任务、基于依赖关系的属性图的调度任务实例,可更合理的利用集群资源。(3)数据任务开发完成后,只需要提交不同的实例化参数,即可控制任务执行,效率更高、更智能化。附图说明图1是本专利技术一种基于生命周期模型的互联网大数据任务调度的系统及方法的原理图。图2是本专利技术的数据任务生命周期模型原理图。图3是本专利技术的任务实例的状态转移过程示意图。图4是本专利技术的执行层与元数据层、存储层的交互的原理图。图5是本专利技术的执行层、元数据层、存储层的交互的原理图。具体实施方式下面结合附图对本专利技术的具体实施方式本文档来自技高网
...

【技术保护点】
一种基于生命周期模型的互联网大数据任务调度的系统,其特征在于,包括:A、数据任务生命周期模型:数据任务生命周期包括:数据需求阶段:需求人员提出数据需求;数据开发阶段:开发人员完成数据任务的设计;数据执行阶段:运维人员完成数据任务的上线、执行和监控;数据执行结果阶段:运维人员进行数据任务执行结果的回溯和修正;B、基于数据任务生命周期模型的任务表达方法:所述任务表达方法包括数据任务声明、数据任务定义、数据任务实例的表达方法,分别为:任务声明=任务名(形参列表);任务定义=任务名(形参列表)→[依赖名1(依赖形参1),依赖名2(依赖形参2)…];任务实例=任务名(实参列表)→[依赖名1(依赖实参1),依赖名2(依赖实参2)…];C、任务调度系统,包括:界面层、存储层、元数据层和执行层;所述界面层用来储存和管理任务声明;所述存储层用来存储和管理任务定义和任务的实现代码;所述元数据层用来存储和管理任务实例,元数据层将任务实例以及任务实例之间的依赖关系抽象成一张属性图,属性图中的节点表示任务实例,节点属性包括任务实例的参数;属性图中的边表示任务实例之间的依赖关系;所述的执行层用来调度属性图中需要执行的任务实例。...

【技术特征摘要】
1.一种基于生命周期模型的互联网大数据任务调度的系统,其特征在于,包括:
A、数据任务生命周期模型:数据任务生命周期包括:
数据需求阶段:需求人员提出数据需求;
数据开发阶段:开发人员完成数据任务的设计;
数据执行阶段:运维人员完成数据任务的上线、执行和监控;
数据执行结果阶段:运维人员进行数据任务执行结果的回溯和修正;
B、基于数据任务生命周期模型的任务表达方法:所述任务表达方法包括数据任务声明、
数据任务定义、数据任务实例的表达方法,分别为:
任务声明=任务名(形参列表);
任务定义=任务名(形参列表)→[依赖名1(依赖形参1),依赖名2(依赖形参2)…];
任务实例=任务名(实参列表)→[依赖名1(依赖实参1),依赖名2(依赖实参2)…];
C、任务调度系统,包括:界面层、存储层、元数据层和执行层;
所述界面层用来储存和管理任务声明;
所述存储层用来存储和管理任务定义和任务的实现代码;
所述元数据层用来存储和管理任务实例,元数据层将任务实例以及任务实例之间的依赖
关系抽象成一张属性图,属性图中的节点表示任务实例,节点属性包括任务实例的参数;属
性图中的边表示任务实例之间的依赖关系;
所述的执行层用来调度属性图中需要执行的任务实例。
2.根据权利要求1所述的一种基于生命周期模型的互联网大数据任务调度的系统,其特征在
于,所述执行层中由用于任务分发的主节点和用于任务处理的工作节点构成,所述主节点检
测元数据层,...

【专利技术属性】
技术研发人员:汤奇峰侯杰
申请(专利权)人:上海晶赞科技发展有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1