【技术实现步骤摘要】
本专利技术涉及数据业务处理
,尤其涉及一种基于生命周期模型的互联网大数据任务调度的系统及方法。
技术介绍
大数据技术是近年来发展极为迅速的一个领域,是支撑现代互联网广告、电子商务以及020等主流互联网业务的重要基石。以互联网广告业务为例,仅2011至2014年,互联网广告的市场规模已经超过了报纸广告规模,名列第二位,市场规模连续保持高速增长。互联网业务的持续火热增长不断推动大数据技术的发展。目前,主流的大数据解决方案是基于Hadoop集群的HDFS的分布式存储加上MapReduce、Spark等分布式计算引擎。大数据生产业务一般分为如下环节:(1)ETL数据入库,将外部数据导入集群,并做数据抽取、清洗变换,并加载到大数据仓库;(2)业务数据分析,在ETL环节产出的基础数据上,结合业务进行各种分析以及高层信息抽取;(3)业务监控和分析报表,根据业务高层分析数据,给出业务监控所需的时间序列数据已经汇总报表数据;(4)机器学习模型训练,针对业务,训练机器学习模型,进行分类、回归预测等任务;(5)业务数据生产,产出业务所需的数据。一个互联网业务的背后,通常有成千上万的大数据分析处理任务作为支撑,而这些数据任务之间的关系错综复杂,需要一套任务调度系统进行管理。任务调度器的主要工作包括但不限于:(1)提供数据任务的执行监控和报警功能;(2)在数据任务彼此相互依赖时,提供依赖检查,确保每个数据任务运行时,其前置依赖任务都 ...
【技术保护点】
一种基于生命周期模型的互联网大数据任务调度的系统,其特征在于,包括:A、数据任务生命周期模型:数据任务生命周期包括:数据需求阶段:需求人员提出数据需求;数据开发阶段:开发人员完成数据任务的设计;数据执行阶段:运维人员完成数据任务的上线、执行和监控;数据执行结果阶段:运维人员进行数据任务执行结果的回溯和修正;B、基于数据任务生命周期模型的任务表达方法:所述任务表达方法包括数据任务声明、数据任务定义、数据任务实例的表达方法,分别为:任务声明=任务名(形参列表);任务定义=任务名(形参列表)→[依赖名1(依赖形参1),依赖名2(依赖形参2)…];任务实例=任务名(实参列表)→[依赖名1(依赖实参1),依赖名2(依赖实参2)…];C、任务调度系统,包括:界面层、存储层、元数据层和执行层;所述界面层用来储存和管理任务声明;所述存储层用来存储和管理任务定义和任务的实现代码;所述元数据层用来存储和管理任务实例,元数据层将任务实例以及任务实例之间的依赖关系抽象成一张属性图,属性图中的节点表示任务实例,节点属性包括任务实例的参数;属性图中的边表示任务实例之间的依赖关系;所述的执行层用来调度属性图中需要执 ...
【技术特征摘要】
1.一种基于生命周期模型的互联网大数据任务调度的系统,其特征在于,包括:
A、数据任务生命周期模型:数据任务生命周期包括:
数据需求阶段:需求人员提出数据需求;
数据开发阶段:开发人员完成数据任务的设计;
数据执行阶段:运维人员完成数据任务的上线、执行和监控;
数据执行结果阶段:运维人员进行数据任务执行结果的回溯和修正;
B、基于数据任务生命周期模型的任务表达方法:所述任务表达方法包括数据任务声明、
数据任务定义、数据任务实例的表达方法,分别为:
任务声明=任务名(形参列表);
任务定义=任务名(形参列表)→[依赖名1(依赖形参1),依赖名2(依赖形参2)…];
任务实例=任务名(实参列表)→[依赖名1(依赖实参1),依赖名2(依赖实参2)…];
C、任务调度系统,包括:界面层、存储层、元数据层和执行层;
所述界面层用来储存和管理任务声明;
所述存储层用来存储和管理任务定义和任务的实现代码;
所述元数据层用来存储和管理任务实例,元数据层将任务实例以及任务实例之间的依赖
关系抽象成一张属性图,属性图中的节点表示任务实例,节点属性包括任务实例的参数;属
性图中的边表示任务实例之间的依赖关系;
所述的执行层用来调度属性图中需要执行的任务实例。
2.根据权利要求1所述的一种基于生命周期模型的互联网大数据任务调度的系统,其特征在
于,所述执行层中由用于任务分发的主节点和用于任务处理的工作节点构成,所述主节点检
测元数据层,...
【专利技术属性】
技术研发人员:汤奇峰,侯杰,
申请(专利权)人:上海晶赞科技发展有限公司,
类型:发明
国别省市:上海;31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。