基于Web数据交互管理Hive的方法及其系统技术方案

技术编号:17939301 阅读:34 留言:0更新日期:2018-05-15 19:49
本发明专利技术涉及基于Web数据交互管理Hive的方法及其系统,该方法包括登录Web管理页面,创建任务,对任务进行分组,创建任务组;到达指定时间激活任务,由任务组类型选择器读取待执行的任务组信息,根据任务组的属性选择特定的任务组执行器;任务组执行器执行任务组内的子节点任务;实时记录任务、任务组的详细日志信息。本发明专利技术通过利用Web管理页面建立任务并分组,利用任务组类型选择器读取信息,调用任务组执行器执行子节点任务,实时记录任务、任务组的详细日志信息,方便、有效地管理大量的Hive任务,不需要编写重复的任务管理程序,提高Hive任务创建和执行的效率,节省维护人员的维护时间,登录Web页面即可使用,不需具备编写Shell或Python脚本能力,降低人力成本。

【技术实现步骤摘要】
基于Web数据交互管理Hive的方法及其系统
本专利技术涉及任务管理的
,更具体地说是指基于Web数据交互管理Hive的方法及其系统。
技术介绍
Hadoop实现了一个分布式文件系统(HadoopDistributedFileSystem),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(highthroughput)来访问应用程序的数据,适合那些有着超大数据集(largedataset)的应用程序。Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的SQL查询功能,可以将SQL语句转换为MapReduce任务运行。其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。Hive脚本常见的管理方式是可以使用Shell脚本,如可以编写以下脚本(test.sh):hive-ftest1.sql;hive-ftest2.sql;然后执行shtest.sh,即可以执行test1和test2这两个Hive任务。即使用Hive任务的管理大多是编写好脚本文件,然后使用Python或者Shell等脚本进行执行和管理,对于少量的任务执行比较方便,但是不便于管理过多的Hive任务,需要编写大量重复的脚本,也很难实现复杂的任务流程化处理,并且对任务的执行状态、是否发生错误等信息无法实时监控,日志信息也无法清晰地查看,这样维护人员不仅需要消耗大量的维护时间,还需要具备Python或者Shell等相关知识的处理能力,增大了维护人员的技术门槛,极大地降低了工作效率。因此,有必要设计一种基于Web数据交互管理Hive的方法,实现方便、有效地管理大量的Hive任务,不需要编写重复的任务管理程序,极大地提高了Hive任务创建和执行的效率,节省了维护人员的维护时间,提高工作效率。
技术实现思路
本专利技术的目的在于克服现有技术的缺陷,提供基于Web数据交互管理Hive的方法及其系统。为实现上述目的,本专利技术采用以下技术方案:基于Web数据交互管理Hive的方法,包括以下步骤:登录Web管理页面,创建任务,对任务进行分组,创建任务组;到达指定时间激活任务,由任务组类型选择器读取待执行的任务组信息,根据任务组的属性选择特定的任务组执行器;任务组执行器执行任务组内的子节点任务;实时记录任务、任务组的详细日志信息。其进一步技术方案为:所述登录Web管理页面,创建任务,对任务进行分组,创建任务组的步骤,包括以下具体步骤:登录Web管理页面,填写任务名称、任务介绍以及上传任务要执行的脚本;对任务进行分组,形成任务组,并选择每个任务组的任务的执行模式是顺序执行模式或者随机执行模式;若选择本组任务顺序执行,定义任务组内各子节点任务的顺序。其进一步技术方案为:所述到达指定时间激活任务,由任务组类型选择器读取待执行的任务组信息,根据任务组的属性选择特定的任务组执行器的步骤,包括以下具体步骤:到达指定时间激活任务,任务组类型选择器读取解析任务组的信息和组内的子节点任务列表,生成一个任务列表;任务组类型选择器执行所需要的脚本文件通过FTP上传到指定的Hive服务器;任务组类型选择器根据任务列表树信息开始调用任务执行器,执行任务组中的子节点任务。其进一步技术方案为:所述任务组执行器执行任务组内的子节点任务的步骤中,还包括调用Ant远程登录主机,并执行Hive任务组内的任务。其进一步技术方案为:所述任务组执行器执行任务组内的子节点任务的步骤,包括以下具体步骤:判断任务组选择的执行模式是否是顺序执行模式;若任务组选择的执行模式是顺序执行模式,按照设置的顺序执行任务组内的各个子节点任务;若任务组选择的执行模式不是顺序执行模式,随机执行任务组内的各个子节点任务。其进一步技术方案为:所述若任务组选择的执行模式是顺序执行模式,按照设置的顺序执行任务组内的各个子节点任务的步骤,还包括判断顺序执行是否成功,若顺序执行成功,继续执行下一个子节点任务,直至全部子节点任务执行完成;若顺序执行失败,终止此任务组的子节点任务执行,并标志为该任务组此次执行失败。其进一步技术方案为:所述若任务组选择的执行模式不是顺序执行模式,随机执行任务组内的各个子节点任务的步骤,具体的,不管任务组内某一子节点任务是执行成功或是失败,仍然继续执行下一个子节点任务,直到全部子节点任务执行完毕。其进一步技术方案为:所述实时记录任务、任务组的详细日志信息的步骤之后,还包括每隔一定时间监控并分析新产生的错误日志,判断是否有错误,若发现有错误,则立即发送邮件通知管理者,并将此错误日志转移至历史的错误日志数据中。本专利技术还提供了基于Web数据交互管理Hive的系统,包括Web管理单元、任务组类型选择器、任务组执行器以及记录单元;所述Web管理单元,用于登录后创建任务,对任务进行分组,创建任务组,与所述任务组类型选择器连接;所述任务组类型选择器,用于到达指定时间激活任务,由读取待执行的任务组信息,根据任务组的属性选择特定的任务组执行器,与所述任务组执行器连接;所述任务组执行器,用于执行任务组内的子节点任务,与所述记录单元连接;所述记录单元,用于实时记录任务、任务组的详细日志信息。其进一步技术方案为:所述任务组类型选择器包括读取模块、上传模块以及调用模块;所述读取模块,用于读取解析任务组的信息和组内的子节点任务列表,生成一个任务列表,与所述上传模块连接;所述上传模块,用于执行所需要的脚本文件通过FTP上传到指定的Hive服务器,与所述调用模块;所述调用模块,用于根据任务列表树信息开始调用任务执行器,执行任务组中的子节点任务;所述任务组执行器包括判断模块、顺序执行模块以及随机执行模块;所述判断模块,用于判断任务组选择的执行模式是否是顺序执行模式,与所述调用模块连接;所述顺序执行模块,若任务组选择的执行模式是顺序执行模式,用于按照设置的顺序执行任务组内的各个子节点任务,分别与所述判断模块与所述记录单元连接;所述随机执行模块,若任务组选择的执行模式不是顺序执行模式,用于随机序执行任务组内的各个子节点任务,与所述判断模块以及所述记录单元连接。本专利技术与现有技术相比的有益效果是:本专利技术的基于Web数据交互管理Hive的方法,通过利用Web管理页面建立任务并分组,利用任务组类型选择器读取信息,并调用任务组执行器执行子节点任务,实时记录任务、任务组的详细日志信息,方便、有效地管理大量的Hive任务,不需要编写重复的任务管理程序,极大地提高了Hive任务创建和执行的效率,节省了维护人员的维护时间,使用者登录Web页面即可使用,不需额外具备编写Shell或Python脚本的能力,降低了人力成本。下面结合附图和具体实施例对本专利技术作进一步描述。附图说明图1为本专利技术具体实施例提供的基于Web数据交互管理Hive的方法的流程框图;图2为本专利技术具体实施例提供的任务组树状结构图;图3为本专利技术具体实施例提供的Hive任务分组管理的结构图;图4为本专利技术具体实施例提供的创建任务以及任务组的具体流程框图;图5为本专利技术具体实施例提供的任务组类型选择器读取信息并调用本文档来自技高网
...
基于Web数据交互管理Hive的方法及其系统

【技术保护点】
基于Web数据交互管理Hive的方法,其特征在于,包括以下步骤:登录Web管理页面,创建任务,对任务进行分组,创建任务组;到达指定时间激活任务,由任务组类型选择器读取待执行的任务组信息,根据任务组的属性选择特定的任务组执行器;任务组执行器执行任务组内的子节点任务;实时记录任务、任务组的详细日志信息。

【技术特征摘要】
1.基于Web数据交互管理Hive的方法,其特征在于,包括以下步骤:登录Web管理页面,创建任务,对任务进行分组,创建任务组;到达指定时间激活任务,由任务组类型选择器读取待执行的任务组信息,根据任务组的属性选择特定的任务组执行器;任务组执行器执行任务组内的子节点任务;实时记录任务、任务组的详细日志信息。2.根据权利要求1所述的基于Web数据交互管理Hive的方法,其特征在于,所述登录Web管理页面,创建任务,对任务进行分组,创建任务组的步骤,包括以下具体步骤:登录Web管理页面,填写任务名称、任务介绍以及上传任务要执行的脚本;对任务进行分组,形成任务组,并选择每个任务组的任务的执行模式是顺序执行模式或者随机执行模式;若选择本组任务顺序执行,定义任务组内各子节点任务的顺序。3.根据权利要求1所述的基于Web数据交互管理Hive的方法,其特征在于,所述到达指定时间激活任务,由任务组类型选择器读取待执行的任务组信息,根据任务组的属性选择特定的任务组执行器的步骤,包括以下具体步骤:到达指定时间激活任务,任务组类型选择器读取解析任务组的信息和组内的子节点任务列表,生成一个任务列表;任务组类型选择器执行所需要的脚本文件通过FTP上传到指定的Hive服务器;任务组类型选择器根据任务列表树信息开始调用任务执行器,执行任务组中的子节点任务。4.根据权利要求1所述的基于Web数据交互管理Hive的方法,其特征在于,所述任务组执行器执行任务组内的子节点任务的步骤中,还包括调用Ant远程登录主机,并执行Hive任务组内的任务。5.根据权利要求1至4任一项所述的基于Web数据交互管理Hive的方法,其特征在于,所述任务组执行器执行任务组内的子节点任务的步骤,包括以下具体步骤:判断任务组选择的执行模式是否是顺序执行模式;若任务组选择的执行模式是顺序执行模式,按照设置的顺序执行任务组内的各个子节点任务;若任务组选择的执行模式不是顺序执行模式,随机执行任务组内的各个子节点任务。6.根据权利要求5所述的基于Web数据交互管理Hive的方法,其特征在于,所述若任务组选择的执行模式是顺序执行模式,按照设置的顺序执行任务组内的各个子节点任务的步骤,还包括判断顺序执行是否成功,若顺序执行成功,继续执行下一个子节点任务,直至全部子节点任务执...

【专利技术属性】
技术研发人员:陈宏伦余松明邓龙亮汪春满
申请(专利权)人:广东亿迅科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1