一种job控制方法及装置制造方法及图纸

技术编号:15541180 阅读:56 留言:0更新日期:2017-06-05 10:42
本发明专利技术公开了一种job控制方法及装置,该方法包括:针对接入大数据平台的每个数据源,根据kafka消息队列中保存的每个数据源的状态信息,识别是否每个数据源都处于停止状态;如果是,关闭解析job和/或入库job。由于在本发明专利技术实施例中,根据kafka消息队列中保存的每个数据源的状态信息,识别是否每个数据源都处于停止状态,如果是,关闭解析job和/或入库job,节约了处理资源,减少了用户的损失。

Job control method and device

The invention discloses a job control method and device, the method includes: for each data source access large data platform, according to the state information of each data source Kafka stored in the message queue, identify whether each data source is in a stopped state; if it is closed, analytical and / or job storage job. In the embodiment of the invention, according to the state information of each data source Kafka stored in the message queue, identify whether each data source is in a stopped state, if it is closed, analytical and / or job storage job, save processing resources, reduce the loss of users.

【技术实现步骤摘要】
一种job控制方法及装置
本专利技术涉及数据分析
,特别涉及一种作业job控制方法及装置。
技术介绍
随着科学的进步,时代的发展,数据量增涨呈现爆炸态势,每几年就会翻一番。大量的数据中包含着诸多有价值的信息,上至国家经济走向、发展趋势,下至每个网关传输的数据是否正常,因此,大数据处理平台应运而生。大数据处理平台中的数据是由不同的数据源产生的,针对每个数据源,运行解析作业(job)和入库job,从而对该数据源产生的数据进行解析入库操作,解析入库后的数据可供大数据处理平台中的数据分析、数据挖掘应用进行数据的分析和挖掘,从中找出用户需要的信息,为用户的决策、制定发展战略等提供支持。然而,现有技术中如果存在接入的数据源,无论该数据源是否处于启动状态,解析job和/或入库job一直处于运行状态,造成处理资源的浪费,给用户带来了损失。
技术实现思路
本专利技术提供一种job控制方法及装置,用以解决现有技术中无论数据源是否处于启动状态,对应的解析job和/或入库job一直处于运行状态,造成处理资源的浪费的问题。为达到上述目的,本专利技术实施例公开了一种作业job控制方法,所述方法包括:针对接入大数据平台的每个数据源,根据kafka消息队列中保存的每个数据源的状态信息,识别是否每个数据源都处于停止状态;如果是,关闭解析job和/或入库job。进一步地,所述方法还包括:根据kafka消息队列中保存的每个数据源的状态信息,识别是否存在处于启动状态的数据源;如果是,开启解析job和/或入库job。进一步地,如果当前存在处于启动状态的数据源,所述方法还包括:判断解析job和/或入库job是否针对该数据源发送的数据进行解析和/或入库操作;如果否,控制解析job和/或入库job对该数据源发送的数据进行解析和/或入库操作。进一步地,所述控制解析job和/或入库job对该数据源发送的数据进行解析和/或入库操作包括:重启所述解析job和/或入库job,采用重启后的解析job和/或入库job对处于启动状态的数据源发送的数据进行解析和/或入库操作。进一步地,所述根据kafka消息队列中保存的每个数据源的状态信息,识别是否每个数据源都处于停止状态之前,所述方法还包括:根据用户对每个数据源启动或停止的设置指令,生成每个数据源对应的状态信息保存到所述kafka消息队列中。本专利技术实施例公开了一种作业job控制装置,所述装置包括:识别模块,用于针对接入大数据平台的每个数据源,根据kafka消息队列中保存的每个数据源的状态信息,识别是否每个数据源都处于停止状态;关闭模块,用于如果识别模块识别到每个数据源都处于停止状态,关闭解析job和/或入库job。进一步地,所述识别模块,还用于根据kafka消息队列中保存的每个数据源的状态信息,识别是否存在处于启动状态的数据源;所述装置还包括:开启模块,用于如果所述识别模块识别到当前存在处于启动状态的数据源,开启解析job和/或入库job。进一步地,所述装置还包括:判断模块,用于如果当前存在处于启动状态的数据源,判断解析job和/或入库job是否针对该数据源发送的数据进行解析和/或入库操作;控制模块,用于如果判断模块的判断结果为否,控制解析job和/或入库job对该数据源发送的数据进行解析和/或入库操作。进一步地,所述控制模块,具体用于重启所述解析job和/或入库job,采用重启后的解析job和/或入库job对处于启动状态的数据源发送的数据进行解析和/或入库操作。进一步地,所述装置还包括:生成模块,用于根据用户对每个数据源启动或停止的设置指令,生成每个数据源对应的状态信息保存到所述kafka消息队列中。本专利技术实施例公开了一种job控制方法及装置,该方法包括:针对接入大数据平台的每个数据源,根据kafka消息队列中保存的每个数据源的状态信息,识别是否每个数据源都处于停止状态;如果是,关闭解析job和/或入库job。由于在本专利技术实施例中,根据kafka消息队列中保存的每个数据源的状态信息,识别是否每个数据源都处于停止状态,如果是,关闭解析job和/或入库job,节约了处理资源,减少了用户的损失。附图说明图1为本专利技术实施例提供的一种大数据处理平台对数据源的数据进行解析入库操作的过程示意图;图2为本专利技术实施例1提供的一种job控制过程示意图;图3为本专利技术实施例2提供的一种job控制过程示意图;图4为本专利技术实施例3提供的一种job控制过程示意图;图5为本专利技术实施例4提供的一种job控制过程示意图;图6为本专利技术实施例提供的一种job控制装置结构示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。图1为本专利技术实施例提供的一种大数据处理平台对数据源的数据进行解析入库操作的过程示意图,针对每个接入的数据源(DataSource),都由大数据处理平台中的作业控制系统(jobManager)来配置每个数据源对应的解析job和入库job需要的资源,并且默认在jobManager中的解析job和入库job不启动,只有当数据源处于启动状态时,才开启解析job和入库job,并将该数据源发送的数据进过解析后,分别存入数据仓库(Hive)及弹性搜索(ElasticSearch,ES)中。具体的,在jobManager中建立有分布式消息订阅系统(Kafka),在Kafka中针对每个数据源都对应着一个标题(topic),并建立有对数据源发送的数据进行解析和入库的解析job和入库job,其中入库job包括入ESjob和入Hivejob,并将解析后的数据存入对应的Hive和ES中。例如:针对DataSource1,会将对DataSource1的开启、关闭的操作消息写入到topic中去,启动DataSource1时,topic中记录的DataSource1为启动状态,解析job和入库job针对DataSource1发送的数据进行解析和入库操作。在jobManager中默认所有的数据源公用一套资源配置,但是每个数据源接入的数据量不同,因此需要配备的资源也不同,jobManager提供对单个数据源的个性化配置功能,其中针对单个数据源的个性化配置为用户或运维人员预先创建的。当数据源存在数据操作时,jobManager会检测是否存在该数据源对应的个性化配置文件,如果存在则加载个性化配置文件,如果不存在则使用公用配置common.xml,具体的检测示例如下:实施例1:图2为本专利技术实施例提供的一种job控制过程示意图,该过程包括:S201:针对接入大数据平台的每个数据源,根据kafka消息队列中保存的每个数据源的状态信息,识别是否每个数据源都处于停止状态,如果是,进行S202,如果否,结束。本专利技术实施例中数据源包括交换机、路由器、网关等网络设备,防火墙、防毒墙等安全软件,还包括身份认证系统、邮件系统、企业资源计划系统等数据系统。在大数据处理项目中,大数据处理平台的主要功能是将接入进来的不同数据源的数据进行解析,并将解析后的数据存入Hive及E本文档来自技高网...
一种job控制方法及装置

【技术保护点】
一种作业job控制方法,其特征在于,所述方法包括:针对接入大数据平台的每个数据源,根据kafka消息队列中保存的每个数据源的状态信息,识别是否每个数据源都处于停止状态;如果是,关闭解析job和/或入库job。

【技术特征摘要】
1.一种作业job控制方法,其特征在于,所述方法包括:针对接入大数据平台的每个数据源,根据kafka消息队列中保存的每个数据源的状态信息,识别是否每个数据源都处于停止状态;如果是,关闭解析job和/或入库job。2.如权利要求1所述的方法,其特征在于,所述方法还包括:根据kafka消息队列中保存的每个数据源的状态信息,识别是否存在处于启动状态的数据源;如果是,开启解析job和/或入库job。3.如权利要求1所述的方法,其特征在于,如果当前存在处于启动状态的数据源,所述方法还包括:判断解析job和/或入库job是否针对该数据源发送的数据进行解析和/或入库操作;如果否,控制解析job和/或入库job对该数据源发送的数据进行解析和/或入库操作。4.如权利要求3所述的方法,其特征在于,所述控制解析job和/或入库job对该数据源发送的数据进行解析和/或入库操作包括:重启所述解析job和/或入库job,采用重启后的解析job和/或入库job对处于启动状态的数据源发送的数据进行解析和/或入库操作。5.如权利要求1所述的方法,其特征在于,所述根据kafka消息队列中保存的每个数据源的状态信息,识别是否每个数据源都处于停止状态之前,所述方法还包括:根据用户对每个数据源启动或停止的设置指令,生成每个数据源对应的状态信息保存到所述kafka消息队列中。6.一种作业job控制装置...

【专利技术属性】
技术研发人员:何彪郑钧元
申请(专利权)人:北京神州绿盟信息安全科技股份有限公司北京神州绿盟科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1