本公开提供一种任务数据采集方法与装置,涉及数据处理技术领域。任务数据采集方法包括:为n个子任务建立对应的n个数据收集器;获取所述子任务的执行信息,根据所述执行信息获取所述数据收集器中记录的预设统计维度;在所述数据收集器中查找到所述预设统计维度对应的统计数值;判断所述预设统计维度对应的统计种类,根据所述统计种类以及所述执行信息更新所述统计数值;在所述n个子任务执行完毕后,对所述n个数据收集器进行汇总。本公开提供的任务数据采集方法可以提高数据采集的效率。
Task data acquisition method and device
【技术实现步骤摘要】
任务数据采集方法与装置
本公开涉及计算机
,具体而言,涉及一种任务数据采集方法与装置。
技术介绍
在Hadoop大数据平台上,MapReduce是一种广泛应用的数据处理框架,平台也提供了对于MapReduce任务的监控以及执行日志查看功能,但是任务的成功并不代表所有数据处理的都正确,这时就需要采集更加精细的执行过程数据,比如通过对输入及输出的数据量计数,来判断数据量是否正确。目前MapReduce框架中提供了counter计数器,用于采集任务执行过程中的必要计数,以统计资源消耗、输入输出数据总量等信息。如果有其它计数器需要,也可以在处理过程中添加自定义计数器以及计数逻辑,在任务运行结束后查找计数器的计数值。由于每个计数器只能得到一个结果数据,当采集要求更精细或者统计某些维度下的计数时,统计需求难以得到满足。例如分别统计每个输入数据文件的行数,则需要为每个文件添加一个计数器,如果按照更多的条件计数,比如根据输入文件以及写入日期计数,那就不再可枚举,也就无法通过计数器来实现了。需要说明的是,在上述
技术介绍
部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
技术实现思路
本公开的目的在于提供一种任务数据采集方法与任务数据采集装置,用于至少在一定程度上克服由于相关技术的限制和缺陷而导致的MapReduce框架运行过程中难以满足数据统计需求问题。根据本公开实施例的第一方面,提供一种任务数据采集方法,包括:为n个子任务建立对应的n个数据收集器;获取所述子任务的执行信息,根据所述执行信息获取所述数据收集器中记录的预设统计维度;在所述数据收集器中查找到所述预设统计维度对应的统计数值;判断所述预设统计维度对应的统计种类,根据所述统计种类以及所述执行信息更新所述统计数值;在所述n个子任务执行完毕后,对所述n个数据收集器进行汇总。在本公开的一种示例性实施例中,所述统计种类包括计数、极值、汇总。在本公开的一种示例性实施例中,所述根据所述统计种类以及所述执行信息更新所述统计数值包括:在所述统计种类为计数时,将所述统计数值加一生成新值,并用所述新值替换所述统计数值。在本公开的一种示例性实施例中,所述根据所述统计种类以及所述执行信息更新所述统计数值包括:当所述统计种类为极大值时,在所述执行信息中获取所述预设统计维度对应的数值,并与所述统计数值进行比较,将二者中较大者作为新的统计数值写入所述数据收集器。在本公开的一种示例性实施例中,所述根据所述统计种类以及所述执行信息更新所述统计数值包括:当所述统计种类为极小值时,在所述执行信息中获取所述预设统计维度对应的数值,并与所述统计数值进行比较,将二者中较小者作为新的统计数值写入所述数据收集器。在本公开的一种示例性实施例中,所述根据所述统计种类以及所述执行信息更新所述统计数值包括:当所述统计种类为汇总时,在所述执行信息中获取所述预设统计维度对应的数值,将所述数值与所述统计数值之和作为新的统计数值写入所述数据收集器。在本公开的一种示例性实施例中,所述对所述n个数据收集器进行汇总包括:将n个所述数据收集器中的数据逐条转化为预设格式,通过预设输出方法写入与任务对应的统计文件中。根据本公开实施例的第二方面,提供一种任务数据采集装置,包括:数据收集器创建模块,设置为n个子任务建立对应的n个数据收集器;数据识别模块,设置为获取所述子任务的执行信息,根据所述执行信息获取所述数据收集器中记录的预设统计维度;数据确值模块,设置为在所述数据收集器中查找到所述预设统计维度对应的统计数值;数值更新模块,设置为判断所述预设统计维度对应的统计种类,根据所述统计种类以及所述执行信息更新所述统计数值;数据汇总模块,设置为在所述n个子任务执行完毕后,对所述n个数据收集器进行汇总;根据本公开的第三方面,提供一种任务数据采集装置,包括:存储器;以及耦合到所属存储器的处理器,所述处理器被配置为基于存储在所述存储器中的指令,执行如上述任意一项所述的方法。根据本公开的第四方面,提供一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时实现如上述任意一项所述的任务数据采集方法。本公开实施例通过在MapReduce执行过程中按照预设条件对各子任务实时收集任务信息、更新统计数据,并在任务执行后汇总统计数据,可以在不增加其它任务,不显著增加资源消耗的情况下,实现对MapReduce执行过程数据更加精细的数据采集,并在进行结果核对或者查询执行日志之前,就能够对任务执行过程有一个较全面的检查及诊断,实现精细化的MapReduce执行过程监控及异常发现。应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。附图说明此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1示意性示出本公开示例性实施例中任务数据采集方法的流程图。图2示意性示出本公开示例性实施例中任务数据采集方法的流程图。图3示意性示出本公开示例性实施例中任务数据采集方法的流程图。图4示意性示出本公开一个示例性实施例中一种任务数据采集装置的方框图。图5示意性示出本公开一个示例性实施例中一种电子设备的方框图。图6示意性示出本公开一个示例性实施例中一种计算机可读存储介质的示意图。具体实施方式现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中,提供许多具体细节从而给出对本公开的实施方式的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而省略所述特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知技术方案以避免喧宾夺主而使得本公开的各方面变得模糊。此外,附图仅为本公开的示意性图解,图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。下面结合附图对本公开示例实施方式进行详细说明。图1示意性示出本公开示例性实施例中任务数据采集方法的流程图。参考图1,任务数据采集方法100可以包括:步骤S10本文档来自技高网...
【技术保护点】
1.一种任务数据采集方法,其特征在于,包括:/n为n个子任务建立对应的n个数据收集器;/n获取所述子任务的执行信息,根据所述执行信息获取所述数据收集器中记录的预设统计维度;/n在所述数据收集器中查找到所述预设统计维度对应的统计数值;/n判断所述预设统计维度对应的统计种类,根据所述统计种类以及所述执行信息更新所述统计数值;/n在所述n个子任务执行完毕后,对所述n个数据收集器进行汇总。/n
【技术特征摘要】
1.一种任务数据采集方法,其特征在于,包括:
为n个子任务建立对应的n个数据收集器;
获取所述子任务的执行信息,根据所述执行信息获取所述数据收集器中记录的预设统计维度;
在所述数据收集器中查找到所述预设统计维度对应的统计数值;
判断所述预设统计维度对应的统计种类,根据所述统计种类以及所述执行信息更新所述统计数值;
在所述n个子任务执行完毕后,对所述n个数据收集器进行汇总。
2.如权利要求1所述的任务数据采集方法,其特征在于,所述统计种类包括计数、极值、汇总。
3.如权利要求2所述的任务数据采集方法,其特征在于,所述根据所述统计种类以及所述执行信息更新所述统计数值包括:
在所述统计种类为计数时,将所述统计数值加一生成新值,并用所述新值替换所述统计数值。
4.如权利要求2所述的任务数据采集方法,其特征在于,所述根据所述统计种类以及所述执行信息更新所述统计数值包括:
当所述统计种类为极大值时,在所述执行信息中获取所述预设统计维度对应的数值,并与所述统计数值进行比较,将二者中较大者作为新的统计数值写入所述数据收集器。
5.如权利要求2所述的任务数据采集方法,其特征在于,所述根据所述统计种类以及所述执行信息更新所述统计数值包括:
当所述统计种类为极小值时,在所述执行信息中获取所述预设统计维度对应的数值,并与所述统计数值进行比较,将二者中较小者作为新的统计数值写入所述数据收集器。
6...
【专利技术属性】
技术研发人员:李海涛,
申请(专利权)人:北京京东金融科技控股有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。