一种用于描述大数据任务流整体结构的方法技术

技术编号:21183913 阅读:29 留言:0更新日期:2019-05-22 14:49
本发明专利技术提供一种用于描述大数据任务流整体结构的方法,对整个任务流的所有节点,先找出所有无父依赖的起始节点,再根据起始节点找出整个任务流的最长路径;对找出的整个任务流的最长路径,按从起始节点至终止节点的顺序分别给予势值,并使用相对位置值的方式来记录整个任务流的最长路径;循环遍历整个任务流中所有未记录相对位置值的节点,分别计算出各未记录相对位置值的节点的子依赖关系的最长路径和/或父依赖关系的最长路径,并利用该子依赖关系的最长路径和/或父依赖关系的最长路径上存在相对位置值的节点推算出其它节点的相对位置值。本发明专利技术优点:可大大减少任务执行的等待时间,提升大数据任务流程的整体执行效率。

A Method for Describing the Whole Structure of Large Data Task Flow

The present invention provides a method for describing the overall structure of large data task flow. For all nodes of the whole task flow, all start nodes without parent dependence are found first, and then the longest path of the whole task flow is found according to the starting node. For the longest path of the whole task flow, potential values are given respectively in the order from the starting node to the terminating node, and relative position values are used. The method records the longest path of the whole task flow; iterates through all the nodes in the whole task flow that do not record the relative position value, calculates the longest path of the child dependency relationship and/or the longest path of the parent dependency relationship of each node that does not record the relative position value, and uses the longest path of the child dependency relationship and/or the longest path of the parent dependency relationship to have the relative position. The relative position values of other nodes can be calculated by the node with the value of __________. The invention has the advantages that the waiting time of task execution can be greatly reduced and the overall execution efficiency of large data task flow can be improved.

【技术实现步骤摘要】
一种用于描述大数据任务流整体结构的方法
本专利技术涉及任务流处理领域,特别涉及一种用于描述大数据任务流整体结构的方法。
技术介绍
在如今的大数据时代,大数据的清洗、转换、加载等任务随着数据流程的细致化和复杂化,任务数量也急剧增多。而任务与任务之间一般都会有着先后执行的依赖关系,现有技术在设计任务节点时,一般都只关注该任务节点的前置依赖节点以及后续执行节点,而对于该任务节点在整体流程中的前后置关系,一般都没有直观的认知。人们一般都会使用分层的方式来规划任务的处理时机,从而来描述整体任务流程的结构。然而,随着数据流程的进一步剧增,单纯地使用分层的方式来规划任务的处理时机,会造成层次过深,跨层次的任务与任务之间的关系难以缕清(无法直观判断任务与任务之间是否存在依赖关系)。而且按照分层的方式来执行任务,由于任务执行时间的长短不一致,导致每一层的执行时长都为执行最慢的任务节点的执行时长,这会延长整体流程的执行效率。因此,亟需一种用来描述任务流的整体结构以及任务节点之间的相对关系的方法。
技术实现思路
本专利技术要解决的技术问题,在于提供一种用于描述大数据任务流整体结构的方法,通过该方法可有效解决现有技术中使用分层方式来执行任务存在的会延长整体流程的执行效率的问题。本专利技术是这样实现的:一种用于描述大数据任务流整体结构的方法,所述方法包括如下步骤:步骤S1、对整个任务流的所有节点,先找出所有无父依赖的起始节点,再根据起始节点找出整个任务流的最长路径;步骤S2、对找出的整个任务流的最长路径,按从起始节点至终止节点的顺序分别给予势值,并使用相对位置值的方式来记录整个任务流的最长路径;步骤S3、循环遍历整个任务流中所有未记录相对位置值的节点,分别计算出各未记录相对位置值的节点的子依赖关系的最长路径和/或父依赖关系的最长路径,并利用该子依赖关系的最长路径和/或父依赖关系的最长路径上存在相对位置值的节点推算出其它节点的相对位置值。进一步地,在所述步骤S1中,所述根据起始节点找出整个任务流的最长路径具体为:依次使用最长路径算法计算出各个起始节点的最长路径,并对计算出的各个起始节点的最长路径进行比较,从中找出整个任务流中的最长路径。进一步地,在所述步骤S2中,所述按从起始节点至终止节点的顺序分别给予势值具体为:按从起始节点至终止节点的顺序分别给予从小到大的势值。进一步地,在所述步骤S2中,所述使用相对位置值的方式来记录整个任务流的最长路径具体为:记录整个任务流的最长路径的路径号、最小势值以及最大势值,并使用不同分割符来将路径号、最小势值以及最大势值记录在一个字符串内。进一步地,所述步骤S3具体包括:步骤S31、循环遍历整个任务流中所有未记录相对位置值的节点,分别计算出各未记录相对位置值的节点的子依赖关系的最长路径和/或父依赖关系的最长路径;步骤S32、对于各未记录相对位置值的节点,分别判断其子依赖关系的最长路径和/或父依赖关系的最长路径上的节点是否存在相对位置值,且如果存在,则通过相对位置值推算出该子依赖关系的最长路径和/或父依赖关系的最长路径上的其它节点的相对位置值;如果不存在,则将该未记录相对位置值的节点记为未计算节点;步骤S33、在遍历完整个任务流中的所有未记录相对位置值的节点后,开始循环遍历所有未计算节点,并分别计算出各未计算节点的子依赖关系的最长路径和/或父依赖关系的最长路径;步骤S34、对于各未计算节点,分别判断其子依赖关系的最长路径和/或父依赖关系的最长路径上的节点是否存在相对位置值,且如果存在,则通过相对位置值推算出该子依赖关系的最长路径和/或父依赖关系的最长路径上的其它节点的相对位置值;如果不存在,则将该未计算节点判定为与任务流无依赖关系的节点。进一步地,在所述步骤S31中,所述分别计算出各未记录相对位置值的节点的子依赖关系的最长路径和/或父依赖关系的最长路径具体为:从各未记录相对位置值的节点开始,使用最长路径算法分别计算出各未记录相对位置值的节点的子依赖关系的最长路径和/或父依赖关系的最长路径;在所述步骤S33中,所述分别计算出各未计算节点的子依赖关系的最长路径和/或父依赖关系的最长路径具体为:从各未计算节点开始,使用最长路径算法分别计算出各未计算节点的子依赖关系的最长路径和/或父依赖关系的最长路径。进一步地,在所述步骤S32和步骤S34中,在通过相对位置值推算出该子依赖关系的最长路径和/或父依赖关系的最长路径上的其它节点的相对位置值时,还包括:对该子依赖关系的最长路径和/或父依赖关系的最长路径设置与其它路径不重复的分支路径号,以及记录该子依赖关系的最长路径和/或父依赖关系的最长路径的起始势值和终止势值,并使用不同分割符来将分支路径号、起始势值以及终止势值记录在字符串内。本专利技术具有如下优点:通过本专利技术方法可使得任务流程的执行时间等于任务流程耗时最长的任务线的执行时间,从而可大大减少任务执行的等待时间,提升大数据任务流程的整体执行效率。同时,通过本专利技术方法计算出的节点的相对位置值还可以直接用于任务流的整体图像展示,可方便任务流程开发人员、设计人员等对整体流程有直观的感受。相对位置值也可以用于任务线的前后置依赖任务线节点的追溯,可十分方便任务流程维护人员的错误排查等工作。附图说明下面参照附图结合实施例对本专利技术作进一步的说明。图1为本专利技术一种用于描述大数据任务流整体结构的方法的执行流程图。具体实施方式数据任务流具有一种特性,就是随着时间的不断推移,任务会被依次执行,且任务的执行不会形成回环。那么,必然会存在一条执行时间最长的任务线(假设每个任务节点执行的时间一样长),沿着执行时间最长的任务线执行下去,其它的所有任务都可以在这条任务线中找到与它对应的执行时机。对于具有相同执行时机的任务,我们称之为拥有同样的势。而势,就可以用来描述任意两个节点之间的执行时机的相对关系。请重点参阅图1所示,本专利技术一种用于描述大数据任务流整体结构的方法的较佳实施例,所述方法包括如下步骤:步骤S1、对整个任务流的所有节点,先找出所有无父依赖的起始节点,再根据起始节点找出整个任务流的最长路径;步骤S2、对找出的整个任务流的最长路径,按从起始节点至终止节点的顺序分别给予势值,并使用相对位置值的方式来记录整个任务流的最长路径,其中,相对位置值可用于任务流的图像展示、任务线的追溯等;步骤S3、循环遍历整个任务流中所有未记录相对位置值的节点,分别计算出各未记录相对位置值的节点的子依赖关系的最长路径和/或父依赖关系的最长路径,并利用该子依赖关系的最长路径和/或父依赖关系的最长路径上存在相对位置值的节点推算出其它节点的相对位置值。由上述可知,相较于任务流分层的方式,通过本专利技术方法可使得任务流程的执行时间等于任务流程耗时最长的任务线的执行时间,从而可大大减少任务执行的等待时间,提升大数据任务流程的整体执行效率。同时,通过本专利技术方法计算出的节点的相对位置值还可以直接用于任务流的整体图像展示,可方便任务流程开发人员、设计人员等对整体流程有直观的感受。相对位置值也可以用于任务线的前后置依赖任务线节点的追溯,可十分方便任务流程维护人员的错误排查等工作。其中,在所述步骤S1中,所述根据起始节点找出整个任务流的最长路径具体为:依次使用最长路径算法计算出各个起始节点的本文档来自技高网...

【技术保护点】
1.一种用于描述大数据任务流整体结构的方法,其特征在于:所述方法包括如下步骤:步骤S1、对整个任务流的所有节点,先找出所有无父依赖的起始节点,再根据起始节点找出整个任务流的最长路径;步骤S2、对找出的整个任务流的最长路径,按从起始节点至终止节点的顺序分别给予势值,并使用相对位置值的方式来记录整个任务流的最长路径;步骤S3、循环遍历整个任务流中所有未记录相对位置值的节点,分别计算出各未记录相对位置值的节点的子依赖关系的最长路径和/或父依赖关系的最长路径,并利用该子依赖关系的最长路径和/或父依赖关系的最长路径上存在相对位置值的节点推算出其它节点的相对位置值。

【技术特征摘要】
1.一种用于描述大数据任务流整体结构的方法,其特征在于:所述方法包括如下步骤:步骤S1、对整个任务流的所有节点,先找出所有无父依赖的起始节点,再根据起始节点找出整个任务流的最长路径;步骤S2、对找出的整个任务流的最长路径,按从起始节点至终止节点的顺序分别给予势值,并使用相对位置值的方式来记录整个任务流的最长路径;步骤S3、循环遍历整个任务流中所有未记录相对位置值的节点,分别计算出各未记录相对位置值的节点的子依赖关系的最长路径和/或父依赖关系的最长路径,并利用该子依赖关系的最长路径和/或父依赖关系的最长路径上存在相对位置值的节点推算出其它节点的相对位置值。2.根据权利要求1所述的一种用于描述大数据任务流整体结构的方法,其特征在于:在所述步骤S1中,所述根据起始节点找出整个任务流的最长路径具体为:依次使用最长路径算法计算出各个起始节点的最长路径,并对计算出的各个起始节点的最长路径进行比较,从中找出整个任务流中的最长路径。3.根据权利要求1所述的一种用于描述大数据任务流整体结构的方法,其特征在于:在所述步骤S2中,所述按从起始节点至终止节点的顺序分别给予势值具体为:按从起始节点至终止节点的顺序分别给予从小到大的势值。4.根据权利要求1所述的一种用于描述大数据任务流整体结构的方法,其特征在于:在所述步骤S2中,所述使用相对位置值的方式来记录整个任务流的最长路径具体为:记录整个任务流的最长路径的路径号、最小势值以及最大势值,并使用不同分割符来将路径号、最小势值以及最大势值记录在一个字符串内。5.根据权利要求1所述的一种用于描述大数据任务流整体结构的方法,其特征在于:所述步骤S3具体包括:步骤S31、循环遍历整个任务流中所有未记录相对位置值的节点,分别计算出各未记录相对位置值的节点的子依赖关系的最长路径和/或父依赖关系的最长路径;步骤S32、对于各未记录相对位置值的节点,分别判断其子依赖关系的最长路径和/或父依赖...

【专利技术属性】
技术研发人员:李贵生吴宇静郑小建陈兆昌孙家国刘进朱祖斌余新引王远媛代艳
申请(专利权)人:智恒科技股份有限公司
类型:发明
国别省市:福建,35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1