The present invention provides a method for describing the overall structure of large data task flow. For all nodes of the whole task flow, all start nodes without parent dependence are found first, and then the longest path of the whole task flow is found according to the starting node. For the longest path of the whole task flow, potential values are given respectively in the order from the starting node to the terminating node, and relative position values are used. The method records the longest path of the whole task flow; iterates through all the nodes in the whole task flow that do not record the relative position value, calculates the longest path of the child dependency relationship and/or the longest path of the parent dependency relationship of each node that does not record the relative position value, and uses the longest path of the child dependency relationship and/or the longest path of the parent dependency relationship to have the relative position. The relative position values of other nodes can be calculated by the node with the value of __________. The invention has the advantages that the waiting time of task execution can be greatly reduced and the overall execution efficiency of large data task flow can be improved.
【技术实现步骤摘要】
一种用于描述大数据任务流整体结构的方法
本专利技术涉及任务流处理领域,特别涉及一种用于描述大数据任务流整体结构的方法。
技术介绍
在如今的大数据时代,大数据的清洗、转换、加载等任务随着数据流程的细致化和复杂化,任务数量也急剧增多。而任务与任务之间一般都会有着先后执行的依赖关系,现有技术在设计任务节点时,一般都只关注该任务节点的前置依赖节点以及后续执行节点,而对于该任务节点在整体流程中的前后置关系,一般都没有直观的认知。人们一般都会使用分层的方式来规划任务的处理时机,从而来描述整体任务流程的结构。然而,随着数据流程的进一步剧增,单纯地使用分层的方式来规划任务的处理时机,会造成层次过深,跨层次的任务与任务之间的关系难以缕清(无法直观判断任务与任务之间是否存在依赖关系)。而且按照分层的方式来执行任务,由于任务执行时间的长短不一致,导致每一层的执行时长都为执行最慢的任务节点的执行时长,这会延长整体流程的执行效率。因此,亟需一种用来描述任务流的整体结构以及任务节点之间的相对关系的方法。
技术实现思路
本专利技术要解决的技术问题,在于提供一种用于描述大数据任务流整体结构的方法,通过该方法可有效解决现有技术中使用分层方式来执行任务存在的会延长整体流程的执行效率的问题。本专利技术是这样实现的:一种用于描述大数据任务流整体结构的方法,所述方法包括如下步骤:步骤S1、对整个任务流的所有节点,先找出所有无父依赖的起始节点,再根据起始节点找出整个任务流的最长路径;步骤S2、对找出的整个任务流的最长路径,按从起始节点至终止节点的顺序分别给予势值,并使用相对位置值的方式来记录整个任务流的 ...
【技术保护点】
1.一种用于描述大数据任务流整体结构的方法,其特征在于:所述方法包括如下步骤:步骤S1、对整个任务流的所有节点,先找出所有无父依赖的起始节点,再根据起始节点找出整个任务流的最长路径;步骤S2、对找出的整个任务流的最长路径,按从起始节点至终止节点的顺序分别给予势值,并使用相对位置值的方式来记录整个任务流的最长路径;步骤S3、循环遍历整个任务流中所有未记录相对位置值的节点,分别计算出各未记录相对位置值的节点的子依赖关系的最长路径和/或父依赖关系的最长路径,并利用该子依赖关系的最长路径和/或父依赖关系的最长路径上存在相对位置值的节点推算出其它节点的相对位置值。
【技术特征摘要】
1.一种用于描述大数据任务流整体结构的方法,其特征在于:所述方法包括如下步骤:步骤S1、对整个任务流的所有节点,先找出所有无父依赖的起始节点,再根据起始节点找出整个任务流的最长路径;步骤S2、对找出的整个任务流的最长路径,按从起始节点至终止节点的顺序分别给予势值,并使用相对位置值的方式来记录整个任务流的最长路径;步骤S3、循环遍历整个任务流中所有未记录相对位置值的节点,分别计算出各未记录相对位置值的节点的子依赖关系的最长路径和/或父依赖关系的最长路径,并利用该子依赖关系的最长路径和/或父依赖关系的最长路径上存在相对位置值的节点推算出其它节点的相对位置值。2.根据权利要求1所述的一种用于描述大数据任务流整体结构的方法,其特征在于:在所述步骤S1中,所述根据起始节点找出整个任务流的最长路径具体为:依次使用最长路径算法计算出各个起始节点的最长路径,并对计算出的各个起始节点的最长路径进行比较,从中找出整个任务流中的最长路径。3.根据权利要求1所述的一种用于描述大数据任务流整体结构的方法,其特征在于:在所述步骤S2中,所述按从起始节点至终止节点的顺序分别给予势值具体为:按从起始节点至终止节点的顺序分别给予从小到大的势值。4.根据权利要求1所述的一种用于描述大数据任务流整体结构的方法,其特征在于:在所述步骤S2中,所述使用相对位置值的方式来记录整个任务流的最长路径具体为:记录整个任务流的最长路径的路径号、最小势值以及最大势值,并使用不同分割符来将路径号、最小势值以及最大势值记录在一个字符串内。5.根据权利要求1所述的一种用于描述大数据任务流整体结构的方法,其特征在于:所述步骤S3具体包括:步骤S31、循环遍历整个任务流中所有未记录相对位置值的节点,分别计算出各未记录相对位置值的节点的子依赖关系的最长路径和/或父依赖关系的最长路径;步骤S32、对于各未记录相对位置值的节点,分别判断其子依赖关系的最长路径和/或父依赖...
【专利技术属性】
技术研发人员:李贵生,吴宇静,郑小建,陈兆昌,孙家国,刘进,朱祖斌,余新引,王远媛,代艳,
申请(专利权)人:智恒科技股份有限公司,
类型:发明
国别省市:福建,35
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。