一种数据处理过程的协同方法和装置制造方法及图纸

技术编号:6705805 阅读:207 留言:0更新日期:2012-04-11 18:40
本发明专利技术提供了一种数据处理过程的协同方法和装置,所述方法包括:建立数据处理过程与元数据的输入输出关系的配置信息;所述元数据包括:数据源和数据处理结果;配置各个数据处理过程的调度计划信息;依据所述配置信息和调度计划信息执行相应的数据处理过程,实现各个数据处理过程间的协同处理。通过本发明专利技术减少了冗余的等待执行时间,提高了ODS系统的数据处理效率,并且简化了数据处理过程的配置。

【技术实现步骤摘要】

本专利技术涉及数据处理
,特别是涉及一种数据处理过程的协同方法和装置
技术介绍
ODS系统是一个跨系统运营数据的共享平台,承接操作环境和分析环境。ODS对应 用系统产生的数据进行清洗、过滤和整合,同时为各个应用系统提供近实时的运营报表等 跨系统共享数据服务。ODS系统的数据架构如图1所示,其数据处理过程包括从其它业务系统抽取业务 数据到接口层;在接口层将数据进行清洗、转换并加载到整合层;以整合层的数据进行跨 系统数据的应用、分析,形成汇总层的数据,并将汇总层的数据共享给相应的业务系统。因 此,数据处理过程是ODS系统的基本也是重要功能。由于ODS系统整合的数据源众多、提供 的跨系统应用和分析数据众多,因此ODS系统中的众多数据处理过程之间的协同处理就显 得极其重要。现有技术中的一种数据处理过程的协同方法,其通过预估每个数据处理过程的执 行耗时,并制定每个数据处理过程的先后执行时间,来控制数据处理过程的先后执行顺序。 另一种数据处理过程的协同方法,是通过设定数据处理过程之间的执行依赖,来确定每个 数据处理过程的执行时机。上述方法中,由于数据处理过程的执行耗时是不固定的,前后执行的数据处理过 程之间的定时时差不好预估,一般情况下都是将此时间差加大,增加等待的执行时间。例 如,ODS系统一般以天为单位从CRM系统中获取客户订单数据,然后根据客户订单数据再处 理其他核心层的数据,假设CRM订单数据处理过程为3小时,因此,将CRM订单数据的处理 过程定时在凌晨0 30分启动执行,预计在3 30分钟执行完毕,客户资料宽表处理程序一般 定时在4:00开始执行。因此造成了执行总时长过长,浪费了数据处理时间。此外,不管是采用时间制定还是数据处理过程依赖的方式,在实际使用中都很繁 琐。由于ODS系统中接口众多、数据处理过程数量级很大,配置执行依赖、先后执行顺序的 过程相当复杂,对操作人员的业务要求相当高,一般只有资深的维护人员才能了解大部分 的数据处理过程,而要求其将不同的数据处理过程的依赖关系建立正确,将是一件非常复 杂的工作,配置过程存在疏漏的可能性相当大。总之,需要本领域技术人员迫切解决的一个技术问题就是如何能够提供一种数 据处理过程的协同方法,减少冗余的等待执行时间,提高ODS系统的数据处理效率,以及简 化数据处理过程的配置。
技术实现思路
本专利技术所要解决的技术问题是提供一种数据处理过程的协同方法和装置,减少冗 余的等待执行时间,提高ODS系统的数据处理效率,并简化数据处理过程的配置。为了解决上述问题,本专利技术公开了一种数据处理过程的协同方法,包括建立数据处理过程与元数据的输入输出关系的配置信息;所述元数据包括数据 源和数据处理结果;配置各个数据处理过程的调度计划信息;依据所述配置信息和调度计划信息执行相应的数据处理过程,实现各个数据处理 过程间的协同处理。优选的,所述建立数据处理过程与元数据的输入输出关系的配置信息,包括抽取数据处理过程的流程配置节点,并获得类型为“数据抽取”和“数据加载”的 流程配置节点;将从“数据抽取”类型的流程配置节点中分析出的源数据定义为数据源,并建立所 述数据源与数据处理过程的输入关系;将从“数据加载”类型的流程配置节点中分析出的目标数据定义为数据处理结果, 并建立所述数据处理结果与数据处理过程的输出关系。优选的,所述配置各个数据处理过程的调度计划信息具体为配置所述数据处理 过程的执行周期和/或推荐执行时间。优选的,所述依据所述配置信息和调度计划信息执行相应的数据处理过程,包 括依据调度计划信息驱动数据处理过程准备开始执行;依据配置信息进行驱动检查,判断当前数据处理过程是否存在数据依赖;若否,则直接执行当前数据处理过程;若是,则依据调度计划信息判断当前数据处理过程是否存在周期依赖;若是,则暂 停执行当前数据处理过程,直到被依赖的数据处理过程正确执行完毕,执行当前数据处理 过程;若否,则执行当前数据处理过程。优选的,所述依据调度计划信息驱动数据处理过程准备开始执行,具体为依据执 行周期和推荐执行时间生成调度时间,在所述调度时间到达时驱动数据处理过程准备开始 执行;或者,依据执行周期在预置时间点到达时驱动数据处理过程准备开始执行。优选的,所述依据配置信息判断当前数据处理过程是否存在数据依赖,包括获取当前数据处理过程的输入关系的数据源;判断所述输入关系的数据源是否为其它数据处理过程的输出关系的数据处理结 果;如果是,则当前数据处理过程依赖于其它数据处理过程,判断当前数据处理过程 存在数据依赖;如果否,则当前数据处理过程不依赖于其它数据处理过程,判断当前数据处 理过程不存在数据依赖。优选的,所述依据调度计划信息判断当前数据处理过程是否存在周期依赖,具体 为判断当前数据处理过程的执行周期是否大于等于被依赖的数据处理过程的执行周期; 如果是,则判断当前数据处理过程存在周期依赖;如果否,则判断当前数据处理过程不存在 周期依赖。优选的,所述依据所述配置信息和调度计划信息执行相应的数据处理过程,还包 括依据预置间隔时间的探测机制,对被依赖的数据处理过程的执行结果进行查询,获知被依赖的数据处理过程是否正确执行完毕。相应的,本专利技术还提供了一种数据处理过程的协同装置,包括配置信息建立模块,用于建立数据处理过程与元数据的输入输出关系的配置信 息;所述元数据包括数据源和数据处理结果;调度计划配置模块,用于配置各个数据处理过程的调度计划信息;数据处理执行模块,用于依据所述配置信息和调度计划信息执行相应的数据处理 过程,实现各个数据处理过程间的协同处理。优选的,所述配置信息建立模块包括节点获取子模块,用于抽取数据处理过程的流程配置节点,并获得类型为“数据抽 取”和“数据加载”的流程配置节点;输入关系建立子模块,用于将从“数据抽取”类型的流程配置节点中分析出的源数 据定义为数据源,并建立所述数据源与数据处理过程的输入关系;输出关系建立子模块,用于将从“数据加载”类型的流程配置节点中分析出的目标 数据定义为数据处理结果,并建立所述数据处理结果与数据处理过程的输出关系。优选的,所述调度计划配置模块配置各个数据处理过程的调度计划信息具体为 配置所述数据处理过程的执行周期和/或推荐执行时间。优选的,所述数据处理执行模块包括驱动准备开始子模块,用于依据调度计划信息驱动数据处理过程准备开始执行;数据依赖判断子模块,用于依据配置信息判断当前数据处理过程是否存在数据依 赖;若否,直接触发数据处理执行子模块,若是,则触发周期依赖判断子模块;数据处理执行子模块,用于执行当前数据处理过程;周期依赖判断子模块,用于依据配置信息判断当前数据处理过程是否存在数据依 赖;若否,暂停执行当前数据处理过程,直到被依赖的数据处理过程正确执行完毕,触发数 据处理执行子模块,若是,则直接触发数据处理执行子模块。优选的,所述驱动准备子模块依据调度计划信息驱动数据处理过程准备开始执 行,具体为依据执行周期和推荐执行时间生成调度时间,在所述调度时间到达时驱动数据 处理过程准备开始执行;或者,依据执行周期在预置时间点到达时驱动数据处理过程准备 开始执行。优选的,所述数据依赖判断子模块包括数据源获取单元,用于获取当前数据处理过程的输入关系的数据源;依本文档来自技高网
...

【技术保护点】
一种数据处理过程的协同方法,其特征在于,包括:建立数据处理过程与元数据的输入输出关系的配置信息;所述元数据包括:数据源和数据处理结果;配置各个数据处理过程的调度计划信息;依据所述配置信息和调度计划信息执行相应的数据处理过程,实现各个数据处理过程间的协同处理。

【技术特征摘要】

【专利技术属性】
技术研发人员:孙继纲王宇林荣华赵雨佳
申请(专利权)人:大唐软件技术股份有限公司
类型:发明
国别省市:11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1