基于数据仓库的数据处理方法及装置、介质、设备制造方法及图纸

技术编号:36894714 阅读:16 留言:0更新日期:2023-03-15 22:21
本发明专利技术提供一种基于数据仓库的数据处理方法及装置、介质、设备。方法包括:通过数据采集工具建立多个第一采集任务和第二采集任务,通过所述多个第一采集任务分别采集业务系统中产生的多个业务域中的业务数据,通过所述第二采集任务采集所述业务系统中产生的各个业务域的公共数据,将采集的业务数据和公共数据分别进行数据清洗,并在数据清洗后存储至数据仓库中;在每一个数据采集任务执行完毕后,触发对应的数据加工任务,以使该加工任务对数据清洗后的对应数据按照多个维度进行汇总处理,得到汇总数据;将所述汇总数据通过所述数据采集工具发送至预设数据库中,以供调用和分享。本发明专利技术可以避免公共数据的重复处理。本发明专利技术可以避免公共数据的重复处理。本发明专利技术可以避免公共数据的重复处理。

【技术实现步骤摘要】
基于数据仓库的数据处理方法及装置、介质、设备


[0001]本专利技术涉及数据仓库
,特别是涉及一种基于数据仓库的数据处理方法及装置、介质、设备。

技术介绍

[0002]传统数据仓库的数据采集工作一般是基于Kettle工具或者或其他工具将所有环节串联在一起,或是采用多个定时器控制定时进行数据采集。其中,Kettle工具是一款开源ETL工具。针对前一种方法,将各个环节都耦合在一起,其中一个环节出了问题后面的环节就会无法进行。各定时器之间无法相互关联,导致数据采集整体效率低下。
[0003]具体的,前一种使用环节串联方式,对数据进行采集,在出现问题时,会导致整个流程停滞,虽然问题原因可以很快找到,但是导致后续待执行任务的数量呈指数级增长,这样会对集群资源产生极大的浪费,甚至因为积压任务超负荷,导致计算机集群宕机。后一种使用定时器控制数据采集的过程,需要大量人工参与来计算采集过程的运行时间及效率,经常会有定时器重叠的情况发生,在所依赖的前一段数据未完成采集时,后一段数据采集过程已经开始,导致数据未更新。
[0004]可见,以上两种方式均存在针对相同业务重复采集的问题。

技术实现思路

[0005]本专利技术实施例提供一种基于数据仓库的数据处理方法及装置、介质、设备,可以避免公共数据的重复处理。
[0006]根据第一方面,本专利技术实施例提供的基于数据仓库的数据处理方法包括:
[0007]通过数据采集工具建立多个第一采集任务和第二采集任务,通过所述多个第一采集任务分别采集业务系统中产生的多个业务域中的业务数据,通过所述第二采集任务采集所述业务系统中产生的各个业务域的公共数据,将采集的业务数据和公共数据分别进行数据清洗,并在数据清洗后存储至数据仓库中;
[0008]在每一个数据采集任务执行完毕后,触发对应的数据加工任务,以使该加工任务对数据清洗后的对应数据按照多个维度进行汇总处理,得到汇总数据;其中,所述第一采集任务对应的数据加工任务为第一加工任务,各个所述第一加工任务用于分别对数据清洗后的各个业务域的业务数据进行汇总处理,得到所述汇总数据中各个业务域各自对应的第一汇总数据;所述第二采集任务对应的数据加工任务为第二加工任务,所述第二加工任务用于对数据清洗后的公共数据进行汇总处理,得到所述汇总数据中的第二汇总数据;
[0009]将所述汇总数据通过所述数据采集工具发送至预设数据库中,以供调用和分享。
[0010]根据第二方面,本专利技术实施例提供的基于数据仓库的数据处理装置包括:
[0011]数据采集模块,用于通过数据采集工具建立多个第一采集任务和第二采集任务,通过所述多个第一采集任务分别采集业务系统中产生的多个业务域中的业务数据,通过所述第二采集任务采集所述业务系统中产生的各个业务域的公共数据,将采集的业务数据和
公共数据分别进行数据清洗,并在数据清洗后存储至数据仓库中;
[0012]数据加工模块,用于在每一个数据采集任务执行完毕后,触发对应的数据加工任务,以使该加工任务对数据清洗后的对应数据按照多个维度进行汇总处理,得到汇总数据;其中,所述第一采集任务对应的数据加工任务为第一加工任务,各个所述第一加工任务用于分别对数据清洗后的各个业务域的业务数据进行汇总处理,得到所述汇总数据中各个业务域各自对应的第一汇总数据;所述第二采集任务对应的数据加工任务为第二加工任务,所述第二加工任务用于对数据清洗后的公共数据进行汇总处理,得到所述汇总数据中的第二汇总数据;
[0013]数据发送模块,用于将所述汇总数据通过所述数据采集工具发送至预设数据库中,以供调用和分享。
[0014]根据第三方面,本专利技术实施例提供的计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行实现第一方面提供的方法。
[0015]根据第四方面,本专利技术实施例提供的计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现第一方面提供的方法。
[0016]本专利技术实施例提供的基于数据仓库的数据处理方法及装置、介质、设备,各自或者组合具有以下有益效果:
[0017](1)数据采集工具针对不同的业务域中的业务数据的采集工作建立了不同的第一采集任务,针对公共数据的采集工作建立了第二采集任务。而且每一个数据采集任务对应一个数据加工任务,即一个第一采集任务对应一个第一加工任务,第二采集任务对应第二加工任务,而且数据采集任务和对应的数据加工任务之间设置了自动触发机制,在一个数据采集任务完成后可以自动触发对应的数据加工任务。这种方式中虽然具有自动触发机制,但是现有技术中的各个环节之间的强耦合来说,本专利技术实施例提供的方法中的耦合程度已经大大降低,因此灵活性比较高。而且,通过针对公共数据建立第二采集任务和第二加工任务,避免了相同数据的重复加工及入库,大幅提升数据仓库存储使用率和运行效率,增强了鲁棒性。
[0018](2)在一个实施例中,在一个第一采集任务执行完毕后,判断对应的第一加工任务的执行是否需要依赖第二加工任务。具体的,如果对应的第一加工任务的汇总过程需要依赖第二加工任务汇总得到的第二汇总数据,则说明对应的第一加工任务依赖第二加工任务,否则对应的第一加工任务不依赖第二加工任务。如果不依赖于第二加工任务,则可以直接执行该第一采集任务对应的第一加工任务。如果依赖第二加工任务,则在第二采集任务执行完毕后,执行第二加工任务,在第二加工任务执行完毕后,在执行该第一采集任务对应的第一加工任务。可见,通过这种方式可以保证每一个第一加工任务能够顺利执行,避免因为缺少相关数据而导致第一加工任务中断的情况发生。
[0019](3)在一个实施例中,在数据清洗处理之前,首先判断采集的数据是否完整,如果完整则可以进入数据清洗步骤,如果不完整,则需要重新执行对应的数据采集任务,即,将对应的数据采集任务进行重跑,如果重跑对应的数据采集任务后得到的数据是完整的,则可以进行数据清洗处理的步骤,否则需要再次重跑对应的数据采集任务,直到能够采集到完整的数据。可见,通过这种方式可以使得汇总得到的汇总数据是完整的,可以提供更好的分享或调用服务。
[0020](3)在一个实施例中,如果第二加工任务重新执行,则还需要重新执行依赖于第二加工任务的各个第一加工任务,以保证各个加工任务的统一性,保证汇总数据的准确性。
附图说明
[0021]图1为本专利技术一实施例中基于数据仓库的数据处理方法的流程示意图;
[0022]图2为本专利技术一个实施例中数据采集流程和数据加工任务之间的一种关系示意图;
[0023]图3为本专利技术一个实施例中数据采集流程和数据加工任务之间的另一种关系示意图;
[0024]图4为本专利技术一个实施例中基于数据仓库的数据处理装置的结构框图。
具体实施方式
[0025]第一方面,本专利技术实施例提供一种基于数据仓库的数据处理方法,参见图1,该方法包括如下步骤S110~S130:
[0026]S11本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于数据仓库的数据处理方法,其特征在于,包括:通过数据采集工具建立多个第一采集任务和第二采集任务,通过所述多个第一采集任务分别采集业务系统中产生的多个业务域中的业务数据,通过所述第二采集任务采集所述业务系统中产生的各个业务域的公共数据,将采集的业务数据和公共数据分别进行数据清洗,并在数据清洗后存储至数据仓库中;在每一个数据采集任务执行完毕后,触发对应的数据加工任务,以使该加工任务对数据清洗后的对应数据按照多个维度进行汇总处理,得到汇总数据;其中,所述第一采集任务对应的数据加工任务为第一加工任务,各个所述第一加工任务用于分别对数据清洗后的各个业务域的业务数据进行汇总处理,得到所述汇总数据中各个业务域各自对应的第一汇总数据;所述第二采集任务对应的数据加工任务为第二加工任务,所述第二加工任务用于对数据清洗后的公共数据进行汇总处理,得到所述汇总数据中的第二汇总数据;将所述汇总数据通过所述数据采集工具发送至预设数据库中,以供调用和分享。2.根据权利要求1所述的方法,其特征在于,所述在每一个数据采集任务执行完毕后,触发对应的数据加工任务之前,所述方法还包括:判断执行完毕的第一采集任务对应的第一加工任务是否依赖于所述第二加工任务;其中,依赖于所述第二加工任务的第一加工任务的汇总处理过程依赖于所述第二汇总数据;若是,则在第二采集任务执行完毕后,执行第二加工任务,并在所述第二加工任务执行完毕后,触发该第一采集任务对应的第一加工任务;否则,触发执行完毕的第一采集任务对应的第一加工任务。3.根据权利要求1所述的方法,其特征在于,将采集的业务数据和公共数据分别进行数据清洗之前,所述方法包括:A1、判断每一个数据采集任务采集的数据中是否包括全部所需字段;A2、若是,则执行对该数据采集任务采集的数据进行数据清洗的步骤;A3、否则,重新执行该数据采集任务,并返回A1中。4.根据权利要求3所述的方法,其特征在于,还包括:若所述第二加工任务重新执行,则重新执行依赖于所述第二加工任务的各个第一加工任务。5.根据权利要求1所述的方法,其特征在于,每一个所述数据加工任务中包括数据准备层、数据维度层、数据明细层、数据服务层和数据应用层,其中:所述数据准备层用于获取数据清洗完成的数据;所述数据维度层用于确定该数据加工任务所需要的维度信息;所述数据明细层用于根据所述数据清洗后的数据生成字段标准化的数据;所述数据服务层用于按照所述维度信息对所述字段标准...

【专利技术属性】
技术研发人员:韩星林大伟郑斌
申请(专利权)人:浪潮软件股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1