本申请公开了一种ETL数据处理方法、装置及系统,所述方法包括获取数据源中的源数据,并将所述源数据转换为逗号分隔值CSV格式的源数据;依据所述CSV格式的源数据创建ETL任务,触发ETL工具运行所述ETL任务;将所述ETL任务运行结果发送至目标数据仓库。通过将数据源的待处理数据进行统一的CSV格式转换之后,再依次进行抽取、转换及加载处理,并将加载处理结果置于目标数据仓库中,在出现多种数据源时,只需增加CSV格式数据转换方法即可,从而避免了现有技术中由于设置多种驱动/导入/导出工具,导致降低ETL数据处理速度的情况,提高了ETL数据处理速度及效率。
【技术实现步骤摘要】
【专利摘要】本申请公开了一种ETL数据处理方法、装置及系统,所述方法包括获取数据源中的源数据,并将所述源数据转换为逗号分隔值CSV格式的源数据;依据所述CSV格式的源数据创建ETL任务,触发ETL工具运行所述ETL任务;将所述ETL任务运行结果发送至目标数据仓库。通过将数据源的待处理数据进行统一的CSV格式转换之后,再依次进行抽取、转换及加载处理,并将加载处理结果置于目标数据仓库中,在出现多种数据源时,只需增加CSV格式数据转换方法即可,从而避免了现有技术中由于设置多种驱动/导入/导出工具,导致降低ETL数据处理速度的情况,提高了ETL数据处理速度及效率。【专利说明】一种ETL数据处理方法、装置及系统
本申请涉及数据集成中间件领域,特别涉及一种ETL数据处理方法、装置及系统。
技术介绍
信息是现代企业的重要资源,是企业运用科学管理、决策分析的基础。企业通过 ETL (Extraction-Transformation-Loading,提取、转换、加载)技术手段,将来自不同数据 源中的异构数据抽取到临时中间层进行清洗、转换、集成处理,即数据提取、数据转换、数据 加载等处理,并将处理后的数据置入目标数据仓库中。目前,一般采用如DataStage等数据处理工具来实现ETL数据处理。该DataStage 是一套专门对多种操作数据源的数据抽取、转换和维护过程进行简化和自动化,并将其输 入目标数据仓库中的集成工具。其中,该DataStage基于C/S的架构,客户端Client主要 负责获取数据源Sources中的源数据,并依据该源数据进行DataStage作业(ETL任务)的 创建、DataStage作业的监控及用户的管理等,服务器端Server负责运行DataStage作业, 实现数据提取、数据转换及数据加载,并将其存储至服务器端Server的Repository中,由 该R印ository将经过数据转换的源数据(ETL任务运行结果)进行数据置入目标数据仓库 Targets 中。由上述可知,现有技术中的ETL数据处理方案为支持多种数据源的数据处理,需 要多种与待处理的数据源相对应的驱动/导入/导出工具,由此降低了 ETL数据处理的速 度,影响ETL数据处理的效率。进一步的,上述ETL数据处理方案中,单点的ETL工具在面对海量数据时,数据处 理性能明显降低,影响数据处理速率,同时无法提供ETL数据处理的横向扩展能力。
技术实现思路
本申请所要解决的技术问题,是提供一种ETL数据处理方法、装置及系统,用以解 决现有技术中的ETL数据处理方案为支持多种数据源的数据处理,需要多种与待处理的数 据源相对应的驱动/导入/导出工具支持,由此降低了 ETL数据处理的速度,影响ETL数据 处理的效率的技术问题;以及用于解决现有的ETL数据处理方案中,无法提供ETL数据处理 的横向扩展能力,使得单点的ETL工具在面对海量数据时,数据处理性能明显降低,影响数 据处理速率的技术问题。为解决上述技术问题,本申请提供了一种ETL数据处理方法,包括:获取数据源中的源数据,并将所述源数据转换为逗号分隔值CSV格式的源数据;依据所述CSV格式的源数据创建ETL任务,触发ETL工具运行所述ETL任务;将所述ETL任务运行结果发送至目标数据仓库。上述方法,优选地,所述触发ETL工具运行所述ETL任务包括:在预设的多个ETL工具中选取与所述ETL任务相对应的ETL工具;触发选取的ETL工具运行所述ETL任务。上述方法,优选地,所述在预设的多个ETL工具中选取与所述ETL任务相对应的 ETL工具,触发选取的ETL工具运行所述ETL任务包括:判断所述ETL任务是否满足预设的任务分割规则,如果是,将所述ETL任务分割成 多个ETL子任务;在预设的多个ETL工具中选取与每个所述ETL子任务相对应的ETL工具;分别触发每个与所述ETL子任务相对应的ETL工具运行其各自对应的ETL子任 务;其中:所述将ETL任务运行结果发送至目标数据仓库包括:将所述ETL子任务的运行结果进行拼接,并将拼接的数据发送至所述目标数据仓 库;否则,在所述多个ETL工具中选取与所述ETL任务相对应的ETL工具,触发选取的 ETL工具运行所述ETL任务。上述方法,优选地,所述目标数据仓库包括在线数据仓库和离线数据仓库,其中:所述将所述ETL任务运行结果发送至目标数据仓库包括:将所述ETL任务运行结果发送至所述在线数据仓库;判断所述在线数据仓库的存储空间是否满足预设数据转移规则,如果是,将所述 在线数据仓库存储的数据发送至所述离线数据仓库,并将所述在线数据仓库清空。上述方法,优选地,所述离线数据仓库包括多个存储单元,其中:所述将所述在线数据仓库存储的数据发送至所述离线数据仓库包括:将所述在线数据仓库存储的数据分割成多个数据块;将分割的数据块依据预设分布存储规则分别存储至所述多个存储单元中。本申请还提供了一种ETL数据处理装置,用于实现上述方法,包括数据转换单元、 ETL任务处理单元和数据存储单元,其中:所述数据转换单元,用于获取数据源中的源数据,并将所述源数据转换为逗号分 隔值CSV格式的源数据;所述ETL任务处理单元,用于依据所述CSV格式的源数据创建ETL任务,触发ETL 工具运行所述ETL任务;所述数据存储单元,用于将所述ETL任务运行结果发送至目标数据仓库。上述装置,优选地,所述ETL任务处理单元包括ETL任务创建子单元和ETL任务处 理子单元,其中:所述ETL任务创建子单元,用于依据所述CSV格式的源数据创建ETL任务;所述ETL任务处理子单元,用于在预设的多个ETL工具中选取与所述ETL任务相 对应的ETL工具,并触发选取的ETL工具运行所述ETL任务。上述装置,优选地:所述ETL任务处理子单元,用于判断所述ETL任务是否满足预设的任务分割规则, 如果是,将所述ETL任务分割成多个ETL子任务,并在预设的多个ETL工具中选取与每个所 述ETL子任务相对应的ETL工具,以及分别触发每个与所述ETL子任务相对应的ETL工具 运行其各自对应的ETL子任务;其中:所述数据存储单元,用于将所述ETL子任务的运行结果进行拼接,并将拼接的数 据发送至所述目标数据仓库;否则,在所述多个ETL工具中选取与所述ETL任务相对应的ETL工具,触发选取的 ETL工具运行所述ETL任务。上述装置,优选地,所述目标数据仓库包括在线数据仓库和离线数据仓库,其中:所述数据存储单元,用于将所述ETL任务运行结果发送至所述在线数据仓库;并判断所述在线数据仓库的存储空间是否满足预设数据转移规则,如果是,将所 述在线数据仓库存储的数据发送至所述离线数据仓库,以及将所述在线数据仓库清空。本申请还提供了一种ETL数据处理系统,包括如上述任意一项所述的ETL数据处 理装置。由上述方案可知,相对于现有的ETL数据处理方案中为支持多种数据源的数据处 理,需要多种与待处理的数据源相对应的驱动/导入/导出工具,由此降低了 ETL数据处理 的速度,影响ETL数据处理的效率的技术问题,本申请提供的一种ETL数据处理方法、装置 及系统通过将数据源的待处理数据进行统一的CSV格式转换之后,再依次进行抽取、转换 及加本文档来自技高网...
【技术保护点】
一种ETL数据处理方法,其特征在于,包括:获取数据源中的源数据,并将所述源数据转换为逗号分隔值CSV格式的源数据;依据所述CSV格式的源数据创建ETL任务,触发ETL工具运行所述ETL任务;将所述ETL任务运行结果发送至目标数据仓库。
【技术特征摘要】
【专利技术属性】
技术研发人员:李晨,
申请(专利权)人:杭州勒卡斯广告策划有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。