数据处理方法及处理系统技术方案

技术编号:4272384 阅读:217 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种数据处理方法及处理系统。其中数据处理方法包括:根据预设的配置文件从数据源抽取数据;在内存中对抽取的数据进行第一转换;将第一转换后的数据载入到数据仓库中;根据预设的任务对数据仓库中的数据进行第二转换。本发明专利技术的数据处理方法及处理系统,根据转换的数据量和特性,通过将转换效率较高、系统资源消耗小的第一转换在内存中执行,而将其他转换效率低且系统资源消耗较大的转换在数据仓库中进行,大大减少了内存中处理数据的切换,降低了主机I/O资源吞吐,并且,利用数据库的索引技术,使得海量数据的关联转换效率大幅度提高。

【技术实现步骤摘要】

本专利技术涉及一种移动经营分析管理技术,尤其涉及一种数据处理方法及处理系统
技术介绍
随着经营分析系统在经营决策和营销管理方面起着越来越重要的作用,其所承载 的应用也日趋丰富,随之而来的是系统处理数据的压力不断增大,现有的数据处理技术暴 露出很多问题。 现有的经营分析系统,数据处理技术是传统的基于文件系统的ETL技术。ETL是英 文Extract-Transform-Load的縮写,用来描述将资料从来源端经过抽取(extract)、转换 (transform)、载入(load)至目的端的过程。ETL是数据仓库理论中数据处理的核心环节。 传统的数据仓库ETL技术就是对数据源的数据做抽取,在文件系统中做转换,之 后再加载到数据仓库。现有的抽取技术是基于数据库的直接文本导出,导出的文件放到主 机的文件系统中;现有的转化技术是将基于文件系统的文件做行级别的字段拆分和文件级 别的关联计算,将转换的结果再次生成文本文件放到文件系统中,由装载程序将转换的结 果装载到数据仓库。 现有技术的缺陷主要有以下几点 1、转换效率低,系统资源消耗严重 现有的处理技术把大量的计算全部集中在转换环节,虽然基于文件系统的转换算 法相对简单,只是对字符串的拆分和关联处理,但是,当处理海量数据时,会对磁盘数据进 行频繁读写,IO吞吐过大,常常因为系统资源消耗过大而任务运行失败,计算效率较低,而且系统资源消耗严重。 2、转化计算压力集中,造成资源拥塞现象 现有的数据处理流程是抽取、转换、装载,转换完全集中在一个环节完成,特别是 基于话单和账单的转换,由于数据计算量过大,而基于文件系统的转换处理无法利用索引 技术,因此在关联运算时效率很低。 3 、不支持多任务集群调度 现有的任务管理方式是定时启动模式,这种方式在多任务集群调度时存在着问 题,无法动态根据任务的优先级和系统资源利用情况调整任务的执行顺序和资源分配。
技术实现思路
本专利技术的第一目的在于,针对现有技术中数据处理转换效率低、系统资源消耗严重的缺陷,提供一种转换效率较高且能够节约系统资源的数据处理方法。 本专利技术的第二目的在于,针对现有技术中数据处理转换效率低、系统资源消耗严重的缺陷,提供一种转换效率较高且能够节约系统资源的数据处理系统。 根据本专利技术的第一目的,提供一种数据处理方法,包括根据预设的配置文件从数据源抽取数据;在内存中对所述抽取的数据进行第一转换;将所述第一转换后的数据载入到数据仓库中;根据预设的任务对所述数据仓库中的数据进行第二转换。 根据本专利技术的第二目的,提供一种数据处理系统,包括位于内存中的抽取装置,用于根据预设的配置文件从数据源抽取数据;第一转换装置,用于对所述抽取的数据进行第一转换;载入装置,用于将所述第一转换后的数据载入到数据仓库中;第二转换装置,用于根据预设的任务对所述数据仓库中的数据进行第二转换。 本专利技术的数据处理方法及处理系统,根据转换的数据量和特性,通过将转换效率 较高、系统资源消耗小的第一转换在内存中执行,而将其他转换效率低且系统资源消耗较大的转换在数据仓库中进行,大大减少了内存中处理数据的切换,降低了主机i/o资源吞吐,并且,利用数据库的索引技术,使得海量数据的关联转换效率大幅度提高。 附图说明 图1是本专利技术第一实施例数据处理系统的结构图; 图2是本专利技术第一实施例数据处理方法的流程图; 图3是本专利技术第二实施例数据处理系统的结构图; 图4是新旧技术系统资源消耗对比图。具体实施例方式以下结合附图对本专利技术进行详细说明。 如图1所示,本专利技术第一实施例的数据处理系统包括位于内存40中的抽取装置 402,根据预设的配置文件从数据源20抽取数据;第一转换装置404,对抽取的数据进行第 一转换;载入装置406,将第一转换后的数据载入到数据仓库60中;第二转换装置80,根据 预设的任务对数据仓库中的数据进行第二转换。 优选地,本专利技术第一实施例的数据处理系统还包括位于内存中的内存计数器 408,分别对抽取数据的个数、转换数据的个数和载入数据的个数进行计数,分别得到第一 计数值、第二计数值和第三计数值中至少一个;比较器410,将配置文件中待处理数据的个 数分别与第一计数值、第二计数值和第三计数值进行比较。本专利技术第一实施例中,配置文件中包括各个任务对应的数据源名称、需要处理数据的个数、所要处理的数据在数据源中的位置等等信息。 如图2所示,本专利技术第二实施例的数据处理方法包括 步骤802,开始; 步骤804,根据配置文件抽取数据; 步骤812,在内存中对抽取后的数据进行第一转换; 步骤820,将第一转换后的数据载入到数据仓库中。 优选地,步骤804之后还包括 步骤806,对抽取数据的个数进行计数,得到第一计数值; 步骤808,比较第一计数值与配置文件中该任务待处理数据的个数是否相等,如果 是,执行步骤810,如果否,执行步骤804 ; 步骤810,抽取完成。 优选地,步骤812之后还包括 步骤814,对转换数据的个数进行计数,得到第二计数值; 步骤816,比较第二计数值与配置文件中该任务待处理数据的个数是否相等,如果是,执行步骤818,如果否,执行步骤812 ; 步骤818,转换完成。 优选地,步骤820之后还包括 步骤822,对载入数据的个数进行计数,得到第三计数值; 步骤824,比较第三计数值与配置文件中该任务待处理数据的个数是否相等,如果 是,执行步骤826,如果否,执行步骤820 ; 步骤826,载入完成; 步骤828,根据预设的任务对数据仓库中的数据进行第二转换。 其中,第一实施例中,步骤812中的第一转换为行级转换,即对单行数据的拆分和 字段类型转换。将行级转换放到内存中进行,是由于内存的转换算法处理行级转换效率非 常高,这样会提高整个数据处理过程的转换效率。 除了行级转换之外,还有时间字段类型转换和空值转换等转换在内存中进行,这些转换在内存中处理效率高。时间字段类型转换,如把年-月_日-小时-分转换成年月日格式;空值转换,如数据中某一字段为空,那么用特点字符代替该空值。 另外,第一实施例中,并不是在所有的数据抽取完成后才进行转换,而是在抽取的同时,对已抽取的数据进行第一转换。实际操作时可以设置一个数值,当抽取的数据到达这一数值时,就开始对该部分数据进行第一转换。同理,在转换数据的同时,也可以将已转换的数据载入到数据仓库中。这样,加快数据处理的过程,节约了数据处理的时间。 第一实施例中,第二转换主要为关联转换,即表级转换,为大量数据的相互关联运算,转换完成后生成相应的结果表和日志表。由于关联转换的数据计算量庞大,因此在将数据载入到数据仓库60后进行。 本专利技术的第一实施例,根据转换的数据量和特性,将转换效率较高、系统资源消耗 小的行级转换在内存中执行,而将其他转换效率低且系统资源消耗较大的转换在数据仓库 中进行,这样,大大减少了内存中处理数据的切换,降低了主机I/O资源吞吐,并且,利用数 据库的索引技术,使得海量数据的关联转换效率大幅度提高。 如图4所示,本专利技术第二实施例,数据处理系统还包括任务排序装置412和资源 分配装置414中至少一个, 任务排序装置412,根据配置文件中各个任务的优先级对各个任务进行排序;抽 取装置402,根据本文档来自技高网
...

【技术保护点】
一种数据处理方法,其特征在于,包括:根据预设的配置文件从数据源抽取数据;在内存中对所述抽取的数据进行第一转换;将所述第一转换后的数据载入到数据仓库中;根据预设的任务对所述数据仓库中的数据进行第二转换。

【技术特征摘要】
一种数据处理方法,其特征在于,包括根据预设的配置文件从数据源抽取数据;在内存中对所述抽取的数据进行第一转换;将所述第一转换后的数据载入到数据仓库中;根据预设的任务对所述数据仓库中的数据进行第二转换。2. 根据权利要求1所述的数据处理方法,其特征在于,所述根据预设的配置文件从数 据源抽取数据的操作具体包括根据所述配置文件获得各个任务待处理数据的个数;从所述数据源抽取数据,同时对所述抽取数据的个数进行计数,得到第一计数值; 比较所述第一计数值与所述待处理数据的个数,当所述第一计数值与所述待处理数据 的个数相等时,抽取完成。3. 根据权利要求2所述的数据处理方法,其特征在于,所述在内存中对所述抽取的数 据进行第一转换的操作具体包括对所述数据进行第一转换,同时对转换数据的个数进行计数,得到第二计数值; 比较所述第二计数值与所述待处理数据的个数,当所述第二计数值与所述待处理数据 的个数相等时,转换完成。4. 根据权利要求3所述的数据处理方法,其特征在于,所述将所述第一转换后的数据 载入到数据仓库中的操作具体包括将所述第一转换后的数据载入到数据仓库,同时对载入数据的个数进行计数,得到第 三计数值;比较所述第三计数值与所述待处理数据的个数,当所述第三计数值与所述待处理数据 的个数相等时,载入完成。5. 根据权利要求1所述的数据处理方法,其特征在于,所述第一转换为行级转换、时间 字段类型转换和空值转换中至少一个转换;和/或所述第二转换为关联转换。6. 根据权利要求1至5中任意一项所述的数据处理方法,其特征在于,所述根据预设的 配置文件从数据源抽取数据的操作具...

【专利技术属性】
技术研发人员:孟繁力刘刚王雅文焦丽红
申请(专利权)人:中国移动通信集团黑龙江有限公司
类型:发明
国别省市:93[中国|哈尔滨]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1