数据抽取及转化的方法和装置制造方法及图纸

技术编号:22688778 阅读:42 留言:0更新日期:2019-11-30 03:29
本发明专利技术提出一种数据抽取及转化的方法,该方法从异构数据库中抽取数据,将数据转化后保存到综合数据库中,该方法包括:数据抽取步骤、代码获取步骤、数据清洗步骤、转换步骤、数据集成步骤、数据装载步骤和数据校验步骤。本发明专利技术还提出一种数据抽取及转化的装置,该装置包括:存储组件、数据抽取组件、代码获取组件、数据清洗组件、转换组件、数据集成组件、数据装载组件和数据校验组件。本发明专利技术的数据抽取及转化的方法和装置能够对如何对异构数据库中的数据进行整合,将异构数据库中的数据整合到统一的综合数据库中。

Methods and devices of data extraction and transformation

The invention provides a method of data extraction and transformation, which extracts data from heterogeneous database and saves the data after transformation to comprehensive database. The method includes: data extraction step, code acquisition step, data cleaning step, transformation step, data integration step, data loading step and data verification step. The invention also provides a device for data extraction and conversion, which comprises a storage component, a data extraction component, a code acquisition component, a data cleaning component, a conversion component, a data integration component, a data loading component and a data verification component. The data extraction and transformation method and device of the invention can integrate the data in the heterogeneous database and integrate the data in the heterogeneous database into the unified comprehensive database.

【技术实现步骤摘要】
数据抽取及转化的方法和装置
本专利技术涉及数据处理
,更具体地说,涉及在异构数据库之间进行数据抽取和转化的技术。
技术介绍
在政府部门和大型企业中,会使用庞大复杂的管理系统。随着技术的进步,管理系统也会进行升级换代。在升级换代的过程中,不可避免地会涉及到数据的迁徙。大型的管理系统中,通常将数据保存在数据库中。设立在不同分部或者建立与不同时期的数据库会采用不同的数据库技术,这些数据库形成异构数据库。在管理系统升级时,如何对异构数据库中的数据进行整合,是一个棘手的问题。
技术实现思路
本专利技术旨在提出一种在异构数据库之间进行数据整合的技术。根据本专利技术的一实施例,提出一种数据抽取及转化的方法,该方法从异构数据库中抽取数据,将数据转化后保存到综合数据库中,该方法包括:数据抽取步骤,从异构数据库中抽取数据并保存到转储数据库中,在转储数据库中的数据保留原始状态;代码获取步骤,从异构数据库中获取代码并保存到代码库中,在代码库中的代码保留原始状态;数据清洗步骤,对转储数据库中的数据应用清洗规则,未通过清洗的数据为首批问题数据,将首批问题数据保存到问题数据库中;转换步骤,对经清洗的数据进行数据转换,对代码库中的代码进行代码转换;数据集成步骤,对经转换的数据进行集成,建立数据之间的关联关系;数据装载步骤,将经集成的数据和经转换的代码保存到综合数据库中;数据校验步骤,对综合数据库中的数据应用校验规则,未通过校验的数据为次批问题数据,将次批问题数据从综合数据库中移出并保存到问题数据库中。根据本专利技术的一实施例,在数据抽取步骤中,被抽取到转储数据库中的数据保留原始状态,包括原始字符集、原始格式和特殊数据项的原始值。根据本专利技术的一实施例,转换步骤包括:字符集转换步骤,将经清洗的数据的原始字符集转换为统一字符集;格式转换步骤,将经清洗的数据的原始格式转换为综合数据库的统一格式;值转换步骤,将经清洗的数据中特殊数据项的原始值转换为综合数据库的替换值;代码转换步骤,将代码库中来自异构数据库的代码转换为综合数据库中的统一代码。根据本专利技术的一实施例,字符集转换步骤包括字符编码转换、数据库字符集转换和中文字符编码集合转换;格式转换步骤包括数据类型转换、数据格式转换和度量单位转换;值转换步骤包括特殊数据项的值替换、特殊数据项的拆分和特殊数据项的合并;在执行转换步骤时,从元数据库中导入元数据。根据本专利技术的一实施例,在数据集成步骤中,将经转换的数据按照要素和层次进行组织,并按照要素和层次建立数据之间的关联。根据本专利技术的一实施例,提出一种数据抽取及转化的装置,该装置从异构数据库中抽取数据,将数据转化后保存到综合数据库中,该装置包括:存储组件,存储组件包括转储数据库、问题数据库和代码库;数据抽取组件,数据抽取组件从异构数据库中抽取数据并保存到转储数据库中,在转储数据库中的数据保留原始状态;代码获取组件,代码获取组件从异构数据库中获取代码并保存到代码库中,在代码库中的代码保留原始状态;数据清洗组件,数据清洗组件对转储数据库中的数据应用清洗规则,未通过清洗的数据为首批问题数据,数据清洗组件将首批问题数据保存到问题数据库中;转换组件,转换组件对经清洗的数据进行数据转换,对代码库中的代码进行代码转换;数据集成组件,数据集成组件对经转换的数据进行集成,并建立数据之间的关联关系;数据装载组件,数据装载组件将经集成的数据和经转换的代码保存到综合数据库中;数据校验组件,数据校验组件对综合数据库中的数据应用校验规则,未通过校验的数据为次批问题数据,数据校验组件将次批问题数据从综合数据库中移出并保存到问题数据库中。根据本专利技术的一实施例,由数据抽取组件抽取到转储数据库中的数据保留原始状态,包括原始字符集、原始格式和特殊数据项的原始值。根据本专利技术的一实施例,转换组件包括:字符集转换单元,字符集转换单元将经清洗的数据的原始字符集转换为统一字符集;格式转换单元,格式转换单元将经清洗的数据的原始格式转换为综合数据库的统一格式;值转换单元,值转换单元将经清洗的数据中特殊数据项的原始值转换为综合数据库的替换值;代码转换单元,代码转换单元将代码库中来自异构数据库的代码转换为综合数据库中的统一代码。根据本专利技术的一实施例,字符集转换组件对字符编码、数据库字符集和中文字符编码集合进行转换;格式转换组件对数据类型、数据格式和度量单位进行转换;值转换组件进行特殊数据项的值替换、特殊数据项的拆分和特殊数据项的合并;转换组件连接到元数据库并从元数据库中导入元数据。根据本专利技术的一实施例,数据集成组件将经转换的数据按照要素和层次进行组织,并按照要素和层次建立数据之间的关联。本专利技术的数据抽取及转化的方法和装置能够对如何对异构数据库中的数据进行整合,将异构数据库中的数据整合到统一的综合数据库中。附图说明图1揭示了根据本专利技术的一实施例的数据抽取及转化的方法的流程图。图2揭示了根据本专利技术的一实施例的数据抽取及转化的装置的结构框图。具体实施方式首先参考图1所示,图1揭示了根据本专利技术的一实施例的数据抽取及转化的方法的流程图。该数据抽取及转化的方法从异构数据库中抽取数据,将数据转化后保存到综合数据库中,该方法包括如下的步骤:S101、数据抽取步骤。在数据抽取步骤中从不同的异构数据库中抽取数据并保存到转储数据库中。存储在转储数据库中的数据保留原始状态。在一个实施例中,被抽取并存储在转储数据库中的数据保留原始状态,所谓数据的原始状态包括原始字符集、原始格式和特殊数据项的原始值。数据的原始状态即为数据保存在最初的异构数据库中时的状态。S102、代码获取步骤。在代码获取步骤中从异构数据库中获取代码并保存到代码库中,在代码库中的代码保留原始状态。代码的原始状态即代码保持在最初的异构数据库中时的状态。S103、数据清洗步骤。对转储数据库中的数据应用清洗规则,未通过清洗的数据为首批问题数据,将首批问题数据保存到问题数据库中。数据清洗的目的是从抽取出来的数据中找出问题数据,并把这些问题数据标注问题原因后转移到问题数据库中。数据清洗步骤中主要是将明显错误的数据找出并转移到问题数据库中。明显错误的数据是错误判断比较简单且错误比较严重的数据,比如数据格式不完整、字符差错、明显的异常值等。S104、转换步骤。在转换步骤中对经清洗的数据进行数据转换,并对代码库中的代码进行代码转换。在一个实施例中,转换步骤包括:字符集转换步骤、格式转换步骤、值转换步骤和代码转换步骤。字符集转换步骤将经清洗的数据的原始字符集转换为统一字符集。在一个实施例中,字符集转换步骤包括字符编码转换、数据库字符集转换和中文字符编码集合转换。格式转换步骤将经清洗的数据的原始格式转换为综合数据库的统一格式。本文档来自技高网...

【技术保护点】
1.一种数据抽取及转化的方法,其特征在于,该方法从异构数据库中抽取数据,将数据转化后保存到综合数据库中,该方法包括:/n数据抽取步骤,从异构数据库中抽取数据并保存到转储数据库中,在转储数据库中的数据保留原始状态;/n代码获取步骤,从异构数据库中获取代码并保存到代码库中,在代码库中的代码保留原始状态;/n数据清洗步骤,对转储数据库中的数据应用清洗规则,未通过清洗的数据为首批问题数据,将首批问题数据保存到问题数据库中;/n转换步骤,对经清洗的数据进行数据转换,对代码库中的代码进行代码转换;/n数据集成步骤,对经转换的数据进行集成,建立数据之间的关联关系;/n数据装载步骤,将经集成的数据和经转换的代码保存到综合数据库中;/n数据校验步骤,对综合数据库中的数据应用校验规则,未通过校验的数据为次批问题数据,将次批问题数据从综合数据库中移出并保存到问题数据库中。/n

【技术特征摘要】
1.一种数据抽取及转化的方法,其特征在于,该方法从异构数据库中抽取数据,将数据转化后保存到综合数据库中,该方法包括:
数据抽取步骤,从异构数据库中抽取数据并保存到转储数据库中,在转储数据库中的数据保留原始状态;
代码获取步骤,从异构数据库中获取代码并保存到代码库中,在代码库中的代码保留原始状态;
数据清洗步骤,对转储数据库中的数据应用清洗规则,未通过清洗的数据为首批问题数据,将首批问题数据保存到问题数据库中;
转换步骤,对经清洗的数据进行数据转换,对代码库中的代码进行代码转换;
数据集成步骤,对经转换的数据进行集成,建立数据之间的关联关系;
数据装载步骤,将经集成的数据和经转换的代码保存到综合数据库中;
数据校验步骤,对综合数据库中的数据应用校验规则,未通过校验的数据为次批问题数据,将次批问题数据从综合数据库中移出并保存到问题数据库中。


2.如权利要求1所述的数据抽取及转化的方法,其特征在于,在数据抽取步骤中,被抽取到转储数据库中的数据保留原始状态,包括原始字符集、原始格式和特殊数据项的原始值。


3.如权利要求1所述的数据抽取及转化的方法,其特征在于,所述转换步骤包括:
字符集转换步骤,将经清洗的数据的原始字符集转换为统一字符集;
格式转换步骤,将经清洗的数据的原始格式转换为综合数据库的统一格式;
值转换步骤,将经清洗的数据中特殊数据项的原始值转换为综合数据库的替换值;
代码转换步骤,将代码库中来自异构数据库的代码转换为综合数据库中的统一代码。


4.如权利要求3所述的数据抽取及转化的方法,其特征在于,
字符集转换步骤包括字符编码转换、数据库字符集转换和中文字符编码集合转换;
格式转换步骤包括数据类型转换、数据格式转换和度量单位转换;
值转换步骤包括特殊数据项的值替换、特殊数据项的拆分和特殊数据项的合并;
在执行转换步骤时,从元数据库中导入元数据。


5.如权利要求1所述的数据抽取及转化的方法,其特征在于,在数据集成步骤中,将经转换的数据按照要素和层次进行组织,并按照要素和层次建立数据之间的关联。


6.一种数据抽取及转化的装置,其特征在于,该装置从异构数据库中抽取数据,将数据转化后保存...

【专利技术属性】
技术研发人员:马国春张辉帅董心景崔永发王诗博陆轶杰周琳华
申请(专利权)人:上海众恒信息产业股份有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1