The invention provides a method of data extraction and transformation, which extracts data from heterogeneous database and saves the data after transformation to comprehensive database. The method includes: data extraction step, code acquisition step, data cleaning step, transformation step, data integration step, data loading step and data verification step. The invention also provides a device for data extraction and conversion, which comprises a storage component, a data extraction component, a code acquisition component, a data cleaning component, a conversion component, a data integration component, a data loading component and a data verification component. The data extraction and transformation method and device of the invention can integrate the data in the heterogeneous database and integrate the data in the heterogeneous database into the unified comprehensive database.
【技术实现步骤摘要】
数据抽取及转化的方法和装置
本专利技术涉及数据处理
,更具体地说,涉及在异构数据库之间进行数据抽取和转化的技术。
技术介绍
在政府部门和大型企业中,会使用庞大复杂的管理系统。随着技术的进步,管理系统也会进行升级换代。在升级换代的过程中,不可避免地会涉及到数据的迁徙。大型的管理系统中,通常将数据保存在数据库中。设立在不同分部或者建立与不同时期的数据库会采用不同的数据库技术,这些数据库形成异构数据库。在管理系统升级时,如何对异构数据库中的数据进行整合,是一个棘手的问题。
技术实现思路
本专利技术旨在提出一种在异构数据库之间进行数据整合的技术。根据本专利技术的一实施例,提出一种数据抽取及转化的方法,该方法从异构数据库中抽取数据,将数据转化后保存到综合数据库中,该方法包括:数据抽取步骤,从异构数据库中抽取数据并保存到转储数据库中,在转储数据库中的数据保留原始状态;代码获取步骤,从异构数据库中获取代码并保存到代码库中,在代码库中的代码保留原始状态;数据清洗步骤,对转储数据库中的数据应用清洗规则,未通过清洗的数据为首批问题数据,将首批问题数据保存到问题数据库中;转换步骤,对经清洗的数据进行数据转换,对代码库中的代码进行代码转换;数据集成步骤,对经转换的数据进行集成,建立数据之间的关联关系;数据装载步骤,将经集成的数据和经转换的代码保存到综合数据库中;数据校验步骤,对综合数据库中的数据应用校验规则,未通过校验的数据为次批问题数据,将次批问题数 ...
【技术保护点】
1.一种数据抽取及转化的方法,其特征在于,该方法从异构数据库中抽取数据,将数据转化后保存到综合数据库中,该方法包括:/n数据抽取步骤,从异构数据库中抽取数据并保存到转储数据库中,在转储数据库中的数据保留原始状态;/n代码获取步骤,从异构数据库中获取代码并保存到代码库中,在代码库中的代码保留原始状态;/n数据清洗步骤,对转储数据库中的数据应用清洗规则,未通过清洗的数据为首批问题数据,将首批问题数据保存到问题数据库中;/n转换步骤,对经清洗的数据进行数据转换,对代码库中的代码进行代码转换;/n数据集成步骤,对经转换的数据进行集成,建立数据之间的关联关系;/n数据装载步骤,将经集成的数据和经转换的代码保存到综合数据库中;/n数据校验步骤,对综合数据库中的数据应用校验规则,未通过校验的数据为次批问题数据,将次批问题数据从综合数据库中移出并保存到问题数据库中。/n
【技术特征摘要】
1.一种数据抽取及转化的方法,其特征在于,该方法从异构数据库中抽取数据,将数据转化后保存到综合数据库中,该方法包括:
数据抽取步骤,从异构数据库中抽取数据并保存到转储数据库中,在转储数据库中的数据保留原始状态;
代码获取步骤,从异构数据库中获取代码并保存到代码库中,在代码库中的代码保留原始状态;
数据清洗步骤,对转储数据库中的数据应用清洗规则,未通过清洗的数据为首批问题数据,将首批问题数据保存到问题数据库中;
转换步骤,对经清洗的数据进行数据转换,对代码库中的代码进行代码转换;
数据集成步骤,对经转换的数据进行集成,建立数据之间的关联关系;
数据装载步骤,将经集成的数据和经转换的代码保存到综合数据库中;
数据校验步骤,对综合数据库中的数据应用校验规则,未通过校验的数据为次批问题数据,将次批问题数据从综合数据库中移出并保存到问题数据库中。
2.如权利要求1所述的数据抽取及转化的方法,其特征在于,在数据抽取步骤中,被抽取到转储数据库中的数据保留原始状态,包括原始字符集、原始格式和特殊数据项的原始值。
3.如权利要求1所述的数据抽取及转化的方法,其特征在于,所述转换步骤包括:
字符集转换步骤,将经清洗的数据的原始字符集转换为统一字符集;
格式转换步骤,将经清洗的数据的原始格式转换为综合数据库的统一格式;
值转换步骤,将经清洗的数据中特殊数据项的原始值转换为综合数据库的替换值;
代码转换步骤,将代码库中来自异构数据库的代码转换为综合数据库中的统一代码。
4.如权利要求3所述的数据抽取及转化的方法,其特征在于,
字符集转换步骤包括字符编码转换、数据库字符集转换和中文字符编码集合转换;
格式转换步骤包括数据类型转换、数据格式转换和度量单位转换;
值转换步骤包括特殊数据项的值替换、特殊数据项的拆分和特殊数据项的合并;
在执行转换步骤时,从元数据库中导入元数据。
5.如权利要求1所述的数据抽取及转化的方法,其特征在于,在数据集成步骤中,将经转换的数据按照要素和层次进行组织,并按照要素和层次建立数据之间的关联。
6.一种数据抽取及转化的装置,其特征在于,该装置从异构数据库中抽取数据,将数据转化后保存...
【专利技术属性】
技术研发人员:马国春,张辉帅,董心景,崔永发,王诗博,陆轶杰,周琳华,
申请(专利权)人:上海众恒信息产业股份有限公司,
类型:发明
国别省市:上海;31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。