数据的导入方法及装置制造方法及图纸

技术编号:16779530 阅读:26 留言:0更新日期:2017-12-12 23:51
本发明专利技术提出一种数据的导入方法及装置,其中,方法包括:获取待导入数据库的源数据集合,其中,源数据集合包括来源于多个数据源的多个源数据表;对多个源数据表进行数据结构识别,并根据识别结果对多个源数据表进行聚类,以获取多组同构数据;获取与每组同构数据对应的清洗与转换规则;根据每组同构数据对应的清洗与转换规则对每组同构数据进行处理,并将每组处理后的数据导入数据库。本发明专利技术实施例提供方法,减少了人工重复操作,实现了对来源于多个数据源的多个源数据表的同时导入,提高了多数据源的源数据表的导入效率。

Method and device for importing data

The present invention includes a method and apparatus, import data, methods: to obtain source data to be imported into the database collection, the collection includes source data from multiple data sources to multiple source data; for multiple source data table data structure identification, and according to the identification results of several the source data table for clustering, to obtain multiple data acquisition and conversion of isomorphism; cleaning rules corresponding to each isomorphic data; according to the cleaning and transformation rules of each isomorphism for each isomorphism data corresponding to the data processing, and data into the database in each group after treatment. The embodiment of the invention provides a method, which reduces manual repetition operation, realizes importing multiple source data tables from multiple data sources, and improves the import efficiency of the source data tables of multiple data sources.

【技术实现步骤摘要】
数据的导入方法及装置
本专利技术涉及计算机
,尤其涉及一种数据的导入方法及装置。
技术介绍
在大数据平台的构建中,一项最为繁琐的工作就是从各种数据源中抽取、清洗和转换各种异构数据。其中,数据源可能来自于不同的组织、不同的平台、不同操作系统,这种多样性造成了不规范的“脏数据”的大量存在,不规范的主要原因有:1)不同数据源数据存储方式不同,有关系数据库系统中的数据(如Mysql、oracle等),有非结构化的文件数据(如Excel、文本文件等)还有半结构化的数据(如从网页抓取的数据等),即便是同一类存储方式,数据类型结构可能也存在着差异。2)不同组织采用不同的数据标准,数据项的划分、字段名称、数据字典的定义、数据格式的表示、数据所在的定义域都存在差异。3)源数据与目标数据模型不一致,不同数据源在数据对象间关联关系的建模方式上各不相同。目前,对于大数据的处理,通常使用ETL(ExtractionTransformationLoading,抽取转换加载)过程将分布的、异构数据源中的数据进行清洗、转换和集成,最后加载到目标数据库中。异构数据源集成问题也是ETL所面临的主要挑战之一。目前主要采取统一元数据来进行异构数据的统一化管理。在相关技术中,需要针对每种业务来源的数据进行大量的预处理,为每种数据结构人工配置数据清洗和转换的规则,然后才能开始运行ETL过程。现有的数据导入系统往往只能一次配置一种类型的数据结构,并按照指定的规则将其导入到目标数据库中,存在大量的重复工作,并且配置过程还会引入人为错误,增加失败处理的成本。在互联网数据每天大量产生的环境下,依靠人工配置难以做到多种类数据的实时获取和利用,其效率是无法接受的。
技术实现思路
本专利技术旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本专利技术的第一个目的在于提出一种数据的导入方法,减少了人工重复操作,实现了对来源于多个数据源的多个源数据表的同时导入,提高了多数据源的源数据表的导入效率。本专利技术的第二个目的在于提出一种数据的导入装置。本专利技术的第三个目的在于提出一种非临时性计算机可读存储介质。为达上述目的,本专利技术第一方面实施例提出了一种数据的导入方法,包括:获取待导入数据库的源数据集合,其中,所述源数据集合包括来源于多个数据源的多个源数据表;对所述多个源数据表进行数据结构识别,并根据识别结果对所述多个源数据表进行聚类,以获取多组同构数据;获取与每组同构数据对应的清洗与转换规则;根据每组同构数据对应的清洗与转换规则对每组同构数据进行处理,并将每组处理后的数据导入所述数据库。根据本专利技术的一个实施例,所述对所述多个源数据表进行数据结构识别,并根据识别结果对所述多个源数据表进行聚类,以获取多组同构数据,包括:对每个源数据表中每列数据进行特征提取,以获取每列数据的特征提取结果;针对每个源数据表,根据每列数据的特征提取结果确定每列数据的属性类别;根据每个源数据表中每列数据的属性类别分别确定每个源数据表中的实体;根据每个源数据表中的实体对多个源数据表进行聚类,以将具有相同实体的源数据表作为一组。根据本专利技术的一个实施例,所述获取与每组同构数据对应的清洗与转换规则,包括:根据预先配置的分组与清洗和转换规则的对应关系,获取与每组同构数据对应的清洗与转换规则。根据本专利技术的一个实施例,在所述将每组处理后的数据导入所述数据库时,所述方法还包括:向用户提供导入进度信息。根据本专利技术的一个实施例,所述将每组处理后的数据导入所述数据库,包括:按照预先为每组同构数据设置的导入优先级顺序,将每组处理后的数据导入所述数据库。根据本专利技术的一个实施例,在所述将每组处理后的数据导入所述数据库之后,所述方法还包括:向用户提供导入结果,所述导入结果包括导入成功和失败的数据行数,以及错误数据的详细信息。本专利技术实施例的数据的导入方法,获取待导入数据库的源数据集合,其中,源数据集合包括来源于多个数据源的多个源数据表;对多个源数据表进行数据结构识别,并根据识别结果对多个源数据表进行聚类,以获取多组同构数据;获取与每组同构数据对应的清洗与转换规则;根据每组同构数据对应的清洗与转换规则对每组同构数据进行处理,并将每组处理后的数据导入数据库,由此,减少了人工重复操作,实现了对来源于多个数据源的多个源数据表的同时导入,提高了多数据源的源数据表的导入效率。为达上述目的,本专利技术第二方面实施例提出了一种数据的导入装置,包括:第一获取模块,用于获取待导入数据库的源数据集合,其中,所述源数据集合包括来源于多个数据源的多个源数据表;第一处理模块,用于对所述多个源数据表进行数据结构识别,并根据识别结果对所述多个源数据表进行聚类,以获取多组同构数据;第二获取模块,用于获取与每组同构数据对应的清洗与转换规则;第二处理模块,用于根据每组同构数据对应的清洗与转换规则对每组同构数据进行处理,并将每组处理后的数据导入所述数据库。根据本专利技术的一个实施例,所述第一处理模块,包括:提取单元,用于对每个源数据表中每列数据进行特征提取,以获取每列数据的特征提取结果;第一确定单元,用于针对每个源数据表,根据每列数据的特征提取结果确定每列数据的属性类别;第二确定单元,用于根据每个源数据表中每列数据的属性类别分别确定每个源数据表中的实体;聚类单元,用于根据每个源数据表中的实体对多个源数据表进行聚类,以将具有相同实体的源数据表作为一组。根据本专利技术的一个实施例,所述第二处理模块,具体用于:根据预先配置的分组与清洗和转换规则的对应关系,获取与每组同构数据对应的清洗与转换规则。根据本专利技术的一个实施例,在所述将每组处理后的数据导入所述数据库时,所述装置还包括:第一提供模块,用于向用户提供导入进度信息。根据本专利技术的一个实施例,所述第二处理模块,具体用于:按照预先为每组同构数据设置的导入优先级顺序,将每组处理后的数据导入所述数据库。根据本专利技术的一个实施例,所述装置还包括:第二提供模块,用于向用户提供导入结果,所述导入结果包括导入成功和失败的数据行数,以及错误数据的详细信息。本专利技术实施例的数据的导入装置,获取待导入数据库的源数据集合,其中,源数据集合包括来源于多个数据源的多个源数据表;对多个源数据表进行数据结构识别,并根据识别结果对多个源数据表进行聚类,以获取多组同构数据;获取与每组同构数据对应的清洗与转换规则;根据每组同构数据对应的清洗与转换规则对每组同构数据进行处理,并将每组处理后的数据导入数据库,由此,减少了人工重复操作,实现了对来源于多个数据源的多个源数据表的同时导入,提高了多数据源的源数据表的导入效率。为达上述目的,本专利技术第三方面实施例提出了一种非临时性计算机可读存储介质,其上存储有计算机程序,当计算机程序被处理器执行时实现如第一方面实施例所述的数据的导入方法。本专利技术附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本专利技术的实践了解到。附图说明本专利技术上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:图1为根据本专利技术一个实施例的数据的导入方法的流程示意图;图2为步骤S102的细化流程示意图;图3为根据本专利技术另一个实施例的数据的导入方法的流程示意图;图4为根据本专利技术又一个实施例的数据的导入方法的示意本文档来自技高网
...
数据的导入方法及装置

【技术保护点】
一种数据的导入方法,其特征在于,包括以下步骤:获取待导入数据库的源数据集合,其中,所述源数据集合包括来源于多个数据源的多个源数据表;对所述多个源数据表进行数据结构识别,并根据识别结果对所述多个源数据表进行聚类,以获取多组同构数据;获取与每组同构数据对应的清洗与转换规则;根据每组同构数据对应的清洗与转换规则对每组同构数据进行处理,并将每组处理后的数据导入所述数据库。

【技术特征摘要】
1.一种数据的导入方法,其特征在于,包括以下步骤:获取待导入数据库的源数据集合,其中,所述源数据集合包括来源于多个数据源的多个源数据表;对所述多个源数据表进行数据结构识别,并根据识别结果对所述多个源数据表进行聚类,以获取多组同构数据;获取与每组同构数据对应的清洗与转换规则;根据每组同构数据对应的清洗与转换规则对每组同构数据进行处理,并将每组处理后的数据导入所述数据库。2.如权利要求1所述的方法,其特征在于,所述对所述多个源数据表进行数据结构识别,并根据识别结果对所述多个源数据表进行聚类,以获取多组同构数据,包括:对每个源数据表中每列数据进行特征提取,以获取每列数据的特征提取结果;针对每个源数据表,根据每列数据的特征提取结果确定每列数据的属性类别;根据每个源数据表中每列数据的属性类别分别确定每个源数据表中的实体;根据每个源数据表中的实体对多个源数据表进行聚类,以将具有相同实体的源数据表作为一组。3.如权利要求1所述的方法,其特征在于,所述获取与每组同构数据对应的清洗与转换规则,包括:根据预先配置的分组与清洗和转换规则的对应关系,获取与每组同构数据对应的清洗与转换规则。4.如权利要求1-3任一项所述的方法,其特征在于,在所述将每组处理后的数据导入所述数据库时,所述方法还包括:向用户提供导入进度信息。5.如权利要求1-3任一项所述的方法,其特征在于,所述将每组处理后的数据导入所述数据库,包括:按照预先为每组同构数据设置的导入优先级顺序,将每组处理后的数据导入所述数据库。6.如权利要求1-3任一项所述的方法,其特征在于,在所述将每组处理后的数据导入所述数据库之后,所述方法还包括:向用户提供导入结果,所述导入结果包括导入成功和失败的数据行数,以及错误数据的详细信息。7.一种数据的导入装置,其特征在于,包括:第一获取模块,用于获取待导入数据库...

【专利技术属性】
技术研发人员:赵云志秦锋剑
申请(专利权)人:小草数语北京科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1