The present invention includes a method and apparatus, import data, methods: to obtain source data to be imported into the database collection, the collection includes source data from multiple data sources to multiple source data; for multiple source data table data structure identification, and according to the identification results of several the source data table for clustering, to obtain multiple data acquisition and conversion of isomorphism; cleaning rules corresponding to each isomorphic data; according to the cleaning and transformation rules of each isomorphism for each isomorphism data corresponding to the data processing, and data into the database in each group after treatment. The embodiment of the invention provides a method, which reduces manual repetition operation, realizes importing multiple source data tables from multiple data sources, and improves the import efficiency of the source data tables of multiple data sources.
【技术实现步骤摘要】
数据的导入方法及装置
本专利技术涉及计算机
,尤其涉及一种数据的导入方法及装置。
技术介绍
在大数据平台的构建中,一项最为繁琐的工作就是从各种数据源中抽取、清洗和转换各种异构数据。其中,数据源可能来自于不同的组织、不同的平台、不同操作系统,这种多样性造成了不规范的“脏数据”的大量存在,不规范的主要原因有:1)不同数据源数据存储方式不同,有关系数据库系统中的数据(如Mysql、oracle等),有非结构化的文件数据(如Excel、文本文件等)还有半结构化的数据(如从网页抓取的数据等),即便是同一类存储方式,数据类型结构可能也存在着差异。2)不同组织采用不同的数据标准,数据项的划分、字段名称、数据字典的定义、数据格式的表示、数据所在的定义域都存在差异。3)源数据与目标数据模型不一致,不同数据源在数据对象间关联关系的建模方式上各不相同。目前,对于大数据的处理,通常使用ETL(ExtractionTransformationLoading,抽取转换加载)过程将分布的、异构数据源中的数据进行清洗、转换和集成,最后加载到目标数据库中。异构数据源集成问题也是ETL所面临的主要挑战之一。目前主要采取统一元数据来进行异构数据的统一化管理。在相关技术中,需要针对每种业务来源的数据进行大量的预处理,为每种数据结构人工配置数据清洗和转换的规则,然后才能开始运行ETL过程。现有的数据导入系统往往只能一次配置一种类型的数据结构,并按照指定的规则将其导入到目标数据库中,存在大量的重复工作,并且配置过程还会引入人为错误,增加失败处理的成本。在互联网数据每天大量产生的环境下,依靠人工 ...
【技术保护点】
一种数据的导入方法,其特征在于,包括以下步骤:获取待导入数据库的源数据集合,其中,所述源数据集合包括来源于多个数据源的多个源数据表;对所述多个源数据表进行数据结构识别,并根据识别结果对所述多个源数据表进行聚类,以获取多组同构数据;获取与每组同构数据对应的清洗与转换规则;根据每组同构数据对应的清洗与转换规则对每组同构数据进行处理,并将每组处理后的数据导入所述数据库。
【技术特征摘要】
1.一种数据的导入方法,其特征在于,包括以下步骤:获取待导入数据库的源数据集合,其中,所述源数据集合包括来源于多个数据源的多个源数据表;对所述多个源数据表进行数据结构识别,并根据识别结果对所述多个源数据表进行聚类,以获取多组同构数据;获取与每组同构数据对应的清洗与转换规则;根据每组同构数据对应的清洗与转换规则对每组同构数据进行处理,并将每组处理后的数据导入所述数据库。2.如权利要求1所述的方法,其特征在于,所述对所述多个源数据表进行数据结构识别,并根据识别结果对所述多个源数据表进行聚类,以获取多组同构数据,包括:对每个源数据表中每列数据进行特征提取,以获取每列数据的特征提取结果;针对每个源数据表,根据每列数据的特征提取结果确定每列数据的属性类别;根据每个源数据表中每列数据的属性类别分别确定每个源数据表中的实体;根据每个源数据表中的实体对多个源数据表进行聚类,以将具有相同实体的源数据表作为一组。3.如权利要求1所述的方法,其特征在于,所述获取与每组同构数据对应的清洗与转换规则,包括:根据预先配置的分组与清洗和转换规则的对应关系,获取与每组同构数据对应的清洗与转换规则。4.如权利要求1-3任一项所述的方法,其特征在于,在所述将每组处理后的数据导入所述数据库时,所述方法还包括:向用户提供导入进度信息。5.如权利要求1-3任一项所述的方法,其特征在于,所述将每组处理后的数据导入所述数据库,包括:按照预先为每组同构数据设置的导入优先级顺序,将每组处理后的数据导入所述数据库。6.如权利要求1-3任一项所述的方法,其特征在于,在所述将每组处理后的数据导入所述数据库之后,所述方法还包括:向用户提供导入结果,所述导入结果包括导入成功和失败的数据行数,以及错误数据的详细信息。7.一种数据的导入装置,其特征在于,包括:第一获取模块,用于获取待导入数据库...
【专利技术属性】
技术研发人员:赵云志,秦锋剑,
申请(专利权)人:小草数语北京科技有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。