一种数据清洗方法和系统技术方案

技术编号:15254910 阅读:90 留言:0更新日期:2017-05-02 22:11
本发明专利技术提供了一种数据清洗方法和系统,其中数据清洗方法包括:从数据源中抽取数据至中间数据库,确定抽取到中间数据库的数据为数据对象;从中间数据库抽取数据对象,分析得到与各个数据对象分别对应的约束关系;适配数据对象的脏数据类型以及脏数据类型对应的数据特征,筛选脏数据类型和数据特征相适配的数据对象作为清洗对象;根据约束关系设置各个清洗对象的清洗顺序,按照清洗顺序将各个清洗对象依次添加至清洗队列中;匹配数据清洗模型中与各个清洗对象的脏数据类型对应的数据清洗方法,加载数据清洗模型,按照清洗顺序对清洗队列中的清洗对象依次进行清洗;将清洗后的清洗对象存入数据源。本发明专利技术的技术方案能够减少数据清洗的时间和错误率。

Data cleaning method and system

The invention provides a data cleaning method and system, including data cleaning method: extracting data from the database to the intermediate data source, database data extraction to determine the intermediate data objects; from the middle database data extraction and analysis object, each data object corresponding to the constraints corresponding to data type and dirty; dirty data type feature adaptation data object, data object selection of dirty data types and data characteristics matched as cleaning objects; according to the cleaning constraints set up each cleaning object sequence, in accordance with the order of each cleaning cleaning objects are added to the cleaning in the queue; data cleaning method, data types and dirty the cleaning object data cleaning model, load the data cleaning model, according to the order of the cleaning cleaning in the queue The cleaning object is cleaned in sequence, and the cleaned object is stored in the data source. The technical scheme of the invention can reduce the time and error rate of data cleaning.

【技术实现步骤摘要】

本专利技术涉及电力系统
,更为具体地说,涉及一种数据清洗方法和系统。
技术介绍
随着数据仓库技术与数据挖掘技术的广泛应用和发展,业内对如何通过大量数据进行分析决策的过程有了更高的要求。目前在分析决策过程中,企业更多关注的是如何在现有大量数据的背后挖掘出更有用的隐藏信息以及如何利用这些信息来指导和预测企业未来的发展。在基于历史数据的数据仓库的基础上为企业的发展进行指导和预测时,数据的质量问题变得非常关键。根据“垃圾进,垃圾出”原理,数据仓库中的数据经常会存在数据缺失、数据噪声、数据不一致和数据冗余等质量问题。这些存在质量问题的污点数据往往会导致漫长的响应时间和昂贵的操作费用,并且会影响到从数据中导出规则的导出准确性和从数据中挖掘隐藏信息的挖掘模式的正确性,进而使决策支持系统产生误导决策。企业对存在质量问题的污点数据处理的需求与日俱增,对数据清洗的要求也越来越高。在传统的污点数据清洗工作中,主要还是依赖人工对不同数据库中的数据进行人工处理。这样的数据清洗方式不仅会耗费大量的时间,而且由于不可控因素太多,数据清洗的错误率也会增加,导致数据质量的提高程度不高、可靠性不强。
技术实现思路
本专利技术的目的是提供一种数据清洗的技术方案,以解决
技术介绍
中所介绍的现有技术中依靠人工清洗数据导致的耗费时间、数据清洗的错误率增加的问题。为了解决上述技术问题,本专利技术提供如下技术方案:本专利技术提供了一种数据清洗方法,所述数据清洗方法包括:根据数据源模型包含的数据在数据源中的存放地址,从所述数据源中抽取所述数据至中间数据库,确定抽取到所述中间数据库的数据为数据对象;从所述中间数据库中抽取所述数据对象,对所述数据对象的数据架构进行分析,得到与各个数据对象分别对应的约束关系;根据脏数据特征适配模型适配所述数据对象的脏数据类型以及脏数据类型对应的数据特征,筛选脏数据类型以及所述数据特征相适配的数据对象作为清洗对象,其中,所述脏数据特征适配模型包括脏数据类型以及脏数据类型对应的数据特征;根据所述约束关系,设置各个清洗对象的清洗顺序,按照所述清洗顺序将各个清洗对象依次添加至清洗队列中;匹配与各个清洗对象的脏数据类型分别对应的数据清洗方法,加载所述数据清洗模型,按照所述清洗顺序对所述清洗队列中的清洗对象依次进行清洗,其中,所述数据清洗模型包括与各种脏数据类型分别对应的清洗方法;将清洗后的所述清洗对象存入所述数据源。优选地,所述数据清洗方法还包括:判断清洗后的所述清洗对象是否满足数据质量标准模型中的数据清洗标准;若所述清洗对象不满足所述数据清洗标准,则根据所述约束关系将所述清洗对象重新添加至所述清洗队列,重新执行按照所述清洗顺序对所述清洗对象进行清洗的步骤;若所述清洗对象满足所述数据清洗标准,则将所述清洗对象存入所述数据源。优选地,所述数据清洗标准包括数据格式标准、数据特征值范围标准和/或数据约束关系标准;所述判断清洗后的清洗对象是否满足数据质量标准模型中的数据清洗标准,包括:判断清洗后的所述清洗对象的数据格式是否满足所述数据格式标准;判断清洗后的所述清洗对象的数据特征值是否满足所述数据特征值范围标准;和/或判断清洗后的所述清洗对象的数据约束关系是否满足所述数据约束关系标准。优选地,所述数据清洗方法还包括:根据所述数据对象的数据特征值和所述数据对象对应的约束关系,生成数据备份模型;判断清洗后的清洗对象的数据特征值是否存在缺失;若所述清洗后的清洗对象的数据特征值存在缺失,则根据所述数据备份模型中的数据特征值和约束关系对所述清洗对象的数据特征值进行恢复;将恢复后的清洗对象存入所述数据源。优选地,所述根据约束关系,设置各个清洗对象的清洗顺序,按照所述清洗顺序将各个清洗对象依次添加至清洗队列中,包括:根据所述约束关系,确定各个清洗对象中数据特征值的约束等级;按照所述约束等级由低到高的顺序,将各个清洗对象依次添加至所述清洗队列中。根据本专利技术的第二方面还提供了一种数据清洗系统,所述数据清洗系统包括:数据抽取接口模块,用于根据数据源模型包含的数据在数据源中的存放地址,从所述数据源中抽取所述数据至中间数据库,确定抽取到所述中间数据库的数据为数据对象;数据架构分析模块,用于从所述中间数据库中抽取所述数据对象,对所述数据对象的数据架构进行分析,得到与各个数据对象分别对应的约束关系;数据类型及特征分析模块,用于根据脏数据特征适配模型适配所述数据对象的脏数据类型以及脏数据类型对应的数据特征,筛选脏数据类型以及所述数据特征相适配的数据对象作为清洗对象,其中,所述脏数据特征适配模型包括脏数据类型以及脏数据类型对应的数据特征;数据清洗顺序设置模块,用于根据所述约束关系,设置各个清洗对象的清洗顺序,按照所述清洗顺序将各个清洗对象依次添加至清洗队列中;数据清洗模块,用于匹配与各个清洗对象的脏数据类型分别对应的数据清洗方法,加载数据清洗模型,按照所述清洗顺序对所述清洗队列中的清洗对象依次进行清洗,其中,所述数据清洗模型中包括与各种脏数据类型分别对应的清洗方法;数据存入模块,用于将清洗后的所述清洗对象存入所述数据源。优选地,所述数据清洗系统还包括:清洗标准判断模块,用于判断清洗后的所述清洗对象是否满足数据质量标准模型中的数据清洗标准;所述数据清洗顺序设置模块,还用于若所述清洗对象不满足所述数据清洗标准时,根据所述约束关系将所述清洗对象重新添加至所述清洗队列;所述数据存入模块,还用于若所述清洗对象满足所述数据清洗标准时,将所述清洗对象存入所述数据源。优选地,所述数据清洗标准包括数据格式标准、数据特征值范围标准和/或数据约束关系标准;所述清洗标准判断模块,包括:第一判断子模块,用于判断清洗后的所述清洗对象的数据格式是否满足所述数据格式标准;第二判断子模块,用于判断清洗后的所述清洗对象的数据特征值是否满足所述数据特征值范围标准;和/或第三判断子模块,用于判断清洗后的所述清洗对象的数据约束关系是否满足所述数据约束关系标准。优选地,所述数据清洗系统还包括:数据备份模型生成模块,用于根据所述数据对象的数据特征值和所述数据对象对应的约束关系,生成数据备份模型;数据缺失判断模块,用于判断清洗后的清洗对象的数据特征值是否存在缺失;数据恢复模块,用于若所述清洗后的清洗对象的数据特征值存在缺失,则根据所述数据备份模型中的数据特征值和约束关系对所述清洗对象的数据特征值进行恢复;所述数据存入模块,还用于将恢复后的清洗对象存入所述数据源。优选地,所述数据清洗顺序设置模块,包括:约束等级判断子模块,用于根据所述约束关系确定各个清洗对象中数据特征值的约束等级;清洗对象添加子模块,用于按照所述约束等级由低到高的顺序,将各个清洗对象依次添加至所述清洗队列中。本专利技术实施例提供的数据清洗方案,通过筛选脏数据类型以及数据特征相匹配的数据对象作为清洗对象,然后根据各个数据对象对应的约束关系,设置各个清洗对象的清洗顺序,匹配数据清洗模型中与各个清洗对象的脏数据类型分别对应的数据清洗方法,按照上述清洗顺序对清洗队列中的清洗对象依次进行清洗,通过数据抽取、特征适配与模型驱动等技术以对数据源中的数据进行清洗,从而能够快速准确地完成对各种数据的清洗操作,在降低数据清洗过程中所需的时间、人力和物理的投入成本的同时,提本文档来自技高网...

【技术保护点】
一种数据清洗方法,其特征在于,包括:根据数据源模型包含的数据在数据源中的存放地址,从所述数据源中抽取所述数据至中间数据库,确定抽取到所述中间数据库的数据为数据对象;从所述中间数据库中抽取所述数据对象,对所述数据对象的数据架构进行分析,得到与各个数据对象分别对应的约束关系;根据脏数据特征适配模型适配所述数据对象的脏数据类型以及脏数据类型对应的数据特征,筛选脏数据类型以及所述数据特征相适配的数据对象作为清洗对象,其中,所述脏数据特征适配模型包括脏数据类型以及脏数据类型对应的数据特征;根据所述约束关系,设置各个清洗对象的清洗顺序,按照所述清洗顺序将各个清洗对象依次添加至清洗队列中;匹配与各个清洗对象的脏数据类型分别对应的数据清洗方法,加载数据清洗模型,按照所述清洗顺序对所述清洗队列中的清洗对象依次进行清洗,其中,所述数据清洗模型包括与各种脏数据类型分别对应的清洗方法;将清洗后的所述清洗对象存入所述数据源。

【技术特征摘要】
1.一种数据清洗方法,其特征在于,包括:根据数据源模型包含的数据在数据源中的存放地址,从所述数据源中抽取所述数据至中间数据库,确定抽取到所述中间数据库的数据为数据对象;从所述中间数据库中抽取所述数据对象,对所述数据对象的数据架构进行分析,得到与各个数据对象分别对应的约束关系;根据脏数据特征适配模型适配所述数据对象的脏数据类型以及脏数据类型对应的数据特征,筛选脏数据类型以及所述数据特征相适配的数据对象作为清洗对象,其中,所述脏数据特征适配模型包括脏数据类型以及脏数据类型对应的数据特征;根据所述约束关系,设置各个清洗对象的清洗顺序,按照所述清洗顺序将各个清洗对象依次添加至清洗队列中;匹配与各个清洗对象的脏数据类型分别对应的数据清洗方法,加载数据清洗模型,按照所述清洗顺序对所述清洗队列中的清洗对象依次进行清洗,其中,所述数据清洗模型包括与各种脏数据类型分别对应的清洗方法;将清洗后的所述清洗对象存入所述数据源。2.根据权利要求1所述的数据清洗方法,其特征在于,还包括:判断清洗后的所述清洗对象是否满足数据质量标准模型中的数据清洗标准;若所述清洗对象不满足所述数据清洗标准,则根据所述约束关系将所述清洗对象重新添加至所述清洗队列,重新执行按照所述清洗顺序对所述清洗对象进行清洗的步骤;若所述清洗对象满足所述数据清洗标准,则将所述清洗对象存入所述数据源。3.根据权利要求2所述的数据清洗方法,其特征在于,所述数据清洗标准包括数据格式标准、数据特征值范围标准和/或数据约束关系标准;所述判断清洗后的清洗对象是否满足数据质量标准模型中的数据清洗标准,包括:判断清洗后的所述清洗对象的数据格式是否满足所述数据格式标准;判断清洗后的所述清洗对象的数据特征值是否满足所述数据特征值范围标准;和/或判断清洗后的所述清洗对象的数据约束关系是否满足所述数据约束关系标准。4.根据权利要求1所述的数据清洗方法,其特征在于,还包括:根据所述数据对象的数据特征值和所述数据对象对应的约束关系,生成数据备份模型;判断清洗后的清洗对象的数据特征值是否存在缺失;若所述清洗后的清洗对象的数据特征值存在缺失,则根据所述数据备份模型中的数据特征值和约束关系对所述清洗对象的数据特征值进行恢复;将恢复后的清洗对象存入所述数据源。5.根据权利要求1所述的数据清洗方法,其特征在于,所述根据约束关系,设置各个清洗对象的清洗顺序,按照所述清洗顺序将各个清洗对象依次添加至清洗队列中,包括:根据所述约束关系,确定各个清洗对象中数据特征值的约束等级;按照约束等级由低到高的顺序,将各个清洗对象依次添加至所述清洗队列中。6.一种数据清洗系统,其特征在于,包括:数据抽取接口模块,用于根据数据源模型包含的数据在数据源中的存放地址,从所述数据源中...

【专利技术属性】
技术研发人员:曹敏杨政黄星赵薇杨莉张林山
申请(专利权)人:云南电网有限责任公司电力科学研究院
类型:发明
国别省市:云南;53

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1