一种并行数据清洗方法技术

技术编号:21735972 阅读:24 留言:0更新日期:2019-07-31 19:08
本发明专利技术公开了一种并行数据清洗方法,通过构建分布式并行数据清洗系统的整体架构,利用数据中所有违反约束关系的数据单元与相应约束构成冲突超图,进行数据清洗,并根据冲突超图中数据单元与相应的约束的位置,形成适合大量数据的快速数据清洗方法。通过本发明专利技术,能够达到数据清洗修复速度更快,且算法复杂度较低,适合大量数据的修复。

A Parallel Data Cleaning Method

【技术实现步骤摘要】
一种并行数据清洗方法
本专利技术涉及数据处理
,特别是涉及一种并行数据清洗方法。
技术介绍
商业与科学数据,在当今的时代发展下,已经成为最有价值的财富。但是,在数据的源头,因为噪声的干扰而带来的数据的错误使得数据本身的价值大大降低:数据提取的不精确导致数据的缺失;从多个数据源提取的数据合并后导致数据的冗余。数据提供者错误的数据输入,导致数据完整性约束不再成立。这些错误每年都造成大量的经济损失。给出清洗数据的操作,提高数据质量是实现数据高效管理的关键。数据清洗包括错误数据的检测及改正。当前已经出现了很多数据清洗的算法,一种针对全局数据的简单方法是把针对不同的错误类型(数据缺失、数据冗余、数据错误)的清洗算法简单的串联起来使用,这样可以最大限度地减小对全局数据的处理复杂度。但是这种方法没有考虑全局数据不同类型之间的相互作用关系。最终会导致数据清洗的结果并不理想。MapReduce编程框架可以利用并行技术实现高可扩展性的大数据清洗。MapReduce是一种编程模型,用于大规模数据集的并行运算。概念"Map(映射)"和"Reduce(归约)",是它们的主要思想,都是从函数式编程语言和矢量编程语言里借来的特性。它极大地方便了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上。当前的软件实现是指定一个Map(映射)函数,用来把一组键值对映射成一组新的键值对,指定并发的Reduce(归约)函数,用来保证所有映射的键值对中的每一个共享相同的键组。数据清洗方面的研究最早出现在美国,时至今日,已经涌现出不胜枚举的算法。随着时代的变迁,错误数据的形式变幻多样,数据量的增长也为数据清洗算法的设计提出新的要求。许多传统的数据清洗算法已无法满足大数据时代的需求。因此如何准确高效地清洗脏数据始终是值得研究的课题。数据清洗旨在识别和纠正数据中的噪声,将噪声对数据分析结果的影响降至最低。数据中的噪声主要包括不完整的数据、冗余的数据、冲突的数据和错误的数据。对数据噪声的检测和消除可以通过自动的算法来实现,也可借助数据清洗的规则,或者依靠用户的参与。当下,机器学习和众包技术的发展为数据清洗的研究工作注入了新的活力。机器学习技术可以从用户记录中学习制定清洗决策的规律,从而减轻用户标注数据的负担。同时,从清洗规则到机器学习模型的转换使得用户不再需要制定大量的数据清洗规则。众包技术把数据清洗任务发布到互联网,从而集中众多用户的知识和决策众包的形式可以充分利用外部资源优势,在降低清洗代价的同时,提高数据清洗的准确度和效率。在现有的数据清洗修改方法中,通常使用否定约束的技术,根据否定约束来找出所有不符合约束的数据单元,这些不符合约束的数据单元与相应的约束构成冲突超图,根据冲突超图中边与点的相应位置,定义了修复上下文。根据修复上下文及相应约束来清洗数据。但是现有数据清洗修复方法对于大量数据的处理并不理想,因为算法的复杂度高而使得数据清洗的效率很低。或是针对特定的数据而设计的算法,并没有从整体上提出对数据清洗的统一方法。
技术实现思路
本专利技术的目的是为解决上述现有技术的不足之处而提供一种并行数据清洗方法。本专利技术的技术是通过以下技术方案实现的:一种并行数据清洗方法,包括:利用数据库中所有数据之间的关联关系及约束关系,构建异常数据检索模型;其中,所述异常数据检索模型的输入为数据库中的每一数据,与异常数据检索模型中的数据关联关系及约束关系进行比对,若不满足数据关联关系及约束关系中的至少一者,将输入的数据作为异常数据,并将异常数据及其不满足的全部关联关系和约束关系作为异常数据检索模型的输出;根据异常数据检索模型输出的异常数据,及每一异常数据不满足的约束关系,构建异常数据的超图;其中,以不满足的约束关系作为超图的超边,对应不满足约束关系的至少一个异常数据作为超边覆盖的违规单元;选择不满足作为超边的约束关系最多的违规单元作为最小覆盖点,寻找最小覆盖点的违规单元不满足的约束关系中,仅不满足该约束关系的违规单元最多的约束关系作为第一超边,对第一超边中覆盖的违规单元执行与第一超边的约束关系的取反操作,取反后不满足第一超边的约束关系的违规单元转变为正常数据,第一超边消除;循环迭代,直至所有的超边消除,剩余最小覆盖点的违规单元,对最小覆盖点执行与其当前全部约束关系的取反操作,完成全部异常数据的修复。其中,异常数据检索模型满足公式:其中,为输入异常数据检索模型的数据库中任一数据,Ri与数据有关的关联关系,Pi是数据满足的约束关系;若输入的数据x不满足公式(1),则判定数据为异常数据,同时确定不满足的约束关系。其中,在建立冲突超图的步骤中,设定寻找不满足任一约束关系Pi的违规单元V={v1,...,vn},二者对应得到冲突超图。其中,在选择第一超边的步骤中,包括步骤:对于不满足超边对应的约束关系的所有违规单元构成对应超边的子域;统计最小覆盖点所在的所有超边包围的违规单元构成的子域中,只有不满足一条超边对应的约束关系的违规数据单元的数量;选取最小覆盖点所在的所有超边包围的违规单元构成的子域中,只不满足一条超边对应的约束关系的违规单元的数量最多的超边作为第一超边。其中,在完成第一超边消除的步骤之后,将初始冲突超图中的全部违规单元再次输入异常数据检索模型中进行检索,排除经过消除第一超边过程中,被修正为正常数据的异常数据,及异常数据不满足的关联关系及约束关系。其中,将新得到的异常数据及对应的不满足的关联关系和约束关系,重新构建冲突超图,进行循环迭代,寻找新的异常数据形成的违规单元中的最小覆盖点及第一超边,并进行第一超边消除,直至异常数据仅余最小覆盖点。其中,当异常数据仅余最小覆盖点时,针对最小覆盖点不满足的全部约束关系,进行取反操作,并将最小覆盖点修复后得到的数据输入异常数据检索模型中,判断最小覆盖点修复后得到的数据是否为异常数据。其中,若异常数据检索模型判断最小覆盖点修复后得到的数据为正常数据,则完成对数据库全部数据的修复;若异常数据检索模型判断最小覆盖点修复后得到的数据为异常数据,则删除该数据,完成对数据库全部数据的修复。区别于现有技术,本专利技术的并行数据清洗方法通过构建分布式并行数据清洗系统的整体架构,利用数据中所有违反约束关系的数据单元与相应约束构成冲突超图,进行数据清洗,并根据冲突超图中数据单元与相应的约束的位置,形成适合大量数据的快速数据清洗方法。通过本专利技术,能够达到数据清洗修复速度更快,且算法复杂度较低,适合大量数据的修复。附图说明图1是本专利技术提供的一种用于坐标转换中异常点的定位与估值方法的流程示意图。具体实施方式在下面的描述中阐述了很多具体细节以便于充分理解本专利技术。但是本专利技术能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本专利技术内涵的情况下做类似推广,因此本专利技术不受下面公开的具体实施的限制。其次,本专利技术利用示意图进行详细描述,在详述本专利技术实施例时,为便于说明,示意图只是实例,其在此不应限制本专利技术保护的范围。参阅图1,图1是本专利技术提供的一种并行数据清洗方法的流程示意图。该方法的步骤包括:S110:利用数据库中所有数据之间的关联关系及约束关系,构建异常数据检索模型;其中,所述异常数据检索模型的输入为数据库中的每一数据,与异常数本文档来自技高网
...

【技术保护点】
1.一种并行数据清洗方法,其特征在于,包括:利用数据库中所有数据之间的关联关系及约束关系,构建异常数据检索模型;其中,所述异常数据检索模型的输入为数据库中的每一数据,与异常数据检索模型中的数据关联关系及约束关系进行比对,若不满足数据关联关系及约束关系中的至少一者,将输入的数据作为异常数据,并将异常数据及其不满足的全部关联关系和约束关系作为异常数据检索模型的输出;根据异常数据检索模型输出的异常数据,及每一异常数据不满足的约束关系,构建异常数据的超图;其中,以不满足的约束关系作为超图的超边,对应不满足约束关系的至少一个异常数据作为超边覆盖的违规单元;选择不满足作为超边的约束关系最多的违规单元作为最小覆盖点,寻找最小覆盖点的违规单元不满足的约束关系中,仅不满足该约束关系的违规单元最多的约束关系作为第一超边,对第一超边中覆盖的违规单元执行与第一超边的约束关系的取反操作,取反后不满足第一超边的约束关系的违规单元转变为正常数据,第一超边消除;循环迭代,直至所有的超边消除,剩余最小覆盖点的违规单元,对最小覆盖点执行与其当前全部约束关系的取反操作,完成全部异常数据的修复。

【技术特征摘要】
1.一种并行数据清洗方法,其特征在于,包括:利用数据库中所有数据之间的关联关系及约束关系,构建异常数据检索模型;其中,所述异常数据检索模型的输入为数据库中的每一数据,与异常数据检索模型中的数据关联关系及约束关系进行比对,若不满足数据关联关系及约束关系中的至少一者,将输入的数据作为异常数据,并将异常数据及其不满足的全部关联关系和约束关系作为异常数据检索模型的输出;根据异常数据检索模型输出的异常数据,及每一异常数据不满足的约束关系,构建异常数据的超图;其中,以不满足的约束关系作为超图的超边,对应不满足约束关系的至少一个异常数据作为超边覆盖的违规单元;选择不满足作为超边的约束关系最多的违规单元作为最小覆盖点,寻找最小覆盖点的违规单元不满足的约束关系中,仅不满足该约束关系的违规单元最多的约束关系作为第一超边,对第一超边中覆盖的违规单元执行与第一超边的约束关系的取反操作,取反后不满足第一超边的约束关系的违规单元转变为正常数据,第一超边消除;循环迭代,直至所有的超边消除,剩余最小覆盖点的违规单元,对最小覆盖点执行与其当前全部约束关系的取反操作,完成全部异常数据的修复。2.根据权利要求1所述的并行数据清洗方法,其特征在于,所述异常数据检索模型满足公式:其中,为输入异常数据检索模型的数据库中任一数据,与数据有关的关联关系,Pi是数据满足的约束关系;若输入的数据不满足公式(1),则判定数据为异常数据,同时确定不满足的约束关系。3.根据权利要求1所述的并行数据清洗方法,其特征在于,在建立冲突超图的步骤中,设定寻找不满足任一约束关系Pi的违规单元V={v1,...,vn},...

【专利技术属性】
技术研发人员:姚箐晨陈德健
申请(专利权)人:广东恒睿科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1