一种并行数据清洗方法技术

技术编号：21735972 阅读：24 留言：0更新日期：2019-07-31 19:08

本发明专利技术公开了一种并行数据清洗方法，通过构建分布式并行数据清洗系统的整体架构，利用数据中所有违反约束关系的数据单元与相应约束构成冲突超图，进行数据清洗，并根据冲突超图中数据单元与相应的约束的位置，形成适合大量数据的快速数据清洗方法。通过本发明专利技术，能够达到数据清洗修复速度更快，且算法复杂度较低，适合大量数据的修复。

A Parallel Data Cleaning Method

全部详细技术资料下载

【技术实现步骤摘要】
一种并行数据清洗方法
本专利技术涉及数据处理
，特别是涉及一种并行数据清洗方法。
技术介绍
商业与科学数据，在当今的时代发展下，已经成为最有价值的财富。但是，在数据的源头，因为噪声的干扰而带来的数据的错误使得数据本身的价值大大降低：数据提取的不精确导致数据的缺失；从多个数据源提取的数据合并后导致数据的冗余。数据提供者错误的数据输入，导致数据完整性约束不再成立。这些错误每年都造成大量的经济损失。给出清洗数据的操作，提高数据质量是实现数据高效管理的关键。数据清洗包括错误数据的检测及改正。当前已经出现了很多数据清洗的算法，一种针对全局数据的简单方法是把针对不同的错误类型(数据缺失、数据冗余、数据错误)的清洗算法简单的串联起来使用，这样可以最大限度地减小对全局数据的处理复杂度。但是这种方法没有考虑全局数据不同类型之间的相互作用关系。最终会导致数据清洗的结果并不理想。MapReduce编程框架可以利用并行技术实现高可扩展性的大数据清洗。MapReduce是一种编程模型，用于大规模数据集的并行运算。概念"Map(映射)"和"Reduce(归约)"，是它们的主要思想，都是从函数式编程语言和矢量编程语言里借来的特性。它极大地方便了编程人员在不会分布式并行编程的情况下，将自己的程序运行在分布式系统上。当前的软件实现是指定一个Map(映射)函数，用来把一组键值对映射成一组新的键值对，指定并发的Reduce(归约)函数，用来保证所有映射的键值对中的每一个共享相同的键组。数据清洗方面的研究最早出现在美国，时至今日，已经涌现出不胜枚举的算法。随着时代的变迁，错误数据的形式变幻...

【技术保护点】
1.一种并行数据清洗方法，其特征在于，包括：利用数据库中所有数据之间的关联关系及约束关系，构建异常数据检索模型；其中，所述异常数据检索模型的输入为数据库中的每一数据，与异常数据检索模型中的数据关联关系及约束关系进行比对，若不满足数据关联关系及约束关系中的至少一者，将输入的数据作为异常数据，并将异常数据及其不满足的全部关联关系和约束关系作为异常数据检索模型的输出；根据异常数据检索模型输出的异常数据，及每一异常数据不满足的约束关系，构建异常数据的超图；其中，以不满足的约束关系作为超图的超边，对应不满足约束关系的至少一个异常数据作为超边覆盖的违规单元；选择不满足作为超边的约束关系最多的违规单元作为最小覆盖点，寻找最小覆盖点的违规单元不满足的约束关系中，仅不满足该约束关系的违规单元最多的约束关系作为第一超边，对第一超边中覆盖的违规单元执行与第一超边的约束关系的取反操作，取反后不满足第一超边的约束关系的违规单元转变为正常数据，第一超边消除；循环迭代，直至所有的超边消除，剩余最小覆盖点的违规单元，对最小覆盖点执行与其当前全部约束关系的取反操作，完成全部异常数据的修复。

【技术特征摘要】
1.一种并行数据清洗方法，其特征在于，包括：利用数据库中所有数据之间的关联关系及约束关系，构建异常数据检索模型；其中，所述异常数据检索模型的输入为数据库中的每一数据，与异常数据检索模型中的数据关联关系及约束关系进行比对，若不满足数据关联关系及约束关系中的至少一者，将输入的数据作为异常数据，并将异常数据及其不满足的全部关联关系和约束关系作为异常数据检索模型的输出；根据异常数据检索模型输出的异常数据，及每一异常数据不满足的约束关系，构建异常数据的超图；其中，以不满足的约束关系作为超图的超边，对应不满足约束关系的至少一个异常数据作为超边覆盖的违规单元；选择不满足作为超边的约束关系最多的违规单元作为最小覆盖点，寻找最小覆盖点的违规单元不满足的约束关系中，仅不满足该约束关系的违规单元最多的约束关系作为第一超边，对第一超边中覆盖的违规单元执行与第一超边的约束关系的取反操作，取反后不满足第一超边的约束关系的违规单元转变为正常数据，第一超边消除；循环迭代，直至所有的超边消除，剩余最小覆盖点的违规单元，对最小覆盖点执行与其当前全部约束关系的取反操作，完成全部异常数据的修复。2.根据权利要求1所述的并行数据清洗方法，其特征在于，所述异常数据检索模型满足公式：其中，为输入异常数据检索模型的数据库中任一数据，与数据有关的关联关系，Pi是数据满足的约束关系；若输入的数据不满足公式(1)，则判定数据为异常数据，同时确定不满足的约束关系。3.根据权利要求1所述的并行数据清洗方法，其特征在于，在建立冲突超图的步骤中，设定寻找不满足任一约束关系Pi的违规单元V＝{v1,...,vn}，...

【专利技术属性】
技术研发人员：姚箐晨，陈德健，
申请(专利权)人：广东恒睿科技有限公司，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人