本发明专利技术提出了一种数据库缺失数据补全的新方法。方法要点在于:第一是数据缺失检测,对给出数据集进行缺失检测;第二是输入变量的维度约减,分析输入维度之间的相关性,采用选主元(PCA)选择较相关输入维度,构成新的输入数据集;第三是训练集k分割,对输入训练集合使用聚类(Kmeans)进行分割,得到的k个类别训练集合;第四是k平面回归函数构造,求出最优回归系数和每个平面的几何中心,给出回归拟合函数;最后是数据补全测试。实验证明,这种数据补全方法十分有效,并能在允许的误差范围内,得到有使用价值的补全数据库,该专利成果一定程度上解决了数据不完整给机器学习和数据挖掘带来的挑战性技术难题,将有利于推动大数据应用技术进步。
【技术实现步骤摘要】
本专利技术主要涉及数据挖掘技术,具体涉及一种基于Κ平面回归的缺失数据补全方 法。
技术介绍
在理想的情况下,数据集中每一条数据都应该是完整的。但是,在现实世界中普遍 存在着不完整的、含噪声的数据。对于数据挖掘和模式识别领域,这些缺失的数据能造成非 常大的影响。比如,这些缺失数据会影响从数据集中抽取模式的正确性和导出规则的准确 性,这会导致错误的数据挖掘模型。并且对于现阶段绝大多数的数据挖掘算法都不具备分 析和处理有缺失数据的数据集能力。若不对这些缺失数据进行分析和处理,并直接将其舍 弃,这会造成大量信息的丢失,并且会产生偏倚,使不完全观测数据与完全观测数据间产生 系统差异。所以针对数据缺失情况进行分析和补全是一个必须而且有意义的事情。 当前的缺失数据补全方法大致可以分为以下几类:简单而又常见的填补方法是全 局常量填补法和属性均值填补法。这两种方法主要是寻找一个常量或者对需要填补的属性 取平均值来填补缺失的属性。在大多数情况下,这些方法同丢弃具有缺失数据的记录一样 会生成有偏的结果。 第二类是单一填补法和多重插补法,单一填补法是将缺失值填补为与它最相似的 一个对象的值,相似判定最常见的是使用相关系数矩阵来确定与缺失值所在属性最相关的 属性,然后将所有对象按最相关属性值大小进行排序,将缺失值填补为排在它前面的对象 值。与均值填补法相比,变量的标准差与填补前比较接近,但这种方法使用不便,比较耗时, 并且系统的低估了方法。多重填补法用一系列可能的值来替换每一个缺失值,以反映被替 换的缺失数据的不确定性。然后,用标准的统计分析过程对多次替换后产生的若干个数据 集进行分析,最后,把来自于各个数据集的统计结果进行综合,得到总体参数的估计值。 第三类是采用模型对缺失数据进行预测的方法。该方法首先对输入的数据定义一 个模型,然后基于该模型对未知参数进行极大似然估计。在该方法中,已经有不少专家做了 探索。2012年,JiLiu针对可视化数据,提出一种对于缺失数据的张量估计方法。2014年, Emil Eirola提出了一种针对缺失数据的混合高斯模型距离估计方法。2014年,Zhengbang Li提出针对数据块缺失混合回归分析。上述方法虽然取得了不错的效果,但是针对分段数 据的补全准确率都有待提尚。
技术实现思路
本专利技术的目的在于针对数据集的数据缺失情况,提出一种基于k平面回归的缺失 数据补全方法。首先对数据进行聚类分析,将数据聚成K类,然后再对每一个类别进行回归 分析,得到的输出就是补全得到的数据。 本专利技术的技术方案如下: 步骤1,首先进行数据预处理工作,对数据集进行缺失检测,选取未缺失的数据作 为实验数据,并将需要补全的维度作为输出端,其余的维度作为输入端。步骤2,进行参数初始化。 包括补全允许的误差、人为确定的参数、算法的迭代次数、平面个数K和维数约简 后的维度等。 步骤3,使用PCA方法进行维度约减。 主要的目的是使用PCA来筛选回归变量,从原始变量所构成的子集合中选择最佳 变量,构成最佳变量集合。 步骤4,对步骤3得到的新的变量集合进行归一化,减少噪声数据的干扰。并选取 70%的数据集作为训练集,30 %的数据集作为测试集。 步骤5,对训练集数据进行Kmeans聚类分析。 我们对训练集进行Kmeans聚类分析,将训练数据聚成K类。对于每一个类别,可以 用相应的平面去拟合,每个类别的中心就可以看成是对应平面的初始几何中心μ。 步骤6,分别求每个平面的回归系数ω和每个平面的几何中心μ。 通过反复迭代误差函数求每个平面的几何中心μ和回归系数ω,然后根据回归系 数和平面的几何中心重新确定每一个平面所包含的数据集S,并获得新的平面的中心。重复 该步骤直到平面几何中心保持不变,回归系数保持稳定,即误差函数保持收敛。 步骤7,由步骤6获得回归系数ω和平面几何中心μ,并对测试数据进行回归预测, 得到的结果即是我们预测补全得到的数据。 步骤8,对于得到的预测结果,我们定义了最大偏差、最小偏差、平均偏差和预测精 度等这四个指标来评价该补全算法的性能。 实验结果表明我们的基于Κ平面回归的缺失数据补全算法性能良好。【附图说明】 读者在参照附图阅读了本专利技术的【具体实施方式】以后,将会更清楚地了解本专利技术的 各个方面。其中, 图1为本专利技术一种基于Κ平面回归的缺失数据补全方法的流程图; 图2为本专利技术实验中使用的数据集的介绍表格;图3为本专利技术的实验结果图;【具体实施方式】步骤1,人工进行数据缺失检测,并将需要补全的数据作为输出端,其余的数据作 为输入端。步骤2,进行参数的初始化设定。 对于允许的最大误差的选择是需要补全维度的数据的最大值与最小值的差乘以 一个人为设定的系数α,我们对于α的取值为0.1。 步骤3,使用PCA对输入数据进行维度约减。 如下面公式(1)所示,求出协方差矩阵C,其中X为我们补全算法的输入,m为数据的 条数。并求出协方差矩阵C的特征值及对应的特征向量,然后将特征向量按对应特征值的大 小从上到下按行排列成矩阵,并取前d列组成矩阵P,Y = XP即为降维后得到的数据。其中d就 是我们进行维数约简后的维度,对于d的取值,我们定义一个贡献率,如公式(2)所示,若前d 个特征值的和除以特征值的总和大于贡献率R,则d就是我们约简后的维度。 贡献率R我们一般取值为95 %。(1) U) d=\ I 步骤4,由步骤3得到降维后的数据,通过归一化将数据归一化到0-1之间,并选取 70%的数据作为训练集,30%的数据作为测试集。步骤5,对训练集用Kmeans聚类算法进行K分割。 我们对训练集进行聚类分析,将数据聚成k类,其中k也就是我们所定义的平面的个数, 对于每一个类别我们都用相应的平面进行拟合,对于聚类的中心我们可以看成是相应平面 的几何中心当前第1页1 2 本文档来自技高网...
【技术保护点】
一种基于K平面回归的缺失数据补全方法,其特征在于:对缺失数据进行补全时,进行以下步骤,步骤1,人工进行数据缺失检测,并将需要补全的数据作为输出端,其余的数据作为输入端;步骤2,进行参数的初始化设定;步骤3,使用PCA对输入数据进行维度约减;步骤4,将由步骤3得到的数据进行归一化到0‑1之间,并选取70%的数据作为训练集,其余30%的数据作为测试集;步骤5,用Kmeans聚类算法对训练集进行聚类分析获得初始的几何中心μ;步骤6,最小化误差函数,反复迭代分别求每个平面的回归系数ω和几何中心μ;步骤7,由步骤6得到的参数ω和μ,并对测试数据进行回归预测,得到的结果就是补全得到的数据。步骤8,由步骤7得到的补全数据后,定义最大偏差、最小偏差、平均偏差和预测精度这四个指标来评价补全算法的性能。
【技术特征摘要】
【专利技术属性】
技术研发人员:袁玉波,阮彤,邱文强,汤伟,赵婷婷,高炬,殷亦超,
申请(专利权)人:华东理工大学,
类型:发明
国别省市:上海;31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。