基于回归模型的数据清洗方法技术

技术编号：28500724 阅读：28 留言：0更新日期：2021-05-19 22:43

本发明专利技术公开的一种基于回归模型的数据清洗方法，所述数据清洗方法包括以下步骤：S1.首先，根据所采集参数性质确定宽规则的阀值范围，对采集的数据中明显错误、异常的野值进行粗识别清洗；S2.然后，根据任一时刻采样值动态阀值，对步骤S1处理后的数据进行基于回归模型的精细识别清洗；S3.最后，利用回归平滑模型对步骤S1、S2识别出的野值对应采集时刻的真实值进行估算并替换。本发明专利技术实现了大数据处理中的错误数据清洗，对于明显的野值采用阈值粗识别提高识别效率，对于不易发现的野值采用精细识别提高野值的识别精确度，同时采用回归平滑模型提高了野值估计值的准确性。型提高了野值估计值的准确性。

全部详细技术资料下载

【技术实现步骤摘要】
基于回归模型的数据清洗方法

[0001]本专利技术属于大数据处理
，涉及数据野值识别和替换，具体为一种基于回归模型的数据清洗方法。

技术介绍

[0002]在大数据处理领域中数据有效性和数据质量是后续数据应用的前提，数据清洗也即数据预处理，是大数据处理的一个重要环节。数据清洗原理即通过分析“脏数据”的产生原因和存在形式，利用现有的技术手段和方法去清洗“脏数据”，将原有的不符合要求的数据转化为满足数据质量或应用要求的数据，从而提高数据集的数据质量。数据清洗的主要任务包括三个：不完整数据的清洗、错误数据的清洗和重复数据的清洗。
[0003]对于遥测和数据采集领域，错误数据清洗是数据清洗的主要任务。由于振动、温度以及平台因素对采集电路的影响，会出现错误和异常的采集数据，被称为孤立值、飞值、野值或者奇异值。采集数据中野值的存在会使分析结果产生严重错误，因此对采集数据进行清洗的主要任务是对飞值或野值的清洗。
[0004]错误数据也称为噪声数据或孤立点。主要的清洗方法有：
[0005]①
用概率统计分析的方法或人工智能的方法来识别属性可能的错误值或异常值；
[0006]②
分箱：分箱方法通过考察属性值的周围的值来平滑属性的值。属性值被分布到一些等深或等宽的“箱”中，按照箱中属性值的平均值或中值来替换“箱”中的属性值。
[0007]③
使用简单规则库检测、修正数据的错误；
[0008]④
使用不同的属性间的约束检测和修正错误；
[0009]...

【技术保护点】

【技术特征摘要】
1.基于回归模型的数据清洗方法，其特征在于，所述数据清洗方法包括以下步骤：S1.首先，根据所采集参数性质确定宽规则的阀值范围，对采集的数据中明显错误、异常的野值进行粗识别清洗；S2.然后，根据任一时刻采样值动态阀值，对步骤S1处理后的数据进行基于回归模型的精细识别清洗；S3.最后，利用回归平滑模型对步骤S1、S2识别出的野值对应采集时刻的真实值进行估算并替换。2.根据权利要求1所述的基于回归模型的数据清洗方法，其特征在于，步骤S1中，宽规则的阀值范围为所采集参数的极限最小值至极限最大值。3.根据权利要求1所述的基于回归模型的数据清洗方法，其特征在于，步骤S2中，基于回归模型的精细识别具体步骤如下：A1.确定野值长度L
err
和参考宽度L
c
，所述参考宽度L
c
为野值长度L
err
的整倍数，所述野值长度计算公式为：L
err
＝f
s
·
t
err
，其中，f
s
表示采集设备工作频率，t
err
表示野值持续时间。A2.确定回归模型的参考值和偏离范围，所述参考值设置有前后2个，分别为和其计算公式如下：其计算公式如下：其计算公式如下：其中，ρ为当前识别位置与参考数据位置的最小偏移量，为向下取整运算符；所述偏离范围R
x
(k)的计算公式如下：R
x
(k)＝1/f
s
·
(L
s

【专利技术属性】
技术研发人员：李洪烈，夏栋，王倩，
申请(专利权)人：中国人民解放军海军航空大学青岛校区，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人