一种大气监测系统中数据异常的修正方法技术方案

技术编号:23533729 阅读:32 留言:0更新日期:2020-03-20 07:59
本发明专利技术公开了一种大气监测系统中数据异常的修正方法,该方法利用最小‑最大规范化方法对特征数据进行预处理,再结合该节点的历史数据按第一级基于信息熵的异常检测算法计算出传感器节点的异常概率,当节点的异常概率高于阈值时,执行第二级基于K‑means的异常检测算法,获取该节点相近节点的特征向量,对该节点和相近节点进行聚类分簇,在分簇结果之上计算该节点特征向量与所在聚类中心之间的距离,判断该传感器节点是否没有异常。本发明专利技术所述方法可以对传感器所采集的数据进行检测,也可以对大气监测系统的数据传输路径中发生的异常进行检测,能够提高大气监测系统的数据精度。

A correction method of data anomaly in air monitoring system

【技术实现步骤摘要】
一种大气监测系统中数据异常的修正方法
本专利技术属于大气环境监测技术,具体涉及一种大气监测系统中数据异常的修正方法。
技术介绍
随着社会经济的发展和进步,环境保护问题逐渐引起了人们的重视,为了提升环境保护工作的科学性,环境监测已经成为环境保护工作的重要工具,为环境保护工作作出了重要的贡献。但在当前我国环境监测工作中,难以避免出现异常数据的情况,这些数据的存在对提升环境监测工作的质量造成了一定的阻碍。在环境监测中主要存在三种异常数据,分别是离群数据、不合理数据、跳跃性较大的数据。自动大气监测装置主要会用到传感器作为监测和数据传输的媒介,随着无线传感器网络被越来越多的部署到实际环境中,其以数据为中心的特点就日益凸显。无线传感器网络需要从部署环境中获取数据,从中发现有价值的信息,这是其应用能否成功的关建。因此需要重点关注和解决的问题是怎样设计有效的异常检测机制,用来从数据中寻找各类异常信息或发现各种异常状况。在现有的传感器网络数据异常修正方法中,基于统计的修正方法难以适应传感器网络部署环境的变化存在误报率高的问题,基于距离的修正方法往往需要融入其他修正方法中来提升检测效果,基于数据挖掘、机器学习技术的修正方法通常需要大量的数据,并且对检测设备的计算、存储等性能要求较高,不适宜部署在能力受限的传感器节点上。目前,在无线传感器网络中应用的异常检测方案有集中式的,但是集中式的异常检测存在时效性差、数据瓶颈、设备资源浪费等问题,而在分布式的异常检测方案中,将复杂的检测算法嵌入传感器网络中的各个设备中又会给整个系统带来沉重的计算和通信开销。
技术实现思路
专利技术目的:针对上述现有技术中环境监测系统的采集数据错误率比较高和整个通信系统开销较大的问题,本专利技术提供一种大气监测系统中异常数据的修正方法。技术方案:一种大气监测系统中数据异常的修正方法,所述方法基于信息熵的异常检测算法和基于K-means聚类的异常检测算法,包括如下步骤:(1)采集空气质量监测数据,并对待监测的数据提取特征数据;(2)对于需要通过多个维度的数据对传感器数据进行异常检测,需要对不同属性的数据规范化,利用最小-最大规范化对特征数据进行预处理,计算特征数据的信息熵;(3)获取该节点的历史数据,按第一级基于信息熵的异常检测算法计算出传感器节点的异常概率,当节点的异常概率高于阈值时,执行第二级基于K-means的异常检测算法,获取该节点相近节点的特征向量,对该节点和相近节点进行聚类分簇,在分簇结果之上计算该节点特征向量与所在聚类中心之间的距离,若距离小于距离阈值,则认为对应的传感器节点没有异常,若距离大于当前的距离阈值,则判定该数据对象为异常数据;(4)剔除异常数据,通过分段线性插值、临近点插值、三次样条函数插值以及三次多项式方法对空缺进行插值补充数据,获取大气监测系统的准确数据。进一步的,步骤(2)所述的最小-最大规范化为将大气监测系统中该传感器节点采集的原始数据的基础上,线性变换原始数据,属性X的最大值为maxX和最小值为minX,将数据集中某属性X的值x映射到区间[min′X,max′X]中的x',则最小-最大规范化通过下式计算:通过最小-最大规范化,可以保持原始数据值之间的大小关系。更进一步的,所述方法对温度和气压的异常数据检测,还包括监测传感器输过程中产生的传输异常数据检测,所述温度和气压的异常数据检测通过t检验法和t分布理论来计算差异发生的概率,比较两个平均数的差异;所述的传输异常数据检测基于信息熵和K-means的分级式异常检测算法对时间、空间相关性进行检测。所述温度和气压的异常数据检测计算过程如下:(101)获取观测数据为x1,x2,……,xn,其中标记xmax或xmin为可疑值xm,当统计量大于临界值时判断为异常值,表达式如下:Ym>Yp(n)式中Ym是统计量,Yp(n)是临界值;设t检验的统计量为Tm,临界值为Tp(n),下标p是百分数,由下式决定:剔除异常值一般取α=0.01,故一般p=0.99或p=0.995;(102)计算统计量表达式中的样本均值和标准偏差s,其计算表达式如下:不包括可疑值xm的样本均值和标准偏差s′分别为:t检验法的临界值为:式中tp(n-2)是自由度为(n-2)的t分布的p分位数;(103)计算不包括可疑值xm的统计量,计算公式如下:(104)对于计算出的异常数据,通过插值法进行修改,将异常数据剔除,使用分段线性插值、临近点插值、三次样条函数插值以及三次多项式方法对空缺进行插值,补充监测数据。所述方法对于单传感器下的数据信息熵的异常检测计算步骤如下:(201)滑动窗口构建滑动窗口,滑动窗口模型通过使用长度W(W>0)的滑动窗口将传感器数据流切分成窗口内数据与窗口外数据,窗口内包含W个采样数据;当窗口滑动时,上一采样时刻tbefore的数据退出窗口,而下一采样时刻tnext的数据进入窗口;假设W1、W2为两个相邻窗口,窗口滑动距离为1,则其移动前的数据序列X1(t)可表示为:X1(t)=[x(t-W*ΔT),…,x(t-ΔT),x(t)]滑动窗口移动后的数据序列X2(t)可表示为:X2(t)=[x(t-(W-1)*ΔT),...,x(t),x(t+ΔT)]其中tbefore的数据为x(t-W*ΔT),tnext的数据为x(t+ΔT);(202)数据距离对于数据对象X1(t)和X2(t),其距离表示为:对于数据序列的信息熵h1(t)和h2(t),其距离表示为:D(h1(t),h2(t))=h1(t)-h2(t)(203)进行K-means异常检验先对数据进行规范化处理,然后使用K-means聚类算法对传感器网络的数据对象进行聚类分簇,最终确定聚类中心的位置和分组的结果,最后通过计算待测数据对象与各聚类中心之间的最短距离并与异常距离阈值比较大小来确定待测传感器节点是否出现异常,其中数据对象之间的距离通过欧几里得距离公式计算。有益效果:与现有技术相比,本专利技术所述方法经过信息熵异常检验和K-means异常检验两道步骤,不仅减少了传感器网络正常状态下运行的资源消耗,而且降低了整体的性能消耗,提高了检测的效率;另一方面,本专利技术还适用于对于传感器采集数据组的异常检测和对于大气监测系统在数据传输过程中的异常检测,提高监测数据准确性的同时提高监测系统的监测能力。附图说明图1是本专利技术所述方法的流程示意图。具体实施方式为了详细说明本专利技术所公开的技术方案,下面结合说明书附图和具体实施例做进一步的阐述。对于气象数据、环境数据的监测系统所获取的数据,一般存在如下几个方面特征:(1)离群数据主要是指实际的监测数据和全部监测数据的平均值产本文档来自技高网
...

【技术保护点】
1.一种大气监测系统中数据异常的修正方法,其特征在于:所述方法基于信息熵的异常检测算法和基于K-means聚类的异常检测算法,包括如下步骤:/n(1)采集空气质量监测数据,并对待监测的数据提取特征数据;/n(2)根据最小-最大规范化对特征数据进行处理,计算特征数据的信息熵;/n(3)获取该节点的历史数据,按第一级基于信息熵的异常检测算法计算出传感器节点的异常概率,当节点的异常概率高于阈值时,执行第二级基于K-means的异常检测算法,获取该节点相近节点的特征向量,对该节点和相近节点进行聚类分簇,在分簇结果之上计算该节点特征向量与所在聚类中心之间的距离,若距离小于距离阈值,则认为对应的传感器节点没有异常,若距离大于当前的距离阈值,则判定该数据对象为异常数据;/n(4)剔除异常数据,通过分段线性插值、临近点插值、三次样条函数插值以及三次多项式方法对空缺进行插值补充数据,获取大气监测系统的准确数据。/n

【技术特征摘要】
1.一种大气监测系统中数据异常的修正方法,其特征在于:所述方法基于信息熵的异常检测算法和基于K-means聚类的异常检测算法,包括如下步骤:
(1)采集空气质量监测数据,并对待监测的数据提取特征数据;
(2)根据最小-最大规范化对特征数据进行处理,计算特征数据的信息熵;
(3)获取该节点的历史数据,按第一级基于信息熵的异常检测算法计算出传感器节点的异常概率,当节点的异常概率高于阈值时,执行第二级基于K-means的异常检测算法,获取该节点相近节点的特征向量,对该节点和相近节点进行聚类分簇,在分簇结果之上计算该节点特征向量与所在聚类中心之间的距离,若距离小于距离阈值,则认为对应的传感器节点没有异常,若距离大于当前的距离阈值,则判定该数据对象为异常数据;
(4)剔除异常数据,通过分段线性插值、临近点插值、三次样条函数插值以及三次多项式方法对空缺进行插值补充数据,获取大气监测系统的准确数据。


2.根据权利要求1所述的大气监测系统中数据异常的修正方法,其特征在于:步骤(2)所述的最小-最大规范化为将大气监测系统中该传感器节点采集的原始数据的基础上,线性变换原始数据,属性X的最大值为maxX和最小值为minX,将数据集中某属性X的值x映射到区间[min′X,max′X]中的x',则最小-最大规范化通过下式计算:



通过最小-最大规范化,保持原始数据值之间的大小关系。


3.根据权利要求1所述的大气监测系统中数据异常的修正方法,其特征在于:所述方法对温度和气压的异常数据检测,还包括监测传感器传输过程中产生的传输异常数据检测,所述温度和气压的异常数据检测通过t检验法和t分布理论来计算差异发生的概率,比较两个平均数的差异;所述的传输异常数据检测基于信息熵和K-means的分级式异常检测算法对时间、空间相关性进行检测。


4.根据权利要求3所述的大气监测系统中数据异常的修正方法,其特征在于:所述温度和气压的异常数据检测计算过程如下:
(101)获取观测数据为x1,x2,……,xn,其中标记xmax或xmin为可疑值xm,当统计量大于临界值时判断为异常值,表达式如下:
Ym>Yp(n)
式中Ym是统计量,Yp(n)是临界值;
设t检验的统计量为Tm,临界值为Tp(n),下标p是百分数,由下式...

【专利技术属性】
技术研发人员:叶小岭范瑜轩
申请(专利权)人:南京信息工程大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1