基于多维Epanechnikov核密度估计的异常检测方法技术

技术编号:15405774 阅读:527 留言:0更新日期:2017-05-24 22:19
本发明专利技术涉及基于多维Epanechnikov核密度估计的异常检测方法。目的是提供的方法能准确检测出异常数据。技术方案是:一种基于多维Epanechnikov核密度估计的异常检测方法,依次包括以下步骤:1)所有分布节点各自采集数据,接着利用基于第k个最近距离的采样方法进行异常值诊断;2)在簇首节点滑动窗口内形成正常数据样本,根据该样本在簇首节点滑动窗口内建立核密度估计模型;3)上述核密度估计模型发送给各分布节点,各分布节点利用该核密度估计模型判断下一时刻各分布节点内到达的数据是否异常;4)每隔时间T,各分布节点主动向簇首节点发送最新一段时间的正常数据;5)返回至步骤一。

Anomaly detection method based on kernel density estimation of multidimensional Epanechnikov

The present invention relates to an anomaly detection method based on multidimensional Epanechnikov kernel density estimation. The aim is to provide a method for accurate detection of abnormal data. The technical proposal is that a multidimensional Epanechnikov anomaly detection method based on kernel density estimation, which comprises the following steps: 1) the distribution of all nodes to collect data, then use the k nearest distance outlier diagnosis based on sampling method; 2) in the cluster head node sliding window is formed according to the normal data sample. The establishment of nuclear sample density in the cluster head node in the sliding window estimation model; 3) the kernel density estimation model sent to the distribution of nodes, the kernel density estimation model to determine the next time the distribution of node arrival data is abnormal by the distribution of nodes; 4) every time T, the distribution of nodes to cluster normal data the first node sends a new period of time; 5) return to step one.

【技术实现步骤摘要】
基于多维Epanechnikov核密度估计的异常检测方法
本专利涉及无线传感器网络数据可靠性检测方法,尤其是一种基于多维Epanechnikov(叶帕涅奇尼科夫,俄国人)核密度估计异常值检测方法。
技术介绍
真实的生活环境中存在的很多物理现象(比如温度、湿度、大气压力等)都需要持续地被监测。无线传感器网络(WSN)作为一种非常重要的数据来源,其采集的数据非常容易受到各种噪声来源的影响,比如节点软硬件故障,节点通信时遇到的环境噪声。这些噪声会严重影响传感器的读数,以及数据的分布情况,导致传感器产生不精确的或错误的数据。因此设计一种有效的传感器数据流分析处理方法是近年来无线传感器网络异常检测研究的重点。目前,大多数无线传感器网络异常数据检测方法并不能满足实际应用的精度要求,而能够满足精度要求的算法又有很高的计算复杂度。
技术实现思路
本专利技术的目的是提供一种基于多维Epanechnikov核密度估计的无线传感器网络数据异常值检测方法;该方法能准确检测出异常数据,并具有无需设置阈值、通信开销大大降低的特点。本专利技术提供的技术方案是:一种基于多维Epanechnikov核密度估计的异常检测方法,依次包括以下步骤:1)所有分布节点各自采集数据,接着利用基于第k个最近距离的采样方法进行异常值诊断,如果数据是正常值,就直接上传给簇首节点,如果是异常的,就将该异常值删除;2)在簇首节点滑动窗口内形成正常数据样本,根据该样本在簇首节点滑动窗口内建立核密度估计模型:其中,X=(x1,x2,…,xd)的核函数为k(X),且满足Rd表示d维欧式空间。则式中:滑动窗口宽度d为数据维数,σi表示数据集在第i维上的标准偏差(i=1,2,…,d),n为簇首节点滑动窗口内数据样本中数据的个数,n=|sc|;3)上述核密度估计模型发送给各分布节点,各分布节点利用该核密度估计模型判断下一时刻各分布节点内到达的数据是否异常;若则认为该数据是异常值;4)每隔时间T,各分布节点主动向簇首节点发送最新一段时间的正常数据;5)返回至步骤一。所述步骤一中基于第k个最近距离的采样方法按以下步骤进行:(1)设分布节点Ndj滑动窗口内初始数据(2)计算两个时刻数据值之间的欧氏距离并令矩阵A中的元素为(一维数据采用减法取差的方法,二维以上数据采用欧氏距离)。(3)将矩阵A的每一行按升序排序,得到矩阵A’;(4)判断矩阵A’中每一行中第k个数(m初始值为1,θ为事先设定的阈值)是否成立,若成立,初始数据X(j)中第m个数据为异常值删除,否则作为正常数据上传给簇首节点。式中各分布节点的滑动窗口内的数据集合为其中N为分布节点上的滑动窗口大小。本专利技术的主要创新之处如下:对于目前大规模无线传感器网络复杂的异常检测,本专利技术首先用基于第k个最近距离的采样方法将各分布节点的异常数据删除,将正常数据传给簇首节点建立核密度估计模型,再根据该模型来检测未来每一时刻各分布节点内到达的数据是否异常。核密度估计模型是用来计算数据的概率分布函数值,即PDF值,根据Epanechnikov核函数的独有特征,其在有限范围之外值都是零,如果某一时刻进入传感器的数据其PDF值为0,那么就认为其是异常值。这种方法与以往基于密度的异常检测算法相比,无需设置阈值,无需在调整合适的阈值上花费大量精力。与当前很多异常值检测算法(将所有的传感器原始数据都收集到簇首节点作集中式处理的方法)比较,大大降低了通信开销,并且无需设置阈值,可准确检测出异常数据。本专利技术提出的方法对传感器节点测量数据进行实验验证,提高了故障检测的精度,实验表明,本专利技术提出的方法能够适应大规模和资源受限的无线传感器网络中复杂异常检测,具有广阔的应用前景。附图说明图1为分布式数据流模型示意图。图2为基于多维Epanechnikov核密度估计模型的异常值检测算法的总体流程图。具体实施方式异常检测在各个领域中都是一个深入研究的问题,无线传感器网络独特的特点及严格的约束条件使得该问题的研究更具有挑战性。针对无线传感器网络中的异常数据检测问题,目前已经提出过很多种方法,这些方法可以分为基于分布的、基于深度的、基于聚类的、基于距离的以及基于密度的方法。此外,按照传感器网络体系结构异常检测技术又可以分为集中式的和分布式的。本专利技术提出的方法主要是针对资源受限的无线传感器网络复杂的异常检测,大大降低了节点之间的通信消耗,并能准确检测出异常数据,更具有环境适应能力。本专利技术提出的无线传感器网络数据异常检测方法,主要基于两种技术:K最近邻算法和多维Epanechnikov核密度估计模型。N.Roussopoulos等人在传统的空间数据库领域中,对K近邻查询处理方法进行了深入的研究。但该方法的缺点是:由于传感器节点的能量十分有限,将所有传感器节点的感知数据收集到簇首节点进行处理,会造成大量的能量消耗。S.Subramaniam等人的文献提出了一种在分布式环境中,利用数据估计模型检测传感器网络采集的数据是否异常的方法。该方法不仅适用于多维的传感器网络数据模型,而且能在一定程度上降低通信能量的消耗。由于这种方法是利用多粒度偏差系数MDEF的去识别异常值,计算复杂度较高;考虑到无线传感器网络中的节点硬件资源的局限性,可以尝试用更简单的方法去检测异常值。YangZhang等人在技术报告中对无线传感器网络离群数据检测方法进行了较全面的综述和总结,并提出了应用节点多元数据之间的关系进行验证的思想。本专利技术主要针对节点通信消耗远远大于计算消耗且资源受限的大规模无线传感器网络的复杂异常检测。它利用基于第k个最近距离的采样方法,将各分布节点的正常数据传给簇首节点建立一个核密度估计模型,再根据这个模型来检测未来每一时刻各分布节点内到达的数据是否异常。为了进一步阐明方法的原理和创新之处,首先介绍一些基本概念。1、数据流,数据流是由传感器节点按时间顺序产生的一系列序列数据。数据流的特点是变化快、大量和连续到达的,如果直接对其进行计算很不理想,多遍扫描更不切实际。所以在建立数据流模型之前,首先要引入滑动窗口机制,利用滑动窗口来观察最近一个时间段内数据流的变化情况,在滑动窗口内部进行异常值检测。2、滑动窗口,滑动窗口从数据流中随机获取一个数据点作为样本中新的数据元,对某个历史数据点将要滑出滑动窗口之前必须被刚进入的新的数据点代替。设分布节点上的滑动窗口大小均为N,在滑动窗口装满数据后,分布节点Ndj窗口内数据集合表示为3、传感器网络模型,在分布式传感器网络中,假设l+1个节点组成一个分簇,簇中包括一个簇首节点Ndc和l个分布节点Nd1,Nd2,…,Ndl,每个节点上的数据流分别为DS1,DS2,…DSl,相应的每个节点的滑动窗口分别为W1,W2,…,Wl。假设由传感器节点Ndj(j=1,2,…,l)收集的连续时间序列数据流表示为其中表示在tp时刻传感器节点Ndj采集的数据,该数据包含d个属性测量值,即4、核密度估计,核密度估计也称为非参数估计,它不需要有数据分布的先验知识,对数据分布不附加任何假设,是一种从样本出发研究数据分布特征的方法,具有较大的适应性。本文采用基于多维Epanechnikov核密度估计的异常检测算法。设数据集X1,X2…,Xn为Rd上的独立同分布随机变量,其中Xi=(本文档来自技高网...
基于多维Epanechnikov核密度估计的异常检测方法

【技术保护点】
一种基于多维Epanechnikov(叶帕涅奇尼科夫,俄国人)核密度估计的异常检测方法,依次包括以下步骤:1)所有分布节点各自采集数据,接着利用基于第k个最近距离的采样方法进行异常值诊断,如果数据是正常值,就直接上传给簇首节点,如果是异常值,就将该异常值删除;2)在簇首节点滑动窗口内形成正常数据样本,根据该样本在簇首节点滑动窗口内建立核密度估计模型:

【技术特征摘要】
1.一种基于多维Epanechnikov(叶帕涅奇尼科夫,俄国人)核密度估计的异常检测方法,依次包括以下步骤:1)所有分布节点各自采集数据,接着利用基于第k个最近距离的采样方法进行异常值诊断,如果数据是正常值,就直接上传给簇首节点,如果是异常值,就将该异常值删除;2)在簇首节点滑动窗口内形成正常数据样本,根据该样本在簇首节点滑动窗口内建立核密度估计模型:其中,簇首节点数据样本中的数据集是X1,X2,…,Xn,Xi是多维属性数据,Xi=(xi1,xi2,..,xid)为d维数据,|sc|为正常数据样本中数据的个数,X=(x1,x2,…,xd)的核函数为k(X),且满足则式中:滑动窗口宽度d为数据维数,σi表示数据集在第i维上的标准偏差(i=1,2,…,d),n为簇首节点滑动窗口内数据样本中数据的个数,n=|sc|;3)上述核密度估计模型发送给各分布节点,各分布节点利用该核密度估计模型判断下一时刻各分布节点内到达的数据是否异常;若则认为该数据是异常值;式中,...

【专利技术属性】
技术研发人员:李光辉朱虹
申请(专利权)人:浙江农林大学
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1