一种基于距离的异常数据检测方法及系统技术方案

技术编号:16482983 阅读:48 留言:0更新日期:2017-10-31 15:34
本发明专利技术涉及一种基于距离的异常数据检测方法,具体通过设置若干数据区间,并判断每个区间内的数据数量来判断所设置的区间是正常区间还是异常区间,从而检测出异常数据的方法。本发明专利技术还涉及一种使用该方法来进行异常数据检测的系统,其包括数据采集模块、中央服务器和内置于中央服务器内的数据检测模块构成,采集模块用来采集数据,上传至中央服务器,中央服务器通过内置的数据检测模块按照本发明专利技术提供的方法进行异常数据检测和剔除。

Anomaly data detection method and system based on distance

The invention relates to an anomaly detection method based on distance data, by setting a number of specific data interval, and determine the number of each interval data to determine the interval set interval is normal or abnormal interval, so as to detect the abnormal data. The invention also relates to a system for abnormal data detection using the method, which consists of data acquisition module, a central server and embedded in the central server in the data detection module, data acquisition module used to collect data uploaded to the central server, method of central server through the built-in data detection module is provided according to the invention of detection and elimination of abnormal data.

【技术实现步骤摘要】
一种基于距离的异常数据检测方法及系统
本专利技术属于市政、信息处理及智能楼宇领域,具体涉及一种基于距离的异常数据检测方法,本专利技术还涉及实现该方法的系统。
技术介绍
随着物联网和互联网技术的发展,在供热、空调、给水、排水等市政以及智能楼宇领域,市政系统中诸如压力、温度、流量、智能楼宇领域的诸如能源消耗、室内温度、湿度等参数的测量和采集都采用自动化仪表,测量数据自动采集,并实现数据远程传输。这种方式一方面使得数据能够实时采集,是系统实现自控的必要环节,另一方面实现了高频率的电子化数据,方便管理人员运行管理和故障的诊断、处理等功能,提高服务品质的同时大大降低了能源消耗。然而随着数据采集种类的越来越多,采集的频次越来越高,数据数量越来越大,异常数据的产生难以避免,从而影响服务质量、浪费能源甚至引起安全事故,因此在使用数据前必须进行异常数据的检测和剔除。可以看到,这些数据具有如下特征:(1)多数情况下,这些数据为时间序列数据,呈一维性特征,正常的时间序列数据具有时间自相关性,即如果两个测量的时间很接近,则这些测量的值通常非常相似。(2)这些数据随着时间具有一定的变化规律,比如累积热量会随着时间递增,室外温度在24小时内呈现一定的周期性等等,考察不同变量的变化规律,以此对变量进行处理,可以得到一个在正常情况下数值比较稳定的新变量,比如可以将累积热量数据处理为日耗热量。(3)在得到的新变量中,异常点将会明显地远离其他正常点,即异常点与正常点之间的差值将远大于正常点之间的差值。并且在新变量所有对象的取值区间内,异常点将位于区间的两端(或其中一端)。目前已经提出的异常检测方法有很多种,主要有基于分布、距离、密度、聚类和分类的方法,但要么涉及的边界阈值选取存在一定困难,要么计算极其复杂,又或者人为限制了某个数据集中可能存在的异常点的数量,缺乏灵活性。本专利技术基于上述数据特征,提出一种简单而又高效的异常数据检测方法以及实现该方法的系统。
技术实现思路
本专利技术提出一种基于距离的异常数据检测方法,其解决所述技术问题采用的技术方案包括如下步骤:(1)确定需要处理的数据集合S,S中的元素数量大于1;(2)提取需要处理的数据集合中的最小数据minValue和最大数据maxValue;(3)将取值范围(minValue,maxValue)等分成N个区间,定义区间间隔minD为异常点与正常点的距离阈值,minD按照式(1)计算:则第i个分隔区间为:Di=[minValue+(i-1)*minD,minValue+i*minD)其中i=1,……,N;N通过观察确定的任意整数,N大于1;(4)统计落在每个区间Di范围上数据的数量;(5)给出数量阈值k,对各个区间进行分类。若区间内数据数量≤k,将该区间分类为异常点候选区间;若区间内数据数量>k,将该区间分类为正常区间,k通过观察确定的任意整数,但k应小于数据集合S中的元素数量;(6)对异常点候选区间进行判定,判断规则为:对于任意一个p∈S(k),满足:式中distance(p,q)—p与q之间的距离;value(p)——p的值;value(q)—q的值;S(normal)——包含所有最初被标定为正常区间中的数据的集合;S(k)——异常点区间内所有数据的集合;(7)基于第(6)步的规则,则可以按照下述方式进行操作:第一,若某异常点候选区间在两个正常区间之间,将其重新划分为正常区间;第二,若某异常点候选区间与正常区间紧邻,将其重新划分为正常区间。剩余的异常点候选区间将作为异常点区间,包含在这些区间内的点即为异常点。需要注意的是,若一个异常点候选区间在判定后被重新划分为正常区间,那么该正常区间不参与其他异常点候选区间的判定。其特征还在于:检测出的异常数据可以进行剔除处理,也可以采用修正、替换等其他方式处理;其特征还在于:用于检测的数据可以是数据库系统里的已经存在的数据,也可以是实时采集上传的数据;其特征还在于:可以在线实时对采集上来的数据进行异常数据检测,也可以将采集上来的数据先存储到数据库,然后在某个时间调出需要处理的数据集中进行异常数据检测;本专利技术为解决所述技术问题,还提供了一种基于距离的异常数据检测系统,其特征在于:该系统由数据采集模块、中央服务器和数据检测模块构成,其中采集模块用来采集数据,上传至中央服务器,内置在中央服务器里的数据检测模块根据本专利技术提供的方法进行异常数据检测和剔除或修正处理。如前所述,本专利技术方法和基于该方法的系统可以有效识别并剔除数据中存在的异常点,对于数据的有效利用具有重要的实际意义。附图说明图1是基于距离的异常数据检测系统原理架构图。具体实施方式下面结合附图及实例对本专利技术的技术方案做进一步说明,但它不构成对本专利技术权利要求的限制:实施例1:在供热系统进行运行调节或者热费分摊计算时,楼栋热量表采集的“累计耗热量”Qc非常重要。如图1所示,热量表作为数据采集模块,将实时采集的数据上传至中心服务器,中心服务器收到数据后,首先计算“日耗热量”Qdh,再采用本专利提供的方法对“日耗热量”进行异常点检测识别,进而识别出“累计耗热量”的故障数据,具体按照如下步骤进行处理:(1)每个“累计耗热量”Qc,i对应的记录均有一个采样时间τi数据,根据式(3),可得楼栋日耗热量Qdh,确定楼栋日耗热量为处理数据的集合S式中Qdh,i——τi时刻的日耗热量,kWh/d;Qc,i——时刻的累计耗热量,kWh;τi——采样时间,d。(2)提取需要处理的数据集合中的最小日耗热量minQdh和最大日耗热量数据maxQdh;(3)将取值范围(minQdh,maxQdh)等分成N个区间,N取40,定义区间间隔minD为异常点与正常点的距离阈值,minD按照式(3)计算:则第i个分隔区间为Di=[minQdh+(i-1)*minD,minQdh+i*minD)其中i=1,……,N;(4)统计落在每个区间Di范围上数据的数量;(5)给出数量阈值k,k取2;对各个区间进行分类。若区间内数据数量≤k,将该区间分类为异常点候选区间;若区间内数据数量>k,将该区间分类为正常区间;(6)对异常点候选区间进行判定,判断规则为:对于任意一个p∈S(k),满足:式中S(normal)——包含所有最初被标定为正常区间中的数据的集合;S(k)——异常点区间内所有数据的集合(7)基于上述规则,按照下述方式进行操作:第一,若某异常点候选区间在两个正常区间之间,将其重新划分为正常区间;第二,若某异常点候选区间与正常区间紧邻,将其重新划分为正常区间。剩余的异常点候选区间将作为异常点区间,包含在这些区间内的点即为异常点。需要注意的是,若一个异常点候选区间在判定后被重新划分为正常区间,那么该正常区间不参与其他异常点候选区间的判定。实施例2:在获取了某个用户间隔30分钟的大量室温数据后,对室温进行异常点检测,具体按照如下步骤进行处理:(1)确定用户室温数据为处理数据的集合S;(2)提取需要处理的数据集合中的最低温度minT和最高温度maxT;(3)将取值范围(minT,maxT)等分成N个区间,定义区间间隔minD为异常点与正常点的距离阈值,minD按照式(3)计算:则第i个分隔区间为Di=[minT+(i-1)本文档来自技高网
...
一种基于距离的异常数据检测方法及系统

【技术保护点】
一种异常数据检测方法,其特征在于:包括以下步骤:(1)确定需要处理的数据集合S,S中的元素数量大于1;(2)提取需要处理的数据集合中的最小数据minValue和最大数据maxValue;(3)将取值范围(minValue,maxValue)等分成N个区间,定义区间间隔minD为异常点与正常点的距离阈值,minD按照式(1)计算:

【技术特征摘要】
1.一种异常数据检测方法,其特征在于:包括以下步骤:(1)确定需要处理的数据集合S,S中的元素数量大于1;(2)提取需要处理的数据集合中的最小数据minValue和最大数据maxValue;(3)将取值范围(minValue,maxValue)等分成N个区间,定义区间间隔minD为异常点与正常点的距离阈值,minD按照式(1)计算:则第i个分隔区间为Di=[minValue+(i-1)*minD,minValue+i*minD)其中i=1,……,N;N通过观察确定的任意整数,N大于1;(4)统计落在每个区间Di范围上数据的数量;(5)给出数量阈值k,对各个区间进行分类。若区间内数据数量≤k,将该区间分类为异常点候选区间;若区间内数据数量>k,将该区间分类为正常区间,k通过观察确定的任意整数,但k应小于数据集合S中的元素数量;(6)对异常点候选区间进行判定,判断规则为:对于任意一个p∈S(k),满足:式中distance(p,q)—p与q之间的距离;value(p)——p的值;value(q)—q的...

【专利技术属性】
技术研发人员:张华宾刘亚萌洪莲
申请(专利权)人:北京暖流科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1