一种基于相关性辅助的高维时间序列数据清洗方法技术

技术编号:34854858 阅读:66 留言:0更新日期:2022-09-08 07:56
本发明专利技术提供了一种基于相关性辅助的高维时间序列数据清洗方法,该方法通过对高维时间序列数据相关机理的深入挖掘,基于从高维数据中提取的信息进行知识推理,确定高维时间序列数组中存在的异常维度,再通过速度约束对异常维度进行异常数据点检测,最后对异常点进行清洗修复,解决了以往清洗算法中约束条件单一和数据空间相关性利用不充分的问题。本发明专利技术提出的方法能够有效地对传感器网络数据集进行清洗。洗。

【技术实现步骤摘要】
一种基于相关性辅助的高维时间序列数据清洗方法


[0001]本专利技术涉及一种面向无线传感器网络的基于相关性辅助的高维时间序列数据清洗方法。

技术介绍

[0002]由于网络自身的物理和技术特点限制,例如传感器部署环境恶劣、网络带宽有限、环境噪声干扰等因素,无线传感器网络在数据采集、传输、记录等过程中所得到的数据会存在一定程度的正确性缺失问题。存在正确性问题的数据并不能准确地用于对真实世界表征,导致数据分析的成本增加以及风险提升。消除数据中的异常、提高数据正确性,可以加强大数据和人工智能在数据分析环节的优化效果。
[0003]如何有效地识别数据中存在的异常并将其修复,已经成为数据管理领域中的重要研究课题。在日常生活以及工业领域中传感器采集的温度、湿度、电压等数据均是时间序列数据,即数据点通常伴随着时间的变化会产生一定的变化规律。数据质量作为网络的核心因素,只有高质量的数据才能保证网络服务的有效性,从而利用数据挖掘等技术从数据中提取知识为用户服务。在数据应用之前,有必要对传感器采集的原始时间序列中的异常数据进行修复,即对原始数据进行清洗,剔除脏数据,提高数据质量。

技术实现思路

[0004]本专利技术提出了一种面向无线传感器网络的基于相关性辅助的高维时间序列数据清洗方法(High dimensional time series data cleaning method based on correlation assistance,HTD

Cleaning)。该方法首先进行数据预处理,通过先验知识和相关性计算筛选异常维度;然后在异常维度上采用动态规划和速度约束相结合的方法确定异常点,对异常维度进行标注;最终采用带有外生变量的自回归模型迭代地对异常点进行修复,进而提高数据质量,解决网络数据中存在的正确性缺失问题。
[0005]本专利技术解决其技术问题所采用的技术方案包括:
[0006]一种面向无线传感器网络的基于相关性辅助的高维时间序列数据清洗方法,包括以下步骤:
[0007](1)获取待清洗的无线传感器网络采集的高维时间序列数组H={X1,X2,...,X
K
};K表示多维时间序列H中时间序列的条数;一条时间序列表示其中一个维度,每条时间序列X
k
包含n个数据点;
[0008](2)确定高维时间序列数组H中存在的异常维度:依次选取其中一维度时间序列X
k
,并一一计算时间序列X
k
与高维时间序列数组H中剩余时间序列X
m
,j≠k且m,k∈[1,

,K]的两两维度之间的相关性Corr(X
k
,X
m
),统计其中存在高相关性且相关性下降大于阈值d的维度数量declined,若维度数量declined大于阈值则认为时间序列X
k
异常,否则正常;
[0009]其中,统计其中存在高相关性且相关性绝对值下降大于阈值d的维度数量declined的方法如下:收集无异常的无线传感器网络采集的高维时间序列数组,一一计算
高维时间序列数组中两两维度之间的相关性绝对值|C
d,m
|,m≠k且m,k∈[1,

,K],若|C
k,m
|∈[c,1],则时间序列X
k
和X
m
存在高相关性,若|C
k,m
|∈[0,c],则时间序列X
k
和X
m
不存在高相关性,其中,c表示高相关性阈值;若Corr(X
k
,X
m
)<C
k,m

d,则时间序列X
k
和X
,
相关性下降大于阈值d;
[0010](3)对步骤(2)确定的异常维度进行异常数据点检测,包括以下子步骤:
[0011](3.1)令X[1∶i],i=1,

,n表示异常维度时间序列的子序列;anomaly[i]表示保留第i个数据点的条件下,最少需要删除多少数据点才可以保证删除点后子序列X[1∶i]满足速度约束;删除点后子序列X[1∶i]满足速度约束的条件是:删除点后子序列X[1∶i]中任何窗口w内的两个数据点x
i
,x
j
的数值满足则该序列满足速度约束;其中,d
i
,d
j
分别表示两个数据点x
i
,x
j
的数值,t
i
,t
j
分别表示两个数据点x
i
,x
j
对应的时间;
[0012](3.2)令j>i,初始化anomaly[i]=i

1,从i=1,j=2开始迭代判断子序列X[1∶j]是否满足速度约束,若满足速度约束则记录删除anomaly[j]个数据点后的子序列X[1∶j];
[0013](3.3)从所有删除anomaly[j]个数据点后的子序列X[1∶j]中选择删除数据点数量最少的子序列X[1∶j]作为所述异常维度最后的异常数据点检测结果。
[0014](4)根据异常数据点检测结果对所述异常维度原始数据进行清洗。
[0015]进一步地,所述步骤(2)中,若维度数量declined大于阈值则认为时间序列X
k
异常,具体如下:维度数量declined大于correlated*θ则认为时间序列X
k
异常,其中,correlated是统计的与所述时间序列X
k
存在高相关性的维度数量,θ是相关性关系显著改变比例。
[0016]进一步地,所述步骤(3.2)中,迭代判断子序列X[1∶j]是否满足速度约束的方法如下:
[0017](a)令j=2,从i=1开始迭代判断在删除anomaly[i]个数据点后子序列X[1∶i]满足速度约束的条件下,数据点x
i
,x
j
是否满足且是否anomaly[j]>anomaly[i]+(j

i

1),若满足则删除第i+1到第h

1的数据点,保留第j个数据点,子序列X[1∶j]一定满足速度约束,更新anomaly[j]=anomaly[i]+(j

i

1),直至不满足,记录最后记录删除anomaly[j]个数据点后的子序列X[1∶j];其中,
[0018](b)更新j,按照步骤(a)的方法执行,迭代判断X[1∶j]是否满足速度约束和记录满足速度约束则记录删除anomaly[j]个数据点后的子序列X[1∶j],直至j=n。
[0019]进一步地,所述步骤(4)具体为:
[0020](4.1)根据异常数据点检测结果对所述异常维度原始数据进行标注作为初始迭代的维度本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于相关性辅助的高维时间序列数据清洗方法,其特征在于,包括以下步骤:(1)获取待清洗的无线传感器网络采集的高维时间序列数组H={X1,X2,...,X
K
};K表示多维时间序列H中时间序列的条数;每条时间序列X
k
包含n个数据点;(2)确定高维时间序列数组H中存在的异常维度:依次选取其中一维度时间序列X
k
,并一一计算时间序列X
k
与高维时间序列数组H中剩余时间序列X
m
,j≠k且m,k∈[1,

,K]的两两维度之间的相关性Corr(X
k
,X
m
),统计其中存在高相关性且相关性下降大于阈值d的维度数量declined,若维度数量declined大于阈值则认为时间序列X
k
异常,否则正常;其中,统计其中存在高相关性且相关性绝对值下降大于阈值d的维度数量declined的方法如下:收集无异常的无线传感器网络采集的高维时间序列数组,一一计算高维时间序列数组中两两维度之间的相关性绝对值|C
k,m
|,m≠k且m,k∈[1,

,K],若|C
k,m
|∈[c,1],则时间序列X
k
和X
m
存在高相关性,若|C
k,m
|∈[0,c],则时间序列X
k
和X
m
不存在高相关性,其中,c表示高相关性阈值;若Corr(X
k
,X
m
)<C
k,m

d,则时间序列X
k
和X
m
相关性下降大于阈值d;(3)对步骤(2)确定的异常维度进行异常数据点检测,包括以下子步骤:(3.1)令X[1:i],i=1,

,n表示异常维度时间序列的子序列;anomaly[i]表示保留第i个数据点的条件下,最少需要删除多少数据点才可以保证删除点后子序列X[1:i]满足速度约束;删除点后子序列X[1:i]满足速度约束的条件是:删除点后子序列X[1:i]中任何窗口w内的两个数据点x
i
,x
j
的数值满足则该序列满足速度约束;其中,d
i
,d
j
分别表示两个数据点x
i
,x
j
的数值,t
i
,t
j
分别表示两个数据点x
i
,x
j
对应的时间;(3.2)令j>i,初始化anomaly[i]=i

1,从i=1,j=2开始迭代判断子序列X[1:j]是否满足速度约束,若满足速度...

【专利技术属性】
技术研发人员:周静静张昊章国豪于晓康朱旭东诸葛斌
申请(专利权)人:浙江工商大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1