基于深度字典的多传感器数据漂移检测方法技术

技术编号:34512757 阅读:9 留言:0更新日期:2022-08-13 20:59
本发明专利技术涉及一种基于深度字典的多传感器数据漂移检测方法,包括:数据预处理:采用滑动窗口方法将原始输入的多变量时间序列数据划分成多个子序列,每个子序列代表一个样本,将划分后的数据分为训练数据集和测试数据集;深度字典学习:包括稀疏编码和信号解码;异常检测:通过在训练集上学习到的字典计算待测试样本的稀疏编码,然后将字典和测试样本的稀疏编码进行相乘得到测试样本的重构数据,重构误差为异常得分,如果异常得分大于阈值,则判为异常,否则为正常。本发明专利技术不需要十分大量的标注数据。采用自动阈值的方法,根据样本的历史重构误差生成一个自动阈值,将自动阈值与当前测试样本的重构误差进行比较,具有较高的稳定性和泛化能力。和泛化能力。和泛化能力。

【技术实现步骤摘要】
基于深度字典的多传感器数据漂移检测方法


[0001]本专利技术涉及智能信息处理和计算机
,尤其涉及一种基于深度字典的多传感器数据漂移检测方法。

技术介绍

[0002]航天器多个传感器数据存在漂移现象,正常情况下一组相关的传感器有各自的正常规律曲线,从而可以学习出正常数据对应的字典。但是传感器会因为太空环境变化或者自身问题等原因产生数据漂移(即传感器输出的数据不准确,不符合原先的正常值趋势规律)。所以,需要一种检测方法判定多个传感器的输出是否有异常,是否发生了漂移。

技术实现思路

[0003]本专利技术的目的是一种基于深度字典的多传感器数据漂移检测方法,针对多传感器时序数据维度间关系复杂、缺乏异常标注的情况,采用半监督方式对正常数据进行学习,提取正常数据对应的字典和稀疏编码,不仅缩小时间开销而且深度字典能够很好的学习数据特征;相对于现有弱监督检测模型中异常分数阈值导致模型泛化能力弱的问题,本专利技术采用一种自动阈值的方法,从而提高该异常检测方法在不同数据上的泛化能力。
[0004]本专利技术提供了一种基于深度字典的多传感器数据漂移检测方法,包括:
[0005]1)数据预处理
[0006]采用滑动窗口方法将原始输入的多变量时间序列数据划分成多个子序列,每个子序列代表一个样本,将划分后的数据分为训练数据集和测试数据集;其中,训练数据集只包含正常样本;
[0007]2)深度字典学习
[0008]包括稀疏编码和信号解码;所述稀疏编码通过FISTA快速迭代收缩阈值算法在给定的字典上求解输入信号对应的稀疏表示;所述信号解码将字典和学到的稀疏表示进行相乘以得到信号的重构结果;将原始信号和重构信号的均方误差作为损失函数,并通过最小化损失函数对字典进行更新;
[0009]3)异常检测
[0010]通过在训练集上学习到的字典H计算待测试样本的稀疏编码,然后将字典和测试样本的稀疏编码进行相乘得到测试样本的重构数据,重构误差为异常得分,如果异常得分大于阈值,则判为异常,否则为正常。
[0011]进一步地,所述数据预处理包括:
[0012]采用滑动窗口方法对原始数据进行划分,对于多变量时间序列集X={X1,X2,X3,

X
n
},其中X
i
=[x
i1
,x
i2
,x
i3
,

x
im
],x
ij
∈R,x
ij
为时间序列中第i个时间点的第j个属性的观测对象的值,n为该时间序列的长度,m为观测对象的属性维度,使用窗口大小为L,滑动步长为S的滑动窗口将该时间序列进行分割成一组长度相等的时间序列的子序列X={S1,S2,S3,

S
M
},即:
[0013][0014]式中:M表示子序列的个数,L表示每个子序列的长度,每个子序列为模型训练中的一个样本。
[0015]进一步地,所述稀疏编码包括:
[0016]给定输入信号y、字典H以及参数λ,令L≥σ
max
(H
T
H);假定迭代T轮,信号的初始稀疏编码z0设置为0,且中间变量s的初始值s0也设置为0;每一轮t包含四个步骤:
[0017]第一步,计算中间变量s,如下所示:
[0018][0019]第二步,计算中间变量w,如下所示:
[0020][0021]第三步,计算中间变量c,如下所示:
[0022][0023]第四步,计算稀疏编码z,如下所示:
[0024][0025]其中,代表收缩运算操作符,是一个双端ReLU(two

sided ReLU)运算,定义如下所示:
[0026]η
ε,n
(X)=(X[n]‑
ε)+sgn(X[n])
[0027]=ReLU(X[n]‑
ε)

ReLU(

X[n]‑
ε)
[0028]其中,X表示一个向量,X[n]表示向量的第n维数值,ε表示阈值;sgn()表示取符号函数;
[0029]重复上述过程,直至迭代次数达到上限;
[0030]解码过程是将字典H和训练数据y的稀疏编码进行相乘,结果得到训练集的重构数据,即:
[0031][0032]其中,是重构数据,z
T
是数据y在字典H上的稀疏编码;
[0033]深度字典学习通过最小化训练集重构误差来更新字典,重构误差的计算公式如
下:
[0034][0035]字典更新对应的优化问题形式化描述为:
[0036][0037]具体地,首先随机初始化一个包含C个原子的字典H;对字典采用批量迭代训练方法,假设训练T轮,每一轮包含三个步骤:第一,随机打乱训练集;第二,抽取一批数据并且计算这些数据在字典H上的稀疏编码z
T
;第三,计算这一批数据的重构误差;第四,利用反向传播算法更新H;重复第二到第四步直到训练集上的数据都被用来更新H。
[0038]进一步地,所述异常检测中的阈值采用自适应确定的方法,根据前h个历史测试样本的重构误差来确定当前测试样本的异常分数阈值;对于当前测试样本,其前h个历史测试样本的重构误差组成的误差向量e:
[0039]e=[e
(t

h

1)
,

,e
(t

2)
,e
(t

1)
][0040]对上式所述的误差向量进行指数加权滑动平均(EWMA),得到平滑后的误差向量e
s

[0041][0042]根据平滑后的误差向量得到当前测试样本的异常分数阈值ε,定义如下所示。
[0043]ε=μ(e
s
)+zσ(e
s
)
[0044]其中,z是一组正数集合,用于确定异常分数阈值ε,μ()表示取误差的均值,σ()表示取误差的标准差;然后再根据以下公式选择一个最后用来和当前异常分数e
(t)
比较的阈值;
[0045][0046]其中,各子式具体定义如下所示:
[0047][0048][0049][0050][0051]测试初期历史训练样本的重构误差数少于h,通过训练样本的重构误差来确定初始自动阈值。
[0052]借由上述方案,通过基于深度字典的多传感器数据漂移检测方法,采用半监督异常检测模型,不需要十分大量的标注数据。本专利技术以正常数据作为训练集学习深度字典,将字典学习和稀疏表示嵌入到自编码网络结构中。当有新数据到来时,通过字典对数据进行稀疏编码,再将编码结果和字典相乘得到重构数据,最后根据重构误差来判断新数据的异常状况。相对于现有弱监督检测模型中异常分数阈值导致模型泛化能力本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度字典的多传感器数据漂移检测方法,其特征在于,包括:1)数据预处理采用滑动窗口方法将原始输入的多变量时间序列数据划分成多个子序列,每个子序列代表一个样本,将划分后的数据分为训练数据集和测试数据集;其中,训练数据集只包含正常样本;2)深度字典学习包括稀疏编码和信号解码;所述稀疏编码通过FISTA快速迭代收缩阈值算法在给定的字典上求解输入信号对应的稀疏表示;所述信号解码将字典和学到的稀疏表示进行相乘以得到信号的重构结果;将原始信号和重构信号的均方误差作为损失函数,并通过最小化损失函数对字典进行更新;3)异常检测通过在训练集上学习到的字典H计算待测试样本的稀疏编码,然后将字典和测试样本的稀疏编码进行相乘得到测试样本的重构数据,重构误差为异常得分,如果异常得分大于阈值,则判为异常,否则为正常。2.根据权利要求1所述的基于深度字典的多传感器数据漂移检测方法,其特征在于,所述数据预处理包括:采用滑动窗口方法对原始数据进行划分,对于多变量时间序列集X={X1,X2,X3,

X
n
},其中X
i
=[x
i1
,x
i2
,x
i3
,

x
im
],x
ij
∈R,x
ij
为时间序列中第i个时间点的第j个属性的观测对象的值,n为该时间序列的长度,m为观测对象的属性维度,使用窗口大小为L,滑动步长为S的滑动窗口将该时间序列进行分割成一组长度相等的时间序列的子序列X={S1,S2,S3,

S
M
},即:式中:M表示子序列的个数,L表示每个子序列的长度,每个子序列为模型训练中的一个样本。3.根据权利要求2所述的基于深度字典的多传感器数据漂移检测方法,其特征在于,所述稀疏编码包括:给定输入信号y、字典H以及参数λ,令L≥σ
max
(H
T
H);假定迭代T轮,信号的初始稀疏编码z0设置为0,且中间变量s的初始值s0也设置为0;每一轮t包含四个步骤:第一步,计算中间变量s,如下所示:第二步,计算中间变量w,如下所示:
第三步,计算中间变量c,如下所示:第四步,计算稀疏编码z,如下所示:其中,代表收缩运算操作符,是一个双端ReLU运算,定义如下所示:η
...

【专利技术属性】
技术研发人员:鲍军鹏胡伟张震王魁张南唐斌汪建基高宇飞李国靖王文青
申请(专利权)人:中国人民解放军六三九一九部队
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1