System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术属于数据挖掘,具体涉及一种基于时空特征表示差异的时序数据的异常检测方法和装置。
技术介绍
1、深度学习应用于时序数据的异常检测一直是比较热门的研究方向,近年来深度学习应用于时序的表示学习得到了很多的关注。使用表示学习方法对数据本身质量、数据标签要求更低,更适于应用于实际的时序数据场景。近年来出现了一些应用时序数据表示学习进行异常检测的方法。
2、清华大学提出的anomalytransformer模型基于异常点仅与其周围点具有较强的特征关联而与全局的时序点具有较低的特征关联,而正常点与其周围以及全局的数据点都具有较稳定的关联模式的直觉观测,使用tranformer的encoder建模两种关联表示seriesassociation(全局关联)以及prior association(局部关联),并基于这两种关联的差异去判断时序异常点。然而这种方法仅仅考虑到各时间点时序方向的关联模式,未考虑到时间序列数据天然存在的各通道之间的关联性。
3、阿里巴巴提出的dcdetector模型同样基于上述模型的架构,不同点在于该dcdetector模型将输入的数据切分为等长patch,建构数据的逐patch表示以及patch内的逐点嵌入表示,并将这两种表示使用简单的复制上采样之后对比两种表示之间的差异以寻找异常点。与上述方法相似,该方法也没有考虑到时序数据天然的通道之间的相关性,且简单的复制上采样容易造成信息的损失。同时,上述两种模型并不够简洁,训练尚需较长的时间。
4、上述两种方法均是使用深度表示学习的方
技术实现思路
1、鉴于上述,本专利技术的目的是提供一种基于时空特征表示差异的时序数据的异常检测方法和装置,可以在没有异常标签的情况下使用,并检测出时序数据中可能存在的异常,且该方法使用简单,效率高。
2、为实现上述专利技术目的,实施例提供的一种基于时空特征表示差异的时序数据的异常检测方法,包括以下步骤:
3、获取时序数据并进行预处理来构建样本数据;
4、利用样本数据对基于时空特征表示差异的深度学习模型进行训练得到异常检测模型;
5、利用异常检测模型对待检测的样本数据进行推理计算得到每个时间点数据的异常得分,包括:基于待检测的样本数据在时间角度提取的时间特征表示和基于空间角度提取的空间特征表示之间的第一相似度来确定样本中每个时间点数据的异常得分;
6、筛选异常得分高于异常阈值的时间点数据被判定为异常。
7、优选地,对时序数据进行的预处理包括:去除时序数据中异常点、回填插补缺失值、以及数据归一化。
8、优选地,利用样本数据对基于时空特征表示差异的深度学习模型进行训练得到异常检测模型,包括:
9、样本数据以等长时间窗口的形式组织,并按照时间顺序将每个时间窗口内样本数据切分为等长的块patch,得到形状为的输入数据,其中,numpatchs表示单个时间窗口内样本数据被切分成patch之后的patch数量,patchsize表示每个patch的长度,c表示多维时序数据中维度数目;
10、将每个时间窗口内的输入数据分别按照时间角度和空间角度输入至各角度对应的特征表示模块中进行特征表示得到时间特征表示和空间特征表示,并在异常检测模块中根据时间特征表示和空间特征表示计算两者之间的第一相似度,并以第一相似度构建损失函数来优化特征表示模块,优化后特征表示模块和异常检测模块构成异常检测模型。
11、优选地,时间角度和空间角度各自对应的特征表示模块结构相同,均包括线性表示层和注意力层和尺寸映射层;
12、输入数据在线性表示层中经过线性映射提取嵌入表示,该嵌入表示在注意力层中通过注意力机制关注重要特征得到重要表示,基于重要表示计算每行之间的第二相似度来重构相似度表示,该相似度表示在尺寸映射层经过上采样后得到与输入数据相同维度的时序关联表示,该时序关联表示中每一行数据视为时间窗口内某时间点数据与窗口内所有时间点数据之间的关联模式;
13、时间角度对应的特征表示模块输出的时序关联表示作为时间特征表示,空间角度对应的特征表示模块输出的时序关联表示作为空间特征表示。
14、优选地,第二相似度采用余弦相似度。
15、优选地,嵌入表示在注意力层中通过注意力机制关注重要特征得到重要表示,包括:
16、采用与线性表示层输出的嵌入表示不同的时序嵌入表示作为查询向量q,同时将线性表示层输出的嵌入表示作为键向量k和值向量v,基于k、q、以及v并使用注意力机制关注重要特征得到重要表示。
17、优选地,通过mlp构建patch内逐时间点数据的表示作为查询向量q。
18、优选地,第一相似度采用kl散度,训练时,基于kl散度构建损失函数,以最小化损失为目标来优化特征表示模块;
19、预测推理时,基于时间特征表示和空间特征表示计算每一行数据之间的kl散度,该kl散度能够表示每个时间点数据从两特征表示得到的差异,从kl散度中得到每个时间点数据的异常得分。
20、优选地,所述异常阈值通过以下方式构建:
21、在训练深度学习模型时保存用于训练的样本数据中逐时间点数据的异常得分,利用异常检测模型计算用于验证的样本数据中逐时间点数据的异常得分,并合并训练样本数据和验证样本数据中逐时间点数据的异常得分得到总体异常得分,然后依据训练样本集和验证样本集中异常比例的知识,筛选总体异常得分中按照高低排序时,异常比例排序位置对应的异常得分作为异常阈值。
22、为实现上述专利技术目的,本专利技术实施例提供了一种基于时空特征表示差异的时序数据中的异常检测装置,包括:
23、数据预处理模块,其用于获取时序数据并进行预处理来构建样本数据;
24、模型训练模块,其用于利用样本数据对基于时空特征表示差异的深度学习模型进行训练得到异常检测模型;
25、推理计算模块,其用于利用异常检测模型对待检测的样本数据进行推理计算得到每个时间点数据的异常得分,包括:基于待检测的样本数据在时间角度提取的时间特征表示和基于空间角度提取的空间特征表示之间的第一相似度来确定样本中每个时间点数据的异常得分;
26、异常判断模块,其用于筛选异常得分高于异常阈值的时间点数据被判定为异常。
27、与现有技术相比,本专利技术具有的有益效果至少包括:
28、(1)由于时间序列数据普遍缺乏异常标签,使得有监督学习方法难以应用,本专利技术所提出的异常检测方法利用深度表示学习技术,学习每个时间窗口内的输入数据各时间点数据之间的相关性,由于异常数据点与其他正常点之间的关联性较为脆弱,难以从不同的嵌入表示中建模出稳定的异常点与窗口内其他数据点的关联性表示,据本文档来自技高网...
【技术保护点】
1.一种基于时空特征表示差异的时序数据的异常检测方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的基于时空特征表示差异的时序数据的异常检测方法,其特征在于,对时序数据进行的预处理包括:去除时序数据中异常点、回填插补缺失值、以及数据归一化。
3.根据权利要求1所述的基于时空特征表示差异的时序数据的异常检测方法,其特征在于,利用样本数据对基于时空特征表示差异的深度学习模型进行训练得到异常检测模型,包括:
4.根据权利要求3所述的基于时空特征表示差异的时序数据的异常检测方法,其特征在于,时间角度和空间角度各自对应的特征表示模块结构相同,均包括线性表示层和注意力层和尺寸映射层;
5.根据权利要求4所述的基于时空特征表示差异的时序数据的异常检测方法,其特征在于,第二相似度采用余弦相似度。
6.根据权利要求4所述的基于时空特征表示差异的时序数据的异常检测方法,其特征在于,嵌入表示在注意力层中通过注意力机制关注重要特征得到重要表示,包括:
7.根据权利要求6所述的基于时空特征表示差异的时序数据的异常检测方法,其特征
8.根据权利要求3所述的基于时空特征表示差异的时序数据的异常检测方法,其特征在于,第一相似度采用KL散度,训练时,基于KL散度构建损失函数,以最小化损失为目标来优化特征表示模块;
9.根据权利要求1所述的基于时空特征表示差异的时序数据的异常检测方法,其特征在于,所述异常阈值通过以下方式构建:
10.一种基于时空特征表示差异的时序数据的异常检测装置,其特征在于,包括:
...【技术特征摘要】
1.一种基于时空特征表示差异的时序数据的异常检测方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的基于时空特征表示差异的时序数据的异常检测方法,其特征在于,对时序数据进行的预处理包括:去除时序数据中异常点、回填插补缺失值、以及数据归一化。
3.根据权利要求1所述的基于时空特征表示差异的时序数据的异常检测方法,其特征在于,利用样本数据对基于时空特征表示差异的深度学习模型进行训练得到异常检测模型,包括:
4.根据权利要求3所述的基于时空特征表示差异的时序数据的异常检测方法,其特征在于,时间角度和空间角度各自对应的特征表示模块结构相同,均包括线性表示层和注意力层和尺寸映射层;
5.根据权利要求4所述的基于时空特征表示差异的时序数据的异常检测方法,其特征在于,第二相似度采用余弦...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。