一种基于时序数据预测的异常检测方法技术

技术编号：41664632 阅读：19 留言：0更新日期：2024-06-14 15:24

本发明专利技术涉及一种基于时序数据预测的异常检测方法,它包括利用维度独立解耦多维时间序列的复杂性，得到多个单变量的时间序列；利用平均池化方法进行序列分解，得到有更准确知识的趋势性序列和可能带有噪声和异常的季节性序列；对于趋势性序列和季节性序列采用相同的标准化和分割操作，得到标准化后的数据块；结合对趋势性数据块使用基于点积注意力的全量预测和对季节性序列使用基于稀疏注意力的稀疏预测结果，得到最终预测值；计算实际值与预测值之间的预测误差，并基于极值理论生成动态阈值，从而通过对比阈值与预测误差实现异常检测。该方法在无标记的情况下实现了对多维时间序列的异常检测且检测准确率高。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及异常检测方法，尤其涉及一种基于时序数据预测的异常检测方法。

技术介绍

1、异常检测是一种识别数据中异常或不符合预期模式的手段。在快速发展的现代工业系统的背景下，大量的高维传感器数据在系统的运行时间期间不断产生，通常包含大量的异常。未能及时识别和检测、解决这些异常可能会损害系统的功能，甚至导致系统停机和重大经济损失。因此，异常检测对于及时识别系统异常、确保稳定性、增强系统的整体弹性并避免经济损失至关重要。然而，现代工业系统、自然环境和人类活动之间的相互作用所产生的复杂性使得异常变得随机和不规则，从而使得高维时间序列数据中异常的识别具有挑战性。异常检测在这种挑战性的背景下也成为了工业界和学术界研究的热点。

2、由于异常数据通常未被标记，无监督学习方法因其不依赖于先验标注的数据，在异常检测领域尤为重要。无监督异常检测技术主要分为四类：基于重构的方法、基于预测的方法、基于聚类的方法以及基于密度估计的方法。这些策略的核心在于利用历史数据建立模型，以此来揭示正常与异常模式之间的显著差异，进而将那些与正常模式差异较大的数据点识别为异常。然而，这些方法在实施过程中往往忽略了一个关键因素——历史数据本身就可能含有噪声和异常值。这意味着，如果直接对原始数据进行建模，模型在学习过程中可能会无意中将噪声和异常视为正常模式的一部分，从而导致无法准确地建立历史数据的模型。这种情况不仅会降低模型对新异常的识别能力，也会影响整体的异常检测性能。

技术实现思路

1、为了最大限度地减少异常和

2、s101：获取包含异常和噪声的多维时间序列数据，其中每条数据包含时间戳和d个特征维度。

3、s102：将多维时间序列数据进行维度独立分解，将其考虑为d条单维时间序列数据进行操作，表示l×d的实数空间，其中l表示时间点的数量，d表示维度，表示l×1的实数空间。

4、s103：对d条单维的时间序列数据进行序列分解，得到具有更准确知识的趋势性序列和可能带有噪声和异常的季节性序列

5、s104：将分解得到的趋势性序列和季节性序列进行标准化处理，对应生成标准化后的趋势性序列和标准化后的季节性序列

6、s105：对标准化后的趋势性序列和标准化后的季节性序列进行分段，对应的形成可能重叠或独立的数据块patches：将时间点信息转化为时间段信息；表示p×n的实数空间，其中p是分段后每个数据块的时间段长度，n是这种分段方式下形成的总的数据块数，表示第i个维度上经过分段处理后的一个具体数据块。

7、s106：使用趋势性序列对应的数据块训练普通transformer模型，以捕获对应的历史序列之间的依赖关系

8、使用季节性序列对应的数据块训练稀疏transformer模型，以捕获对应的历史序列之间的依赖关系

9、s107：将趋势性序列和季节性序列的全量预测和稀疏预测的结果进行整合，并通过展平和线性映射处理得到对应的趋势性预测结果和季节性预测结果将和相加得到对未来t个时间点的预测值

10、s108：计算实际值与预测值之间的预测误差并基于预测误差动态生成阈值

11、s109：对于每个时间点的数据，如果预测偏差超过相应的阈值，则该数据实例被分类为异常；否则，被认为是正常的。

12、作为优选，所述s103中对d条单维的时间序列数据进行序列分解的步骤如下:

13、对于趋势性序列表示第i维时间序列数据的趋势性序列，avgpool表示对输入数据进行平均池化操作，padding表示在时间序列数据外围应用填充操作以适应卷积核大小的需求。

14、对于季节性序列：通过从原始时间序列中减去趋势性序列来得到。

15、作为优选，所述s104将分解得到的趋势性序列和季节性序列进行标准化处理的步骤如下：

16、设定输入数据的滑动窗口大小为tx，序列数量为n，变量数为k，输入数据表示为x如公式(1)：对应的目标值y如公式(2):

17、

18、

19、

20、

21、

22、其中,x(i),y(i),γk,βk,∈分别表示输入序列、目标值、第i个序列的第k个变量在第j个时间点的观测值、第i个序列的第k个变量在滑动窗口内的观测值、第k个变量的缩放因子、经过标准化处理后的观测值、偏移因子和防除零小常数；分别表示均值和方差。

23、将和分别作为输入数据x,通过公式(1)到(5)对应得到和

24、作为优选，所述s105对和进行分段的步骤如下：

25、分段操作为:在数据标准化后，设定分割尺寸patch为p，跨度stride为s，得到分段数量从而使单独的时间点转化为拥有一段时间信息的数据块

26、采用所述分段操作方法对和进行分段。

27、作为优选，所述s106获得和的步骤如下：通过一个线性层将数据块投影到一个潜在的d维空间中：同时，应用一个可学习的位置编码来标记数据块的顺序。因此，输入到基于注意力的transformer编码器的数据结构为：其中然后，在多头注意力机制中，每个头h＝1,...,h将转换成查询矩阵键矩阵k和值矩阵v：

28、

29、其中分别表示第h个注意力头的查询向量、键向量、值向量、查询权重矩阵、键权重矩阵、值权重矩阵。

30、针对趋势性序列,采用点积注意力学习机制以捕获更多更准确的序列知识，进行全量预测训练：

31、

32、针对季节性序列,采用稀疏注意力学习机制以过滤噪声和异常，进行稀疏预测训练：

33、

34、

35、其中scale dot,dk,n_sample分别表示矩阵点积乘法、键向量的维度、采样并转置的键向量、采样的数量。

36、作为优选，所述s107计算和的步骤如下：

37、针对全量预测和稀疏预测的所学习到的历史序列依赖关系，通过展平层flatten将数据块patches展平，再通过线性映射层将长度l的历史时间序列映射到目标长度窗口t，得到趋势性预测结果和季节性预测结果

38、作为优选，所述s108中计算预测误差和阈值的步骤如下：

39、将t个时间点的预测值与该时间点的真实值相减并取绝对值，得到预测误差，该过程可表示为：

40、

41、并基于预测误差应用极值理论算法生成相同长度的阈值:

42、

43、其中f(·)代表极值理论算法。

44、相对于现有技术，本专利技术至少具有如下优点：

45、本专利技术提出了一种基于序列分解和协同预测的异常检测模型deco。它将原始时间序列分解为具有更准确知识的趋势序列和可本文档来自技高网...

【技术保护点】

1.一种基于时序数据预测的异常检测方法，其特征在于，包括如下步骤：

2.如权利要求1所述的一种基于时序数据预测的异常检测方法，其特征在于：所述S103中对d条单维的时间序列数据进行序列分解的步骤如下:

3.如权利要求1或2所述的一种基于时序数据预测的异常检测方法，其特征在于：所述S104将分解得到的趋势性序列和季节性序列进行标准化处理的步骤如下：

4.如权利要求3所述的一种基于时序数据预测的异常检测方法，其特征在于：所述S105对和进行分段的步骤如下：

5.如权利要求3所述的一种基于时序数据预测的异常检测方法，其特征在于：所述S106获得和的步骤如下：通过一个线性层将数据块投影到一个潜在的D维空间中：同时，应用一个可学习的位置编码来标记数据块的顺序；因此，输入到基于注意力的Transformer编码器的数据结构为：其中然后，在多头注意力机制中，每个头h＝1,...,H将转换成查询矩阵键矩阵K和值矩阵V：

6.如权利要求3所述的一种基于时序数据预测的异常检测方法，其特征在于：所述S107计算和的步骤如下：

...

【技术特征摘要】

1.一种基于时序数据预测的异常检测方法，其特征在于，包括如下步骤：

2.如权利要求1所述的一种基于时序数据预测的异常检测方法，其特征在于：所述s103中对d条单维的时间序列数据进行序列分解的步骤如下:

3.如权利要求1或2所述的一种基于时序数据预测的异常检测方法，其特征在于：所述s104将分解得到的趋势性序列和季节性序列进行标准化处理的步骤如下：

4.如权利要求3所述的一种基于时序数据预测的异常检测方法，其特征在于：所述s105对和进行分段的步骤如下：

5.如权利要求3所述的一种基于时序数据预测的异...

【专利技术属性】
技术研发人员：张小洪，张智彬，鄢萌，刘成豪，李强，
申请(专利权)人：重庆大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人