一种对时间序列进行异常检测的方法、系统、设备及介质技术方案

技术编号:34738039 阅读:20 留言:0更新日期:2022-08-31 18:29
本发明专利技术公开了一种对时间序列进行异常检测的方法、系统、设备及介质,方法包括将时间序列输入到自编码器进行训练,并从训练好的自编码器中获取时间序列的抽象特征;将时间序列的抽象特征输入到高斯混合模型进行训练,得到对应的高斯混合模型;将待检测数据输入到训练好的自编码器,得到待检测数据的抽象特征;将待检测数据的抽象特征输入到对应的高斯混合模型,以确定待检测数据的抽象特征所属对应的高斯混合模型的子高斯模型;获取子高斯模型的参数,并基于参数以及三西格玛法则判断待检测数据是否为异常数据。通过本发明专利技术的方案,实现了在不需要提前对历史数据中的正常数据和异常数据进行标定的情况下,对时间序列的异常检测。测。测。

【技术实现步骤摘要】
一种对时间序列进行异常检测的方法、系统、设备及介质


[0001]本专利技术涉及数据检测领域,尤其涉及一种对时间序列进行异常检测的方法、系统、设备及介质。

技术介绍

[0002]时间序列是一类最常见的数据,目前时间序列分析重点研究的多是时间序列的预测。但针对有些问题,时间序列的形态比较也是一类重要的问题。例如:各种商品每日均价(或者股票的每日收盘价格)构成了时间序列,如何评价商品价格走势的一致性,就可以归结为时间序列形态聚类问题。
[0003]异常检测(Anomaly detection)是目前时序数据分析最常研究的方向之一,定义是从正常的时间序列中识别出不正常的事件或行为的过程。异常检测被广泛用于工业的很多领域,例如量化交易、网络安全检测、自动驾驶汽车和大型工业设备的日常维护。以在轨航天器为例,由于航天器昂贵且系统复杂,未能检测到危险可能会导致严重甚至无法弥补的损害。异常随时可能发展为严重故障,因此准确及时的异常检测可以提醒航天工程师尽早采取措施。
[0004]时间序列的异常检测问题通常表述为找到相对于某些标准或常规信号的异常数据点,这里通常有多种异常点类型,从业务的角度来看,我们只专注于最重要的,如:意外的峰值、意外的低谷与趋势突变。一般而言,很多异常可以通过人工的方式来判断。然而当业务组合复杂、时序规模变大后,依靠传统的人工和简单的同比环比等绝对值算法来判断就显得捉襟见肘了。因此,在面对各种各样的工业级场景时,系统地了解时间序列异常检测方法尤为重要。
[0005]基本上,异常检测算法分为两类。第一类使用分类算法,将每个时间点标记为异常/非异常,然后通过分类算法对每个时间点进行分类,缺点是需要对历史数据的异常/非异常进行人工标注,对人为的判断有明显的依赖;第二类使用预测算法,预测某个点的信号,然后测试该点实际值与预测值的差,然后观察其差是否足以将其视为异常,缺点是依赖于预算算法的准确度。
[0006]但是,不管是分类算法还是预测算法,都需要历史的异常数据作为样本进行模型训练。但是生活中大部分的数据是正常数据,有很少一部分属于异常数据,在没有异常数据的情况下如何检测训练模型进行异常检测是一个困难的问题。

技术实现思路

[0007]有鉴于此,本专利技术提出了一种对时间序列进行异常检测的方法、系统、设备及介质,利用Autoencoder(自编码器)对时间序列进行重构,在重构的过程中保证所有时间序列的特征空间的维度一致,然后将所有时间序列的特征空间的值作为GMM算法的输入,利用GMM算法对时间序列进行异常检测,不需要提前对正常数据和异常数据进行标定,在保留时间序列原始信息的情况下,减小了计算量以及噪声。
[0008]基于上述目的,本专利技术实施例的一方面提供了一种对时间序列进行异常检测方法,具体包括如下步骤:
[0009]将时间序列输入到自编码器进行训练,并从训练好的自编码器中获取所述时间序列的抽象特征;
[0010]将所述时间序列的抽象特征输入到高斯混合模型进行训练,得到对应的高斯混合模型;
[0011]将待检测数据输入到训练好的自编码器,得到待检测数据的抽象特征;
[0012]将待检测数据的抽象特征输入到所述对应的高斯混合模型,以确定所述待检测数据的抽象特征所属所述对应的高斯混合模型的子高斯模型;
[0013]获取所述子高斯模型的参数,并基于所述参数以及三西格玛法则判断所述待检测数据是否为异常数据。
[0014]在一些实施方式中,将所述时间序列的抽象特征输入到高斯混合模型进行训练,得到对应的高斯混合模型包括:
[0015]确定所述高斯混合模型中k的范围,其中,所述k表示高斯混合模型中子高斯模型的数量;
[0016]将所述时间序列的抽象特征输入到每一个k对应的高斯混合模型以训练每个所述对应的高斯混合模型;
[0017]基于肘部法则计算每个所述对应的高斯混合模型对应的畸变程度从而确定出最佳高斯混合模型。
[0018]在一些实施方式中,将所述时间序列的抽象特征输入到每一个k对应的高斯混合模型以训练每个所述对应的高斯混合模型包括:
[0019]初始化所述对应的高斯混合模型的所有参数,所述参数包括每个子高斯模型的期望、每个子高斯模型的方差或协方差、每个子高斯模型在混合模型中发生的概率;
[0020]根据上述参数计算所述时间序列的每个抽象特征来自每个子高斯模型的概率;
[0021]基于每个所述抽象特征来自每个所述子高斯模型的概率更新初始化的每个所述参数;
[0022]返回所述根据上述参数计算所述时间序列的每个抽象特征来自每个子高斯模型的概率的步骤,直至更新后的参数收敛。
[0023]在一些实施方式中,获取所述子高斯模型的参数,并基于所述参数以及三西格玛法则判断所述待检测数据是否为异常数据包括:
[0024]获取所述子高斯模型的均值;
[0025]基于所述均值以及所述三西格玛法则确定阈值;
[0026]基于所述阈值判断所述待检测数据是否为异常数据。
[0027]在一些实施方式中,将时间序列输入到自编码器进行训练包括:
[0028]确定自编码器的特征空间的维度、编码和解码过程中的隐藏层层数和输入/输出维度以及损失函数,并将所述时间序列输入到所述自编码器;
[0029]通过最小化所述损失函数对输入了所述时间序列的自编码器进行训练。
[0030]在一些实施方式中,通过最小化所述损失函数对所述自编码器进行训练包括:
[0031]根据所述损失函数的大小调整所述自编码器在编码和解码过程中的所述隐藏层
层数和所述输入/输出维度以及所述特征空间的维度,并对调整参数后的自编器进行训练,直到得到满足条件的损失函数。
[0032]在一些实施方式中,将时间序列输入到自编码器进行训练包括:按照预设时间单位分别将多个时间序列依次输入到自编码器进行训练;
[0033]从训练好的自编码器中获取所述时间序列的抽象特征包括:从训练好的自编码器中依次获取所有所述时间序列的抽象特征;
[0034]将所述时间序列的抽象特征输入到高斯混合模型进行训练,得到对应的高斯混合模型包括:将所有所述时间序列的抽象特征输入到高斯混合模型,得到各个对应于所述时间序列的抽象特征的对应的高斯混合模型。
[0035]本专利技术实施例的另一方面,还提供了一种对时间序列进行异常检测的系统,包括:
[0036]第一训练模块,所述第一训练模块配置为将时间序列输入到自编码器进行训练,并从训练好的自编码器中获取所述时间序列的抽象特征;
[0037]第二训练模块,所述第二训练模块配置为将所述时间序列的抽象特征输入到高斯混合模型进行训练,得到对应的高斯混合模型;
[0038]输入模块,所述输入模块配置为将待检测数据输入到训练好的自编码器,得到待检测数据的抽象特征;
[0039]确定模块,所述确定模块配置为将待检测数据的抽象特征输入到所述对应的高斯混合模本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种对时间序列进行异常检测的方法,其特征在于,包括:将时间序列输入到自编码器进行训练,并从训练好的自编码器中获取所述时间序列的抽象特征;将所述时间序列的抽象特征输入到高斯混合模型进行训练,得到对应的高斯混合模型;将待检测数据输入到训练好的自编码器,得到待检测数据的抽象特征;将待检测数据的抽象特征输入到所述对应的高斯混合模型,以确定所述待检测数据的抽象特征所属所述对应的高斯混合模型的子高斯模型;获取所述子高斯模型的参数,并基于所述参数以及三西格玛法则判断所述待检测数据是否为异常数据。2.根据权利要求1所述的方法,其特征在于,将所述时间序列的抽象特征输入到高斯混合模型进行训练,得到对应的高斯混合模型包括:确定所述高斯混合模型中k的范围,其中,所述k表示高斯混合模型中子高斯模型的数量;将所述时间序列的抽象特征输入到每一个k对应的高斯混合模型以训练每个所述对应的高斯混合模型;基于肘部法则计算每个所述对应的高斯混合模型对应的畸变程度从而确定出最佳高斯混合模型。3.根据权利要求2所述的方法,其特征在于,将所述时间序列的抽象特征输入到每一个k对应的高斯混合模型以训练每个所述对应的高斯混合模型包括:初始化所述对应的高斯混合模型的所有参数,所述参数包括每个子高斯模型的期望、每个子高斯模型的方差或协方差、每个子高斯模型在混合模型中发生的概率;根据上述参数计算所述时间序列的每个抽象特征来自每个子高斯模型的概率;基于每个所述抽象特征来自每个所述子高斯模型的概率更新初始化的每个所述参数;返回所述根据上述参数计算所述时间序列的每个抽象特征来自每个子高斯模型的概率的步骤,直至更新后的参数收敛。4.根据权利要求1所述的方法,其特征在于,获取所述子高斯模型的参数,并基于所述参数以及三西格玛法则判断所述待检测数据是否为异常数据包括:获取所述子高斯模型的均值;基于所述均值以及所述三西格玛法则确定阈值;基于所述阈值判断所述待检测数据是否为异常数据。5.根据权利要求1所述的方法,其特征在于,将时间序列输入到自编码器进行训练包括:确定自编码器的特征空间的维度、编码和解码过程中的隐藏层层数和输入/输出维度以及损失函数,并将...

【专利技术属性】
技术研发人员:陈静静吴睿振王凛孙华锦
申请(专利权)人:山东云海国创云计算装备产业创新中心有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1