异常数据检测模型构建方法、异常数据检测系统与方法技术方案

技术编号：44902776 阅读：7 留言：0更新日期：2025-04-08 18:50

本发明专利技术属于异常数据检测技术领域，具体涉及一种异常数据检测模型构建方法、异常数据检测系统与方法，将带有异常标签的m维的异常数据作为训练样本；训练样本输入自动编码器中，自动编码器编码后得到降维的潜在表征数据，潜在表征数据经过解码后，得到m维的重构数据，并采用损失函数最小化原则来迭代更新自动编码器的模型参数；所述损失函数由两部分拼接而成：重构数据与其训练样本之间的重构误差作为损失函数的第一部分；潜在表征的核密度估计归一化后取对数作为损失函数的第二部分。本发明专利技术根据潜在表征数据构建的损失函数能够放大样本数据的特征，因此能够在带标签的异常数据样本较少的情况下进行训练，使得模型能够学习到样本数据的特征。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于异常数据检测，具体涉及一种异常数据检测模型构建方法、异常数据检测系统与方法。

技术介绍

1、随着信息化的发展，对信息安全保护的需求逐渐上升。信息数据的异常检测越来越重要。在实际应用中，异常检测是许多领域的重要研究内容。异常数据的存在不仅会对安全性造成影响也可能会导致模型性能下降，进而影响到实际应用的效果和安全。在医学、金融、制造业、交通运输等多个领域都有大量异常数据检测的实际应用，但是，现实应用中异常数据样本数量极少，由于人工标注成本较高，大量的实际数据标签并不完整。在带标签的异常数据样本较少的情况下，现有技术难以学习到样本数据的特征。

技术实现思路

1、本专利技术的目的在于解决上述现有技术中存在的难题，提供一种异常数据检测模型构建方法，能够在异常数据样本数量较少的情况下进行训练。

2、本专利技术是通过以下技术方案实现的：

3、一种异常数据检测模型构建方法，包括以下步骤：

4、将带有异常标签的m维的异常数据作为训练样本；

5、训练样本输入自动编码器中，自动编码器编码后得到降维的潜在表征数据，潜在表征数据经过解码后，得到m维的重构数据，并采用损失函数最小化原则来迭代更新自动编码器的模型参数；

6、所述损失函数由两部分拼接而成：重构数据与其训练样本之间的重构误差作为损失函数的第一部分；潜在表征的核密度估计归一化后取对数作为损失函数的第二部分。

7、进一步的，所述核密度估计公式如下：

8、</p>

9、式中，h表示样本带宽，用于控制核函数的宽度，k(x)表示核函数，n表示是样本数据点的数量，x表示样本数据点，xi表示样本中的第i个数据点。

10、进一步的，当潜在表征数据分布中具有较明显尖峰或波谷时，选择矩形核函数作为核密度估计的核函数；当需要估计潜在表征数据集的整体趋势时，选择三角核函数作为核密度估计的核函数；当需要对潜在表征数据集进行边缘估计时，选择埃帕内奇科夫核函数作为核密度估计的核函数。

11、进一步的，选择高斯核函数作为核密度估计的核函数，所述核密度公式如下：

12、

13、式中，σ表示高斯核函数的带宽。

14、进一步的，在计重构误差时，采用的计算方法包括计算均方误差、均绝对误差或相减后的绝对值。

15、本专利技术还提供一种异常数据检测系统，包括异常数据检测模型，所述异常数据检测模型为通过本专利技术所述异常数据检测模型构建方法训练得到的自动编码器。

16、本专利技术还提供一种异常数据检测方法，输入待测数据到本专利技术所述的异常数据检测系统中，输出重构数据；计算重构数据与待测数据之间的重构误差，当重构误差小于误差阈值，则判断待测数据为异常数据。

17、与现有技术相比，本专利技术的有益效果包括：

18、1、本专利技术根据潜在表征数据构建的损失函数能够放大样本数据的特征，因此，本专利技术能够在带标签的异常数据样本较少的情况下进行训练，使得模型能够学习到样本数据的特征。

19、2、潜在表征数据作为降维后的样本数据，在维度上进行了压缩。再利用核密度估计方法对潜在表征进行提取。此时提取的信息就是被放大的样本数据的数据特征。将这个信息作为损失函数来构建模型，就可以在样本数据的数据量很少的情况下构建模型。

20、3、对潜在表征数据的每一维的数据进行计算将计算结果归一化并取对数，这样做是为了保证当最小化损失函数值，最大化每一维潜在表征的核密度估计值，从而达到放大样本数据特征的目的。

本文档来自技高网...

【技术保护点】

1.一种异常数据检测模型构建方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的异常数据检测模型构建方法，其特征在于，所述核密度估计公式如下：

3.根据权利要求1或2所述的异常数据检测模型构建方法，其特征在于，当潜在表征数据分布中具有较明显尖峰或波谷时，选择矩形核函数作为核密度估计的核函数；当需要估计潜在表征数据集的整体趋势时，选择三角核函数作为核密度估计的核函数；当需要对潜在表征数据集进行边缘估计时，选择埃帕内奇科夫核函数作为核密度估计的核函数。

4.根据权利要求1或2所述的异常数据检测模型构建方法，其特征在于，选择高斯核函数作为核密度估计的核函数，所述核密度估计公式如下：

5.根据权利要求1所述的异常数据检测模型构建方法，其特征在于，在计重构误差时，采用的计算方法包括计算均方误差、均绝对误差或相减后的绝对值。

6.一种异常数据检测系统，其特征在于：包括异常数据检测模型，所述异常数据检测模型为通过如权利要求1～5任一所述异常数据检测模型构建方法训练得到的自动编码器。

7.一种异常数据检测方法，其特征在

...

【技术特征摘要】

1.一种异常数据检测模型构建方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的异常数据检测模型构建方法，其特征在于，所述核密度估计公式如下：

4.根据权利要求1或2所述的异常数据检测模型构建方法，其特征在于，选择高斯核函数...

【专利技术属性】
技术研发人员：龙春，李畅，赵静，杜冠瑶，杨悦，高莹，韩奎宇，王耀杰，郭勇杰，
申请(专利权)人：中国科学院计算机网络信息中心，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人