System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种物联网流量数据增强方法技术_技高网

一种物联网流量数据增强方法技术

技术编号:43119682 阅读:14 留言:0更新日期:2024-10-26 09:57
本发明专利技术公开一种物联网网络流量数据增强方法,属于不平衡数据集数据增强领域;首先,采集物联网网络流量数据包,提取关键特征字段,进行预处理,并划分为训练集和测试集;采用高斯分布的SMOTE算法对训练集中的少数类样本进行初步过采样;接着引入降噪自编码器DAE,生成接近真实数据分布的少数类样本,传入鉴别器中进行质量评估,迭代优化直至鉴别器难以区分真实样本与生成样本,合并生成样本和真实样本,形成数据增强后的数据集;旨在解决物联网网络流量的类不平衡问题,本发明专利技术在增加数据集的类平衡性的同时优化生成数据的质量。

【技术实现步骤摘要】

本专利技术涉及一种物联网流量数据增强方法,属于不平衡数据集数据增强领域。


技术介绍

1、随着物联网技术的快速发展,海量的网络流量数据被生成,这为机器学习模型提供了丰富的数据资源。这些数据集常常存在类不平衡问题,即某些类的样本数量远多于其他类。由于模型倾向于更好地识别多数类样本,而忽略少数类样本,这种不平衡会导致机器学习模型的性能下降。因此,需要一种有效的方法来增强数据集,改善类平衡,提高机器学习模型的泛化能力。

2、为了解决类不平衡问题,研究者开发了多种数据增强技术。欠采样技术通过减少多数类样本数量来平衡数据集,努力最小化信息损失。与此同时,过采样技术如smote及其变体通过在少数类样本间进行插值生成新样本,从而增加少数类样本的数量。尽管这些方法在提高数据平衡性方面有效,但它们通常面临如样本多样性不足、合成样本质量较低和模型训练不稳定等问题。


技术实现思路

1、本专利技术针对上述现有技术中存在的不足,提供一种物联网流量数据增强方法;方法结合了基于高斯分布的smote算法和改进的生成对抗网络,通过引入高斯噪声来增加样本多样性,并使用降噪自编码器来提高生成样本的质量和真实性,有效地提升了数据集的类平衡性和数据增强过程的整体效果。

2、本专利技术是通过以下技术方案来实现的:一种物联网流量数据增强方法,所述方法包括以下步骤:

3、步骤s1、采集物联网网络流量数据包,提取关键特征字段,生成网络流量数据集并进行预处理,将预处理后的数据集划分为训练集和测试集;

4、步骤s2、采用随机欠采样对训练集中多数类样本进行欠采样,并利用基于高斯分布的smote算法对训练集中少数类样本进行初步过采样;基于高斯分布的smote算法公式为:

5、xnew=xi+n(0,σ2)·(xnn-xi)

6、其中,少数类样本xi∈xminor,xminor为训练集中少数类样本集;n(0,σ2)表示以0为均值,σ2为方差的高斯分布;xnn是xi的一个最近邻样本;

7、步骤s3、利用步骤s2得到的初步过采样后生成的新样本作为改进的gan的输入,通过对抗学习思想在训练过程中,不断优化生成器和判别器的参数,训练改进的gan;改进的gan包括降噪自编码器dae和鉴别器d,降噪自编码器dae作为生成器g;

8、步骤s4,采用训练后的gan对训练集中少数类样本和步骤s2得到的初步过采样后生成的新样本形成的数据集进行进一步过采样,生成高质量少数类样本;

9、步骤s5、将高质量少数类样本与步骤s2随机欠采样后的多数类样本形成新的数据集,即完成物联网流量数据增强。

10、进一步地,步骤s1中使用cicflowmeter工具解析采集物联网网络流量数据包。

11、进一步地,步骤s1中预处理,具体为:

12、步骤s11、缺失值处理:检查数据中是否存在缺失值,删除缺失值所在行;

13、步骤s12、数值化处理:将全部特征数值化,计算出各数据的平均值和平均绝对误差,并进行标准化度量和归一化处理。

14、进一步地,步骤s3中,所述改进gan,具体为,

15、步骤s31、构建降噪自编码器dae作为生成器g,用步骤s3利用基于高斯分布的smote算法初步过采样后生成的新样本,训练生成器g,使其最小化对抗损失和重构误差;

16、步骤s32、构建鉴别器d,用于评估生成器g生成的数据的质量,将生成的数据传入鉴别器d中,训练鉴别器d,使其能够区分真实样本和生成器g产生的样本。

17、构建生成器和判别器,进行迭代对抗训练,直至判别器无法判别生成器生成的数据是否为真,经过多轮训练后,使用训练好的生成器g生成高质量少数类数据样本,并与步骤2中所述随机欠采样后的多数类样本进行合并形成新的平衡数据集。

18、进一步地,步骤s31中,所述最小化对抗损失和重构误差,具体为,

19、步骤s311、降噪自编码器dae通过最小化重构误差进行训练:

20、

21、其中,x表示初步过采样后的新样本;g(x)表示经过降噪自编码器dae;xgssmote,i是经过高斯分布的smote算法初步过采样后的样本,xnoisy,i是初步过采样后添加噪声后的样本,n是初步过采样后的样本数量;

22、步骤s312、为了进一步优化生成数据的质量,生成器d的损失函数为:

23、

24、其中,ldae(x,g(x))是降噪自编码器dae的重构误差,α是正则化参数,用于平衡对抗损失和重构损失。

25、进一步地,步骤s32中,鉴别器的损失函数为:

26、

27、其中,]表示生成器d对真实数据的识别准确定性;表示生成器d对生成数据g(x)的识别准确性。

28、进一步地,所述降噪自编码器dae包含编码器和解码器部分,编码器用于将输入数据编码成低维特征表示,解码器用于将低维特征表示解码回高维数据,所述编码器包括输入层,匹配数据特征维度,三个隐藏层,神经元数量分别为1024,512,256,激活函数为relu;解码器包括三个隐藏层,神经元数量分别为256,512,1024,激活函数为relu。

29、进一步地,所述鉴别器包括三个隐藏层,神经元数量分别为128,256,512,激活函数为leakyrelu,输出层,神经元数量为1,采用sigmoid激活函数。

30、本专利技术具有以下有益效果:(1)本专利技术通过引入基于高斯分布的smote算法增加了样本多样性和数据覆盖范围。具体而言,基于高斯分布的smote算法通过在传统smote算法基础上加入高斯噪声,能够合成更多样化的样本,有效避免生成过分相似的样本,增强了数据集中少数类样本的表示能力。

31、(2)本专利技术采用降噪自编码器(dae)代替传统gan模型中的生成器。降噪自编码器通过最小化重构误差和对抗损失,有效地减少了合成过程中的噪声,生成的样本在细节上更加精准,质量更高。此外,改进的gan模型在训练过程中表现出更高的稳定性,减少了训练过程中的震荡和不收敛的问题,提高了训练效率和成功率。

32、(3)本专利技术结合基于高斯分布的smote算法和改进gan模型,利用了smote在快速生成大量样本方面的优势,并借助gan的生成能力来提升样本的真实性和多样性,实现了样本生成的量质平衡。

本文档来自技高网...

【技术保护点】

1.一种物联网流量数据增强方法,其特征在于,所述方法包括以下步骤:

2.根据权利要求1所述的一种物联网流量数据增强方法,其特征在于,步骤S1中使用CICFlowMeter工具解析采集物联网网络流量数据包。

3.根据权利要求1所述的一种物联网流量数据增强方法,其特征在于,步骤S1中预处理,具体为:

4.根据权利要求1所述的一种物联网流量数据增强方法,其特征在于,步骤S3中,所述改进GAN,具体为,

5.根据权利要求4所述的一种物联网流量数据增强方法,其特征在于,步骤S31中,所述最小化对抗损失和重构误差,具体为,

6.根据权利要求4所述的一种物联网流量数据增强方法,其特征在于,步骤S32中,

7.根据权利要求1所述的一种物联网流量数据增强方法,其特征在于,所述降噪自编码器DAE包含编码器和解码器部分,编码器用于将输入数据编码成低维特征表示,解码器用于将低维特征表示解码回高维数据,所述编码器包括输入层和三个隐藏层,输入层匹配数据特征维度,三个隐藏层神经元数量分别为1024,512,256,激活函数为ReLU;解码器包括三个隐藏层,神经元数量分别为256,512,1024,激活函数为ReLU。

8.根据权利要求1所述的一种物联网流量数据增强方法,其特征在于,所述鉴别器包括三个隐藏层和输出层,三个隐藏层的神经元数量分别为128,256,512,激活函数为LeakyReLU,输出层的神经元数量为1,采用Sigmoid激活函数。

...

【技术特征摘要】

1.一种物联网流量数据增强方法,其特征在于,所述方法包括以下步骤:

2.根据权利要求1所述的一种物联网流量数据增强方法,其特征在于,步骤s1中使用cicflowmeter工具解析采集物联网网络流量数据包。

3.根据权利要求1所述的一种物联网流量数据增强方法,其特征在于,步骤s1中预处理,具体为:

4.根据权利要求1所述的一种物联网流量数据增强方法,其特征在于,步骤s3中,所述改进gan,具体为,

5.根据权利要求4所述的一种物联网流量数据增强方法,其特征在于,步骤s31中,所述最小化对抗损失和重构误差,具体为,

6.根据权利要求4所述的一种物联网流量数据增强方法,其特征在于,步骤s32中,

【专利技术属性】
技术研发人员:刘尚东张俊杰季一木张嘉铭梁伟孙朕张欣同贺文萱韩红新
申请(专利权)人:南京邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1