System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及一种物联网流量数据增强方法,属于不平衡数据集数据增强领域。
技术介绍
1、随着物联网技术的快速发展,海量的网络流量数据被生成,这为机器学习模型提供了丰富的数据资源。这些数据集常常存在类不平衡问题,即某些类的样本数量远多于其他类。由于模型倾向于更好地识别多数类样本,而忽略少数类样本,这种不平衡会导致机器学习模型的性能下降。因此,需要一种有效的方法来增强数据集,改善类平衡,提高机器学习模型的泛化能力。
2、为了解决类不平衡问题,研究者开发了多种数据增强技术。欠采样技术通过减少多数类样本数量来平衡数据集,努力最小化信息损失。与此同时,过采样技术如smote及其变体通过在少数类样本间进行插值生成新样本,从而增加少数类样本的数量。尽管这些方法在提高数据平衡性方面有效,但它们通常面临如样本多样性不足、合成样本质量较低和模型训练不稳定等问题。
技术实现思路
1、本专利技术针对上述现有技术中存在的不足,提供一种物联网流量数据增强方法;方法结合了基于高斯分布的smote算法和改进的生成对抗网络,通过引入高斯噪声来增加样本多样性,并使用降噪自编码器来提高生成样本的质量和真实性,有效地提升了数据集的类平衡性和数据增强过程的整体效果。
2、本专利技术是通过以下技术方案来实现的:一种物联网流量数据增强方法,所述方法包括以下步骤:
3、步骤s1、采集物联网网络流量数据包,提取关键特征字段,生成网络流量数据集并进行预处理,将预处理后的数据集划分为训练集和测试集;
4、步骤s2、采用随机欠采样对训练集中多数类样本进行欠采样,并利用基于高斯分布的smote算法对训练集中少数类样本进行初步过采样;基于高斯分布的smote算法公式为:
5、xnew=xi+n(0,σ2)·(xnn-xi)
6、其中,少数类样本xi∈xminor,xminor为训练集中少数类样本集;n(0,σ2)表示以0为均值,σ2为方差的高斯分布;xnn是xi的一个最近邻样本;
7、步骤s3、利用步骤s2得到的初步过采样后生成的新样本作为改进的gan的输入,通过对抗学习思想在训练过程中,不断优化生成器和判别器的参数,训练改进的gan;改进的gan包括降噪自编码器dae和鉴别器d,降噪自编码器dae作为生成器g;
8、步骤s4,采用训练后的gan对训练集中少数类样本和步骤s2得到的初步过采样后生成的新样本形成的数据集进行进一步过采样,生成高质量少数类样本;
9、步骤s5、将高质量少数类样本与步骤s2随机欠采样后的多数类样本形成新的数据集,即完成物联网流量数据增强。
10、进一步地,步骤s1中使用cicflowmeter工具解析采集物联网网络流量数据包。
11、进一步地,步骤s1中预处理,具体为:
12、步骤s11、缺失值处理:检查数据中是否存在缺失值,删除缺失值所在行;
13、步骤s12、数值化处理:将全部特征数值化,计算出各数据的平均值和平均绝对误差,并进行标准化度量和归一化处理。
14、进一步地,步骤s3中,所述改进gan,具体为,
15、步骤s31、构建降噪自编码器dae作为生成器g,用步骤s3利用基于高斯分布的smote算法初步过采样后生成的新样本,训练生成器g,使其最小化对抗损失和重构误差;
16、步骤s32、构建鉴别器d,用于评估生成器g生成的数据的质量,将生成的数据传入鉴别器d中,训练鉴别器d,使其能够区分真实样本和生成器g产生的样本。
17、构建生成器和判别器,进行迭代对抗训练,直至判别器无法判别生成器生成的数据是否为真,经过多轮训练后,使用训练好的生成器g生成高质量少数类数据样本,并与步骤2中所述随机欠采样后的多数类样本进行合并形成新的平衡数据集。
18、进一步地,步骤s31中,所述最小化对抗损失和重构误差,具体为,
19、步骤s311、降噪自编码器dae通过最小化重构误差进行训练:
20、
21、其中,x表示初步过采样后的新样本;g(x)表示经过降噪自编码器dae;xgssmote,i是经过高斯分布的smote算法初步过采样后的样本,xnoisy,i是初步过采样后添加噪声后的样本,n是初步过采样后的样本数量;
22、步骤s312、为了进一步优化生成数据的质量,生成器d的损失函数为:
23、
24、其中,ldae(x,g(x))是降噪自编码器dae的重构误差,α是正则化参数,用于平衡对抗损失和重构损失。
25、进一步地,步骤s32中,鉴别器的损失函数为:
26、
27、其中,]表示生成器d对真实数据的识别准确定性;表示生成器d对生成数据g(x)的识别准确性。
28、进一步地,所述降噪自编码器dae包含编码器和解码器部分,编码器用于将输入数据编码成低维特征表示,解码器用于将低维特征表示解码回高维数据,所述编码器包括输入层,匹配数据特征维度,三个隐藏层,神经元数量分别为1024,512,256,激活函数为relu;解码器包括三个隐藏层,神经元数量分别为256,512,1024,激活函数为relu。
29、进一步地,所述鉴别器包括三个隐藏层,神经元数量分别为128,256,512,激活函数为leakyrelu,输出层,神经元数量为1,采用sigmoid激活函数。
30、本专利技术具有以下有益效果:(1)本专利技术通过引入基于高斯分布的smote算法增加了样本多样性和数据覆盖范围。具体而言,基于高斯分布的smote算法通过在传统smote算法基础上加入高斯噪声,能够合成更多样化的样本,有效避免生成过分相似的样本,增强了数据集中少数类样本的表示能力。
31、(2)本专利技术采用降噪自编码器(dae)代替传统gan模型中的生成器。降噪自编码器通过最小化重构误差和对抗损失,有效地减少了合成过程中的噪声,生成的样本在细节上更加精准,质量更高。此外,改进的gan模型在训练过程中表现出更高的稳定性,减少了训练过程中的震荡和不收敛的问题,提高了训练效率和成功率。
32、(3)本专利技术结合基于高斯分布的smote算法和改进gan模型,利用了smote在快速生成大量样本方面的优势,并借助gan的生成能力来提升样本的真实性和多样性,实现了样本生成的量质平衡。
本文档来自技高网...【技术保护点】
1.一种物联网流量数据增强方法,其特征在于,所述方法包括以下步骤:
2.根据权利要求1所述的一种物联网流量数据增强方法,其特征在于,步骤S1中使用CICFlowMeter工具解析采集物联网网络流量数据包。
3.根据权利要求1所述的一种物联网流量数据增强方法,其特征在于,步骤S1中预处理,具体为:
4.根据权利要求1所述的一种物联网流量数据增强方法,其特征在于,步骤S3中,所述改进GAN,具体为,
5.根据权利要求4所述的一种物联网流量数据增强方法,其特征在于,步骤S31中,所述最小化对抗损失和重构误差,具体为,
6.根据权利要求4所述的一种物联网流量数据增强方法,其特征在于,步骤S32中,
7.根据权利要求1所述的一种物联网流量数据增强方法,其特征在于,所述降噪自编码器DAE包含编码器和解码器部分,编码器用于将输入数据编码成低维特征表示,解码器用于将低维特征表示解码回高维数据,所述编码器包括输入层和三个隐藏层,输入层匹配数据特征维度,三个隐藏层神经元数量分别为1024,512,256,激活函数为ReLU;解码
8.根据权利要求1所述的一种物联网流量数据增强方法,其特征在于,所述鉴别器包括三个隐藏层和输出层,三个隐藏层的神经元数量分别为128,256,512,激活函数为LeakyReLU,输出层的神经元数量为1,采用Sigmoid激活函数。
...【技术特征摘要】
1.一种物联网流量数据增强方法,其特征在于,所述方法包括以下步骤:
2.根据权利要求1所述的一种物联网流量数据增强方法,其特征在于,步骤s1中使用cicflowmeter工具解析采集物联网网络流量数据包。
3.根据权利要求1所述的一种物联网流量数据增强方法,其特征在于,步骤s1中预处理,具体为:
4.根据权利要求1所述的一种物联网流量数据增强方法,其特征在于,步骤s3中,所述改进gan,具体为,
5.根据权利要求4所述的一种物联网流量数据增强方法,其特征在于,步骤s31中,所述最小化对抗损失和重构误差,具体为,
6.根据权利要求4所述的一种物联网流量数据增强方法,其特征在于,步骤s32中,
【专利技术属性】
技术研发人员:刘尚东,张俊杰,季一木,张嘉铭,梁伟,孙朕,张欣同,贺文萱,韩红新,
申请(专利权)人:南京邮电大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。