一种基于自监督卷积子空间聚类网络的网络流量识别方法技术

技术编号:32181832 阅读:27 留言:0更新日期:2022-02-08 15:43
本发明专利技术公开了一种基于自监督卷积子空间聚类网络的网络流量识别方法,包括:对原始的网络流量数据进行预处理;初始化并预训练自编码器;训练卷积子空间聚类网络,学习数据的稀疏表示矩阵;通过在卷积子空间聚类网络中添加聚类模块,在聚类模块的相似度矩阵构造中使用余弦相似度来度量两个向量之间的距离,通过聚类模块生成伪标签;自监督学习,使用分类模块对数据进行分类操作,同时利用聚类模块生成的伪标签,计算分类结果同预期标签之间的误差,从而通过神经网络的反向传播,实现自监督的效果;通过最大似然估计法最终识别网络流量类型。本发明专利技术基于流量数据的统计特征而非数据帧所负载信息实现的,本发明专利技术对加密流量等也有良好的识别效果。好的识别效果。好的识别效果。

【技术实现步骤摘要】
一种基于自监督卷积子空间聚类网络的网络流量识别方法


[0001]本专利技术属于深度学习、网络空间安全及流量识别
,具体涉及一种基于自监督卷积子空间聚类网络的网络流量识别方法。

技术介绍

[0002]随着网络应用的日益丰富和网络技术的不断发展,每时每刻都产生着大量的网络流量,网络流量是网络传输中各种信息的重要载体。海量的网络流量给网络安全管理和流量监管带来了非常大的挑战,针对网络流量的准确识别是有效网络安全管理和流量监管的重要前提,不仅可以提高网络传输的质量,还能保障网络安全的正常运营。现有的网络流量方法主要包括基于端口的识别方法、基于行为特征匹配的识别方法和深度报文检测方法,其中基于端口的识别方法只对使用常用端口和注册端口的网络协议流量识别具有准确性,基于行为特征匹配的识别方法时间复杂度和空间复杂度较高,而深度报文检测方法的智能识别能力较差。这些传统方法无法有效地完成网络流量识别的任务。

技术实现思路

[0003]为了克服以上技术问题,本专利技术提供了一种基于自监督卷积子空间聚类网络的网络流量识别方法,通过在深度神经网络中添加聚类模块和分类模块,实现利用数据内在特征构造自监督目标,进行网络的自我监督。其中聚类模块负责生成伪标签,分类模块负责利用伪标签和分类网络对学习过程进行监督。引入自监督后,将表示学习的过程和聚类过程融合起来,在一个统一的网络框架内进行训练,可以更好地学习有利于聚类任务的表示,继而提升聚类的准确率。得到最优的聚类结果之后,使用似然估计方法将聚类得到的各个类簇和具体的网络应用类型对应起来,实现网络流量识别的任务。
[0004]为了实现上述目的,本专利技术采用的技术方案是:
[0005]一种基于自监督卷积子空间聚类网络的网络流量识别方法,包括以下步骤;
[0006]1)数据预处理:
[0007]通过既定策略对采集的网络流量数据集进行过滤,并对各种不同格式的原始网络流量数据转换为统一的数据格式,且转换时避免造成关键数据项的丢失;
[0008]2)初始化并预训练自编码器:
[0009]初始化一个自编码器网络,然后将步骤1)的原始数据输入编码器中并进行预训练;
[0010]3)训练卷积子空间聚类网络,学习数据的稀疏表示矩阵:
[0011]进行卷积子空间聚类网络的训练,利用步骤2)学习得到的自编码器参数,初始化卷积子空间聚类网络中的自编码器部分,将原始数据输入到网络中;
[0012]4)构造伪标签:
[0013]通过步骤3)卷积子空间聚类网络学习得到的稀疏表示矩阵,构建相似度矩阵,接下来在相似度矩阵上应用谱聚类可以得到数据样本的聚类簇分割结果,通过谱聚类得到的
聚类簇分割结果可以用来作为数据集的伪标签,尽管该结果并不是在所有样本数据上都是正确的,但是在充分预训练的前提下,它仍然包含有用的信息,利用这一点,用聚类生成的伪标签来监督网络的特征提取和稀疏矩阵学习的过程;
[0014]5)自监督学习:
[0015]自监督的构造主要通过添加监督学习领域的分类网络来实现,由于卷积子空间聚类网络能够很好地重构原始数据,其提取的数据特征即稀疏表示层包含足够的信息来预测数据样本点的标签,所以,在网络的稀疏表示层后面添加分类的网络,通过上一步聚类模块生成的伪标签作为分类的预期结果,就可以用来监督特征提取网络特征以及子空间聚类网络的学习;
[0016]6)识别网络流量类型:
[0017]通过最大似然估计法判定步骤5)聚类后的类簇和具体网络类型之间的映射关系,识别出网络流量类型。
[0018]所述步骤1)中数据集为UNB ISCX网络流量数据集,该数据集是针对属于邮件、即时通讯、流媒体、文件传输、VoIP和P2P五大类别下的13中应用收集的网络流量数据集,该数据集涉及的具体应用类型包括Filezilla、Hangouts、Skype、AIM、Facebook Chat、Gmail Chat、Mail、Torrent、Vimeo、Youtube、ICQ、Hangouts Audio和Skype Audio。
[0019]所述步骤1)中对网络流量数据的预处理中通过执行流过滤和流清洗的步骤对UNB ISCX网络流量数据集进行处理,把每一条流记录的特征属性映射为相同数目的像素点,从而将含有噪声、不完整、不一致的原始数据转换成恰当的输入数据。
[0020]所述步骤2)中使用自编码器从整体上看是一个两头大中间小的纺锤形结构,由编码器和解码器两部分构成,即是由原始数据维度空间到潜在维度空间,再由潜在维度空间重建为原始数据空间的网络。本专利技术采用的是卷积的自编码器,即在编码器部分,每层堆叠的网络都是卷积的网络,在解码器部分,每层堆叠的都是反卷积网络。随机初始化自编码器网络参数之后,将待分析数据输入到网络中进行逐层预训练。
[0021]所述步骤3)中对卷积子空间聚类网络进行训练之前,先利用前一步中学习得到的自编码器参数初始化卷积子空间聚类网络中的自编码器部分,进而不断训练网络的整体结构,直到网络收敛。
[0022]所述步骤4)中构造数据的伪标签就是通过在卷积子空间聚类网络中添加聚类模块,在聚类模块的相似度矩阵构造中使用余弦相似度来度量两个向量之间的距离,进而使用谱聚类算法实现聚类,谱聚类就是将获得的数据转换成图,本专利技术使用KNN方法构造图数据结构,再在图数据结构的基础上实现谱聚类,在卷积子空间聚类网络中,利用训练阶段得到的数据稀疏表示,通过聚类模块生成伪标签。
[0023]所述步骤5)中的自监督是通过在卷积子空间聚类网络中学习到数据的稀疏表示的后面添加分类模块,所使用的分类模块采用传统监督学习领域的分类网络,对数据进行分类操作,同时利用聚类模块生成的伪标签,计算分类结果同预期标签之间的误差,从而通过神经网络的反向传播,实现自监督的效果。
[0024]所述步骤6)中识别网络流量类型,通过最大似然估计法判定聚类后的类簇和具体网络应用类型之间的映射关系,设B={b1,b2,

,b
n
}为数据集聚类之后的簇的集合,其中n表示簇的个数,D={d1,d2,

,d
m
}表示所需识别网络流量类型的集合,m表示应用种类的个
数,应用个数小于等于簇的个数,对数据集的分类中存在相关映射f:B

D,通过最大似然估计来建立该映射关系f,所使用的概率公式为P(d
j
|b
i
)=h
ji
/h
i
,其中1≤j≤m,1≤i≤n,上式中的h
ji
表示簇b
i
中已经被标记为网络应用类型d
j
的数据流的数量,h
i
则表示簇b
i
所有数据对象数量之和,P(d
j
|b
i
)为将簇b
i
映射到具体网络应用类型d
j
的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于自监督卷积子空间聚类网络的网络流量识别方法,其特征在于,包括以下步骤;1)数据预处理:通过既定策略对采集的网络流量数据集进行过滤,并对各种不同格式的原始网络流量数据转换为统一的数据格式,且转换时避免造成关键数据项的丢失;2)初始化并预训练自编码器:初始化一个自编码器网络,然后将步骤1)的原始数据输入编码器中并进行预训练;3)训练卷积子空间聚类网络,学习数据的稀疏表示矩阵:进行卷积子空间聚类网络的训练,利用步骤2)学习得到的自编码器参数,初始化卷积子空间聚类网络中的自编码器部分,将原始数据输入到网络中;4)构造伪标签:通过步骤3)卷积子空间聚类网络学习得到的稀疏表示矩阵,构建相似度矩阵,接下来在相似度矩阵上应用谱聚类可以得到数据样本的聚类簇分割结果,通过谱聚类得到的聚类簇分割结果可以用来作为数据集的伪标签,尽管该结果并不是在所有样本数据上都是正确的,但是在充分预训练的前提下,它仍然包含有用的信息,利用这一点,用聚类生成的伪标签来监督网络的特征提取和稀疏矩阵学习的过程;5)自监督学习:自监督的构造主要通过添加监督学习领域的分类网络来实现,由于卷积子空间聚类网络能够很好地重构原始数据,其提取的数据特征即稀疏表示层包含足够的信息来预测数据样本点的标签,所以,在网络的稀疏表示层后面添加分类的网络,通过上一步聚类模块生成的伪标签作为分类的预期结果,就可以用来监督特征提取网络特征以及子空间聚类网络的学习;6)识别网络流量类型:通过最大似然估计法判定步骤5)聚类后的类簇和具体网络类型之间的映射关系,识别出网络流量类型。2.根据权利要求1所述的一种基于自监督卷积子空间聚类网络的网络流量识别方法,其特征在于,所述步骤1)中数据集为UNB ISCX网络流量数据集,该数据集是针对属于邮件、即时通讯、流媒体、文件传输、VoIP和P2P五大类别下的13中应用收集的网络流量数据集,该数据集涉及的具体应用类型包括Filezilla、Hangouts、Skype、AIM、Facebook Chat、Gmail Chat、Mail、Torrent、Vimeo、Youtube、ICQ、Hangouts Audio和Skype Audio。3.根据权利要求1所述的一种基于自监督卷积子空间聚类网络的网络流量识别方法,其特征在于,所述步骤1)中对网络流量数据的预处理中通过执行流过滤和流清洗的步骤对UNB ISCX网络流量数据集进行处理,把每一条流记录的特征属性映射为相同数目的像素点,从而将含有噪声、不完整、不一致的原始数据转换成恰当的输入数据。4.根据权利要求1所述的一种基于自监督卷积子空间聚类网络的网络流量识别方法,其特征在于,所述步骤2)中使用自编码器从整体上看是一个两头大中间小的纺锤形结构,由编码器和解码器两部分构成,即是由原始数据维度空间到潜在维度空间,再由潜在维度空间重建为原始数据空间的网络。5.根据权利要求1所述的一种基于自监督卷积子空间聚类网络的网络流量识别方法,
其特征在于,所述步骤3)中对卷积子空间聚类网络进行训练之前,先利用前一步中学习得...

【专利技术属性】
技术研发人员:王艺杰杨东吕珍珍王文庆崔逸群邓楠轶朱博迪介银娟董夏昕朱召鹏崔鑫
申请(专利权)人:华能集团技术创新中心有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1