一种流量检测方法及装置制造方法及图纸

技术编号:39667640 阅读:21 留言:0更新日期:2023-12-11 18:31
本申请提供一种流量检测方法及装置,该方法包括:获取原始编码器模型

【技术实现步骤摘要】
一种流量检测方法及装置


[0001]本申请涉及数据处理
,具体而言,涉及一种流量检测方法及装置


技术介绍

[0002]目前基于机器学习进行网络流量分类是热门研究方向,其中有监督训练模型需要大量的高质量标注样本进行模型训练,提取有效的流量特征也对模型影响巨大

现有的流量检测方法,通常先依据各样本数据的数据维度以及维度特征值,构建数据维度特征值表,然后基于数据维度特征值表中样本数据对初始自动编码器进行训练,得到满足模型精度的自动编码器,再根据自动编码器输出的降维特征数据对分类器进行训练,最后使用训练好的分类器进行流量分类

然而,在实践中发现,现有方法需要大量的

精准的带标签样本进行训练,耗费大量人力,同时,对于对抗样本攻击的鲁棒性差,从而降低了流量检测效率


技术实现思路

[0003]本申请实施例的目的在于提供一种流量检测方法及装置,能够利用少量标注样本训练模型,减少人力消耗,且能够提升模型在对抗样本攻击下的鲁棒性,进而有利于提升流量检测效率

[0004]本申请第一方面提供了一种流量检测方法,包括:
[0005]获取原始编码器模型

训练样本和预设的分类器;其中,所述训练样本包括带标签的第一图像训练样本和无标签的第二图像训练样本;
[0006]使用所述第一图像训练样本对所述原始编码器模型进行有监督训练,得到第一编码器;
[0007]使用所述第二图像训练样本对所述第一编码器进行无监督训练,得到第二编码器;
[0008]对所述第二编码器进行优化,得到掩码自编码器;
[0009]获取待检测的原始流量;
[0010]对所述原始流量进行预处理,得到预处理流量;
[0011]通过所述掩码自编码器和所述分类器对所述预处理流量进行流量识别,得到流量识别结果;
[0012]根据所述流量识别结果生成流量检测报告

[0013]在上述实现过程中,该方法可以优先获取原始编码器模型

带标签的第一图像训练样本

无标签的第二图像训练样本和预设的分类器;可见,该方法的第一步是获取基础数据和模型,从而以此来方便后续步骤的执行

在获得带标签的第一图像训练样本和无标签的第二图像训练样本之后,该方法可以使用第一图像训练样本对原始编码器模型进行有监督训练,得到第一编码器;并使用第二图像训练样本对第一编码器进行无监督训练,得到第二编码器;可见,该方法可以通过有监督训练预训练编码器,进一步通过无监督训练再次训练预训练编码器,从而以此得到半监督训练成果

此时,再对第二编码器进行优化,得到掩
码自编码器,便能够实现优质掩码自编码器的生成效果

在得到上述掩码自编码器之后,该方法进入正式作业,其首先便是要获取待检测的原始流量;然后,便是对原始流量进行预处理,得到预处理流量;再后,通过掩码自编码器和分类器对预处理流量进行流量识别,得到流量识别结果;最后,再根据流量识别结果生成流量检测报告;可见,该方法能够基于训练好的掩码自编码器更高效地提取流量的关键特征,面对误导性

欺骗性的流量特征,并根据流量有限的关键特征识别流量类别,从而使其具有良好的鲁棒性和抗干扰性,进而能够保障流量分类效果

[0014]进一步地,所述使用所述第一图像训练样本对所述原始编码器模型进行有监督训练,得到第一编码器,包括:
[0015]通过预设的掩码矩阵对所述第一图像训练样本进行部分随机遮盖处理,得到第一处理样本;
[0016]获取所述第一处理样本中未被遮盖的图像部分样本;
[0017]通过所述图像部分样本对所述原始编码器模型进行训练,得到第一编码器

[0018]在上述实现过程中,该方法在进行有监督训练的过程中可以通过预设的掩码矩阵对第一图像训练样本进行部分随机遮盖处理,得到第一处理样本;然后,获取第一处理样本中未被遮盖的图像部分样本;最后,再通过图像部分样本对原始编码器模型进行训练,得到第一编码器

可见,该方法可以使得原始编码器从未被遮盖的部分学习图像的特征,同时辅以填充内容和重构来确定最终的有监督损失,从而以此来确定出预训练的第一编码器

[0019]进一步地,所述使用所述第二图像训练样本对所述第一编码器进行无监督训练,得到第二编码器,包括:
[0020]对所述第二图像训练样本进行掩码处理,得到第二处理样本;其中,所述第二处理样本包括弱掩码处理样本和强掩码处理样本;
[0021]将所述弱掩码处理样本和所述强掩码处理样本输入至所述第一编码器中进行无监督训练,得到第二编码器

[0022]在上述实现过程中,该方法在基于第一编码器进行无监督训练的过程中,可以优先对第二图像训练样本进行掩码处理,得到包括弱掩码处理样本和强掩码处理样本的第二处理样本;然后,将弱掩码处理样本和强掩码处理样本输入至第一编码器中进行无监督训练,得到第二编码器

可见,该方法可以基于弱掩码和强掩码进行双方向预测,并在预测结束时选择交叉熵损失函数作为损失函数,从而以此来确定第二编码器

[0023]进一步地,所述对所述第二编码器进行优化,得到掩码自编码器,包括:
[0024]获取对所述原始编码器模型进行有监督训练时的有监督损失函数以及对所述原始编码器模型进行无监督训练时的无监督损失函数;
[0025]基于所述有监督损失函数和所述无监督损失函数,构建半监督学习的整体损失函数;
[0026]基于所述整体损失函数对所述第二编码器进行优化,得到掩码自编码器

[0027]在上述实现过程中,该方法在构造出半监督学习的掩码自编码器时,可以结合有监督损失函数和无监督损失函数进行构建,从而以此来完成编码器优化过程,得到掩码自编码器

可见,该方法基于两种损失函数自行进行调整,从而使得基于调整后的损失函数确定的掩码自编码器能够获取到更高质量的特征

[0028]进一步地,所述对所述原始流量进行预处理,得到预处理流量,包括:
[0029]对所述原始流量进行组流处理,得到第一处理流量文件;
[0030]对所述第一处理流量文件进行删除冗余数据包处理,得到第二处理流量文件;
[0031]根据预设的流量长度对所述第二处理流量文件进行流截断处理,得到多个截断流量文件;
[0032]对所述截断流量文件及西宁字节序列归一化处理,得到预处理流量;其中,所述预处理流量为预设尺寸的灰度图像

[0033]在上述实现过程中,该方法在对原始流量进行预处理,得到预处理流量时,可以对原始流量进行组流

删除冗余数据包的预处理,然后再通过流截断将每个流统一为固定字节本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种流量检测方法,其特征在于,包括:获取原始编码器模型

训练样本和预设的分类器;其中,所述训练样本包括带标签的第一图像训练样本和无标签的第二图像训练样本;使用所述第一图像训练样本对所述原始编码器模型进行有监督训练,得到第一编码器;使用所述第二图像训练样本对所述第一编码器进行无监督训练,得到第二编码器;对所述第二编码器进行优化,得到掩码自编码器;获取待检测的原始流量;对所述原始流量进行预处理,得到预处理流量;通过所述掩码自编码器和所述分类器对所述预处理流量进行流量识别,得到流量识别结果;根据所述流量识别结果生成流量检测报告
。2.
根据权利要求1所述的流量检测方法,其特征在于,所述使用所述第一图像训练样本对所述原始编码器模型进行有监督训练,得到第一编码器,包括:通过预设的掩码矩阵对所述第一图像训练样本进行部分随机遮盖处理,得到第一处理样本;获取所述第一处理样本中未被遮盖的图像部分样本;通过所述图像部分样本对所述原始编码器模型进行训练,得到第一编码器
。3.
根据权利要求1所述的流量检测方法,其特征在于,所述使用所述第二图像训练样本对所述第一编码器进行无监督训练,得到第二编码器,包括:对所述第二图像训练样本进行掩码处理,得到第二处理样本;其中,所述第二处理样本包括弱掩码处理样本和强掩码处理样本;将所述弱掩码处理样本和所述强掩码处理样本输入至所述第一编码器中进行无监督训练,得到第二编码器
。4.
根据权利要求1所述的流量检测方法,其特征在于,所述对所述第二编码器进行优化,得到掩码自编码器,包括:获取对所述原始编码器模型进行有监督训练时的有监督损失函数以及对所述原始编码器模型进行无监督训练时的无监督损失函数;基于所述有监督损失函数和所述无监督损失函数,构建半监督学习的整体损失函数;基于所述整体损失函数对所述第二编码器进行优化,得到掩码自编码器
。5.
根据权利要求1所述的流量检测方法,其特征在于,所述对所述原始流量进行预处理,得到预处理流量,包括:对所述原始流量进行组流处理,得到第一处理流量文件;对所述第一处理流量文件进行删除冗余数据包处理,得到第二处理流量文件;根据预设的流量长度对所述第二处理流量文件进行流截断处理,得到多个截断流量文件...

【专利技术属性】
技术研发人员:梁靖宇胡晓艳安晓宁
申请(专利权)人:北京天融信网络安全技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1