一种基于融合序列的远控木马流量检测方法技术

技术编号:39676777 阅读:9 留言:0更新日期:2023-12-11 18:43
本发明专利技术公开了一种基于融合序列的远控木马流量检测方法,涉及网络安全技术领域,首先对采集到的原始网络流量数据集进行预处理,筛选出所需要的数据,并通过张量维度调整,将其转换成

【技术实现步骤摘要】
一种基于融合序列的远控木马流量检测方法


[0001]本专利技术属于网络安全
,具体涉及一种基于融合序列的远控木马流量检测方法


技术介绍

[0002]远程控制木马是木马病毒中的一种危害性极高的类型,它通过不正当手段获取主机管理员权限,并能够通过网络操控用户主机

[0003]当前针对远控木马流量检测技术主要有
1)
基于特征的木马检测方法;
2)
基于行为的木马检测方法;
3)
基于机器学习的木马检测方法

[0004]但是基于特征的木马检测方法随着病毒种类增多与加密技术的广泛应用,其检测性能下降明显;基于行为的木马检测方法相比前者有更强的泛化能力,但是该方法前期需要分析大量的数据且依然还会受到数据加密的影响,并且行为检测方法的实时性和准确率仍有待提高

[0005]基于机器学习的木马检测方法克服了传统机器学习方法中需要人工设计和选择特征的局限性,但是如何将流量表征为合适的形式输入到深度学习模型成为关键问题,若将流量表征为图像的方式简单直接且能够尽可能地保留原始流量数据,但容易丢失时序信息且数据的维度较高;将流量表征为时间序列可以捕捉到数据的动态变化特征但可能会忽略数据的空间结构,将流量表征为拓扑图可以很好地表示流量数据之间的关联性,但其数据结构过于复杂

不同的流量表征形式和多样的深度学习模型结构同样影响着检测的性能

效率与泛化能力

[0006]因此目前亟需一种能够有效克服泛化能力较弱

表征能力有限和预警滞后等问题的远程木马流量检测方法


技术实现思路

[0007]针对当前远控木马流量检测方法存在的泛化能力弱

表征能力有限以及对木马入侵预警不及时的缺陷和问题,本专利技术提供一种基于融合序列的远控木马流量检测方法

[0008]本专利技术解决其技术问题所采用的方案是:一种基于融合序列的远控木马流量检测方法,对采集到的原始网络流量数据集进行预处理,包括对流量数据集的会话切分后将流量表征为包长

包负载长度

包时间间隔所组成的融合序列,筛选出所需要的数据,并通过张量维度调整,将其转换成
Transformer
模型所需要的格式,并将转换后的数据传输至
Transformer
模型中,利用模型中线性嵌入层将输入数据映射到高维空间,再通过
Transformer
模型中的多头自注意力机制来使
Transformer
编码器捕捉数据中长距离依赖关系和复杂模型,最后通过多层迭代,将特征向量输入全连接层映射到目标空间,输出最终预测结果

[0009]进一步地,所述原始网络流量数据存储为
PCAP
文件格式,对原始网络流量数据集进行预处理过程为:
[0010](1)
将原始
PCAP
文件切分为不同的会话;
[0011](2)
会话切分完成后,根据部分数据的丢失信息筛选并删除应用层中没有数据的会话;
[0012](3)
对于每个会话,抽取多个数据包的包长序列

包负载长度序列

包时间间隔序列;
[0013](4)
对每个会话中抽取的三个序列的数据维度进行调整形成统一的融合序列;
[0014](5)
根据序列的类别,将相应的序列数据存放在对应标签命名的文件夹下;经过预处理后,能够移除冗余和无效数据,获取会话的融合序列表征,之后再将处理后的特征序列输入
Transformer
模型中

[0015]进一步地,所述
Transformer
模型包括线性嵌入层
、Transformer
编码器层和全连接层

[0016]进一步地,
Transformer
模型线性嵌入层将输入数据尺寸从
input_size
维度转换为
d_model
维度,线性嵌入层的计算过程为:
[0017]E(x)

W
e
x+b
e
[0018]其中
x
表示输入特征,
W
e

b
e
分别表示嵌入层的权重矩阵和偏置项

[0019]进一步地,
Transformer
编码器由4个
Transformer
编码器层组成,每个编码器包含一个多头自注意力机制和一个前馈神经网络,
Transformer
编码器层的计算过程为:
[0020]H
l

LayerNorm(H
l
‑1+SelfAttention(H
l
‑1))
[0021]H
l

LayerNorm(H
l
+FFN(H
l
))
[0022]其中
H
l
表示第
l
层的隐藏状态,
LayerNorm
表示层归一化操作,
SelfAttention
表示多头自注意力机制,
FFN
表示前馈神经网络

[0023]进一步地,所述全连接层将特征从维度映射到最终的分类输出尺寸
output_size
,全连接层的计算过程为:
[0024]y

W2·
GELU(W1·
H+b1)+b2[0025]其中
y
表示分类输出,
W1、b1、W2和
b2分别表示全连接层的权重矩阵和偏置项,
GELU
表示激活函数

[0026]与现有技术相比,本专利技术的有益效果是:
[0027]本专利技术提出的一种基于融合序列的远控木马流量检测方法,通过将包长

包负载长度和包时间间隔组合成融合序列,捕捉流量数据中的时序关系

挖掘潜在联系并捕捉木马流量在不同维度上的异常和规律,在保证数据完整与减少资源开销的同时,实现更为精准的流量表征;
[0028]本专利技术将融合序列和
Transformer
模型相结合,将融合序列输入
Transformer
模型利用多头注意力机制与残差连接挖掘融合序列内在联系,利用多头注意力机制学习融合序列多个维度间的复杂关系,挖掘木马行为模式以增强模型泛化能力;并且通过采用残差连接和层归一化,有效解决了梯度消失和梯度爆炸问题,提高了模型训练的稳定性和收敛速度,从而进一步提本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种基于融合序列的远控木马流量检测方法,其特征在于:对采集到的原始网络流量数据集进行预处理,包括对流量数据集的会话切分后将流量表征为包长

包负载长度

包时间间隔所组成的融合序列,筛选出所需要的数据,并通过张量维度调整,将其转换成
Transformer
模型所需要的格式,并将转换后的数据传输至
Transformer
模型中,利用模型中线性嵌入层将输入数据映射到高维空间,再通过
Transformer
模型中的多头自注意力机制来使
Transformer
编码器捕捉数据中长距离依赖关系和复杂模型,最后通过多层迭代,将特征向量输入全连接层映射到目标空间,输出最终预测结果
。2.
根据权利要求1所述的基于融合序列的远控木马流量检测方法,其特征在于:所述原始网络流量数据存储为
PCAP
文件格式,对原始网络流量数据集进行预处理过程为:
(1)
将原始
PCAP
文件切分为不同的会话;
(2)
会话切分完成后,根据部分数据的丢失信息筛选并删除应用层中没有数据的会话;
(3)
对于每个会话,抽取多个数据包的包长序列

包负载长度序列

包时间间隔序列;
(4)
对每个会话中抽取的三个序列的数据维度进行调整形成统一的融合序列;
(5)
根据序列的类别,将相应的序列数据存放在对应标签命名的文件夹下;经过预处理后,能够移除冗余和无效数据,获取会话的融合序列表征,之后再将处理后的特征序列输入
Transformer
模型中
。3.
根据权利要求1所述的基于融合序列的远控木马流量检测方法,其特征在于:所述
Transformer
模型包括线性嵌入层
、Transformer
编码器层和全连接层
。4.
根据权利要求3所述的基于融合序列的远控木马流量检测方法,其特征在于:
Tr...

【专利技术属性】
技术研发人员:蔡瑞杰吴丰源刘明尹小康李路凯李龙飞刘胜利
申请(专利权)人:中国人民解放军战略支援部队信息工程大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1