当前位置: 首页 > 专利查询>浙江大学专利>正文

一种基于深度字典学习的加密流量异常检测方法技术

技术编号:27357977 阅读:61 留言:0更新日期:2021-02-19 13:38
本发明专利技术公开了一种基于深度字典学习的加密流量异常检测方法,该方法可以在不同业务场景下,对加密流量中的异常有相对良好的实时检测效果。在本发明专利技术设计了流量特征提取模块、正常流量模式构建模块以及异常比对模块。流量特征提取模块用于将原始流量以流量会话为粒度进行聚合,并提取出会话的多个特征数据传入后续的正常流量模式构建模块;正常流量模式构建模块基于深度字典学习技术构建出可表示正常流量模式的稀疏字典,该字典会随着当新流量会话到来时相应地更新;异常比对模块用于在新流量会话到来时,计算该会话和当前字典之间的相关程度,如果相关度较大,则认为其是正常流量,反之则认为其是异常流量。反之则认为其是异常流量。反之则认为其是异常流量。

【技术实现步骤摘要】
一种基于深度字典学习的加密流量异常检测方法


[0001]本专利技术属于网络安全
,尤其涉及一种基于深度字典学习的加密流量异常检测方法。

技术介绍

[0002]计算机网络中的异常情况可能由多种原因引起,如恶意用户的攻击行为、普通用户的操作失误、硬件配置错误以及软件运行错误等。此类异常情况如不得到及时的发现和排查,会对网络系统的正常运作和其他合法用户的服务质量造成不良影响。所以,对网络中的异常进行检测是一项重要的工作。现阶段,网络中的流量可以作为检测此类异常的重要数据源,因此对流量异常检测技术研究具有重要的价值。流量异常检测技术的主要思路为在流量中挖掘出与正常流量的通信模式的有偏差的异常部分,因此可以用于检测传统基于规则匹配的方法所无法检测到的未知攻击或系统错误。
[0003]现今,流量加密协议如SSL、TLS等为流量通信提供了隐私保护、身份验证和完整性校验方面的能力,因此得到了广泛应用,然而却给流量异常检测带来了不便和挑战。因为流量加密协议会将流量的数据包载荷进行散列,因此数据包中的载荷已无法作为流量异常检测的对象,导致基于数据包载荷的语义或统计检测等深度包检测方法无法进行使用。现阶段已有众多恶意软件或木马以加密流量的方式进行网络攻击,以对现有防御措施进行绕过,带来了严重的威胁。因此,对加密流量进行异常检测成了一项重要的研究课题。

技术实现思路

[0004]本专利技术目的在于针对现有技术的不足,提供一种基于深度字典学习的加密流量异常检测方法。本专利技术的重点是利用深度字典的深度特征表示能力,将高维度的流量特征信息转化为较低维度的稀疏字典,并可以随着流量的不断到来对该字典的元素,以及字典元素和流量特征信息之间的相关系数进行更新,最后通过比对流量特征信息与稀疏字典之间的相关性决定该流量异常与否。
[0005]本专利技术的目的是通过以下技术方案来实现的:一种基于深度字典学习的加密流量异常检测方法,该方法包括以下步骤:
[0006](1)流量特征提取模块首先对从访问用户端传入的加密流量进行处理,具体为:
[0007](1.1)使用TCP/IP五元组为依据对流量进行聚合,得到流量会话集合S;
[0008](1.2)对于S中每一个会话,其特征向量为F={f
i
|i=1,2,

,M},其中f
i
为第i个特征向量,M为特征向量的长度;
[0009](2)正常流量模式构建模块基于流量会话特征向量构建并更新深度稀疏字典,具体为:
[0010](2.1)稀疏字典由D={d
j
|j=1,2,

,N}表示,其中d
j
为第j个字典元素,N为字典的长度;
[0011](2.2)对于新到来的每个流量会话特征向量F,以
为目标函数使用梯度下降训练法对稀疏字典D以及字典元素和特征向量F之间的相关系数Γ={Γ
k
|k=1,2,

,K}集进行更新。其中K为字典所在的层数,Γ
k
为第k层的相关系数矩阵,φ为ReLU非线性激活函数,为第二范数;
[0012](3)异常比对模块计算更新完成的D与特征向量F的相关度,从而判断F是否为异常,具体为:
[0013](3.1)使用步骤(2.2)更新后的Γ
k
,基于公式计算字典元素d
j
的活跃度a
j
,A={a
j
|j=1,2,

,N}为D的活跃度集合,其中表示第k层相关系数矩阵中第i个列向量的累加和,|Γ
k
|表示第k层相关系数矩阵Γ
k
中所有列向量的累加和。
[0014](3.2)基于信息熵增益公式,计算出A的的熵增益集合G={g
j
|j=1,2,

,N};
[0015](3.3)基于公式ξ=|G
×
Γ
k
|,计算出特征向量F与步骤(2.2)更新后的D的相关度ξ;其中,
×
表示外积,|
·
|表示向量的模。
[0016](3.4)将异常阈值设为T,若ξ大于T,则判定F为异常;反之若ξ小于等于T,则判定F为正常。
[0017]进一步地,所述步骤(1.1)中,使用dpkt库对聚合后的流量进行处理得到流量会话集合S。
[0018]进一步地,所述步骤(1.2)中,所述特征向量的内容包括TLS握手信息、所有数据包长度的平均值与标准差以及所有数据包到达时间间隔的平均值与标准差。
[0019]与现有技术相比,本专利技术具有如下的有益效果:本专利技术的技术方案基于深度字典学习对加密流量的中的异常进行检测,具有以下特点:
[0020](1)采用无监督的训练方法,不依赖于往往在真实环境中难以获取且经常存在噪声的标签化数据;
[0021](2)对不同的业务场景具有普适性,内置了深度稀疏字典可以对各个场景的流量正常模式进行建模,从而辨别异常;
[0022](3)实时地对流量进行检测,将每一个流量会话输入模型后随即便可获得对其异常情况的判断。
附图说明
[0023]图1是基于深度字典学习的加密流量异常检测方法的流程图。
具体实施方式
[0024]本专利技术基于深度字典学习的加密流量异常检测方法可以在不同业务场景下,可以对加密流量中的异常进行无监督地、普适地、实时地检测。本专利技术设计了流量特征提取模块、正常流量模式构建模块以及异常比对模块。流量特征提取模块用于将原始流量以流量会话为粒度进行聚合,并提取出会话的多个特征数据传入后续的正常流量模式构建模块;正常流量模式构建模块基于深度字典学习技术构建出可表示正常流量模式的稀疏字典,该字典会随着当新流量会话到来时相应地更新;异常比对模块用于在新流量会话到来时,计
算该会话和当前字典之间的相关程度,如果相关度较大,则认为其是正常流量,反之则认为其是异常流量;如图1所示,具体包括以下步骤:
[0025]1.流量特征提取模块首先对从访问用户端传入的加密流量进行处理,具体为:
[0026](1.1)使用TCP/IP五元组为依据对输入的原始流量进行聚合,使用dpkt库对流量处理得到流量会话集合S。
[0027](1.2)对于流量会话集合S中每一个会话s,其特征向量为F={f
i
|i=1,2,

,M},其中f
i
为第i个特征向量,M为特征向量F的长度。选取的具体特征为TLS握手信息、所有数据包长度的平均值与标准差以及所有数据包到达时间间隔的平均值与标准差。
[0028]2.正常流量模式构建模块基于流量会话特征向量F构建并更新深度稀疏字典,具体为:
[0029](2.1)稀疏字典由D={d
j
|j=1,2,

,N}表示,其中d
...

【技术保护点】

【技术特征摘要】
1.一种基于深度字典学习的加密流量异常检测方法,其特征在于,该方法包括以下步骤:(1)对从访问用户端传入的加密流量进行处理可以得到流量会话特征向量。(2)基于流量会话特征向量可以构建并更新深度稀疏字典。(3)计算更新完成的深度稀疏字典与特征向量的相关度,可以根据相关度判断特征向量是否为异常。2.如权利要求1所述基于深度字典学习的加密流量异常检测方法,其特征在于,所述步骤(1)包括以下子步骤:(1.1)使用TCP/IP五元组为依据对流量进行聚合,得到流量会话集合S。(1.2)对于S中每一个会话,其特征向量为F={f
i
|i=1,2,

,M},其中f
i
为第i个特征向量,M为特征向量的长度。3.如权利要求2所述基于深度字典学习的加密流量异常检测方法,其特征在于,所述步骤(2)包括以下子步骤:(2.1)稀疏字典由D={d
j
|j=1,2,

,N}表示,其中d
j
为第j个字典元素,N为字典的长度。(2.2)对于新到来的每个流量会话特征向量F,以为目标函数使用梯度下降训练法对稀疏字典D以及字典元素和特征向量F之间的相关系数Γ={Γ
k
|k=1,2,

,K}集进行更新。其中K为字典所在的层数,Γ
k
...

【专利技术属性】
技术研发人员:吴春明陈双喜邢骏驰
申请(专利权)人:浙江大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1