基于网络流量频域指纹的Tor用户访问网站识别方法及系统技术方案

技术编号:34030647 阅读:56 留言:0更新日期:2022-07-06 11:02
本发明专利技术属于匿名通信系统Tor技术领域,特别涉及一种基于网络流量频域指纹的Tor用户访问网站识别方法及系统,该方法提取访问流量中时域信元序列的方向和长度特征,将其组合形成信元特征序列,将信元特征序列进行离散小波变换并获取信元频域特征序列的低频部分,去除掉包含噪声的高频部分,这种将离散小波变换作为频域处理方法可以有效减少用户在访问网站过程中出现的噪声对指纹识别产生的影响;通过使用CNN、FC和Self

Identification method and system of tor user visiting website based on frequency domain fingerprint of network traffic

【技术实现步骤摘要】
基于网络流量频域指纹的Tor用户访问网站识别方法及系统


[0001]本专利技术属于匿名通信系统Tor
,特别涉及一种基于网络流量频域指纹的Tor用户访问网站识别方法及系统。

技术介绍

[0002]有了利益的驱动,互联网中滋生了大量网络入侵行为。Tor是目前最受欢迎的匿名通信系统,它每天为超过200million的用户提供隐私服务。Tor通过建立一个三跳中继的加密链路来保护用户访问的匿名性。这些中继被随机选择,并且在客户端访问服务器的过程中要定期更换链路。虽然直接破解Tor匿名通信系统十分困难,但是通过先前的研究证明,网络流量分析能够影响Tor的安全性,特别是网站指纹攻击(Website Fingerprint,WF)。用户在访问每个网站时会产生不同的网络流量特征,例如不同的数据包数量,不同的流量突发模式等。在WF攻击中,执法者在受监控用户以及Tor入口节点之间的加密连接中拦截流量并提取流量数据包的特征。通过分类器确定所拦截的流量与其感兴趣的网站是否有对应关系,如果流量与分类器匹配,即可说明受监控的用户正在访问其感兴趣的网站。WF攻击能够让执法者确定受监控用户是否在浏览违法网站,尤其是进行黑色交易的网站,这对于打击违法犯罪有重要意义。
[0003]为了让Tor网络更加安全,研究人员提出了一些防御措施来抵御WF攻击,其基本原理是对数据包流量进行操作(添加、删除、延迟数据包等措施),以达到混淆流量特征的目的。
[0004]Tor的初衷是为了在数据通信过程中给用户提供匿名性。Tor要尽量避免 WF攻击的发生,以免对其安全性造成影响,因此提出了针对WF攻击的防御措施。但是对于执法人员来说,由于Tor中出现了大量违法行为,监控非法人员以及网站是必要的,因此需要对使用防御措施的Tor进行进一步WF攻击的研究。由于抵御措施的提出,基本都减少了原始Tor流量中的流量突发,并对其进行了流量混淆,使WF攻击效率明显下降。对于未来可能被Tor使用的措施来说,提升其识别准确率是很重要的。其次,洋葱服务是Tor所提供的最安全的服务,其中包含了大量违法交易。对于使用洋葱服务的Tor网络进行WF攻击也是值得关注的研究。用户在洋葱服务中访问网站需要建立更复杂的链路,并且有更完善的安全验证机制。这使访问流量中掺杂了大量出于身份验证目的而产生的流量噪声。现有方法对使用洋葱服务的Tor流量进行指纹识别效果还不是很理想。这些方法虽然能够从流量的时序、方向等不同的特征中发现用户访问不同网站的行为模式,但是它们都没能减小流量噪声对指纹识别的影响。

技术实现思路

[0005]现有方法往往通过手动提取用户访问网站的流量特征,构造机器学习或深度学习模型来对流量特征进行分类,此类方法在Tor网络存在防御措施或采用洋葱服务场景下的分类效果不佳,针对此问题,本专利技术提出一种基于网络流量频域指纹的Tor用户访问网站识
别方法及系统,在一定程度上提升了网站指纹识别准确率。
[0006]为了实现上述目的,本专利技术采用以下的技术方案:
[0007]本专利技术提供了一种基于网络流量频域指纹的Tor用户访问网站识别方法,包含以下步骤:
[0008]在用户访问网站的过程中捕获后台流量,生成原始流量数据包;
[0009]提取原始流量数据包中信元序列的方向和长度信息,将其组合形成信元特征序列;
[0010]将信元特征序列通过离散小波变换转化为信元频域特征序列,并保留离散小波变换后生成的低频序列;
[0011]将信元频域特征序列以及其对应的网站标签存储到数据库;
[0012]根据模型训练需求从数据库中提取信元频域特征序列以及其对应的网站标签,并生成训练序列矩阵和训练标签矩阵;
[0013]根据流量的数据类型及特征构建深度学习分类模型;
[0014]利用训练序列矩阵和训练标签矩阵对深度学习分类模型进行训练,通过训练选择出合适的超参数;
[0015]从数据库中提取待测信元频域特征序列,生成测试序列矩阵;
[0016]利用深度学习分类模型对测试序列矩阵进行预测,获取待测信元频域特征序列所对应的网站标签,完成对未知流量的识别,将流量与网站关联起来。
[0017]进一步地,所述提取原始流量数据包中信元序列的方向和长度信息,将其组合形成信元特征序列,包括:
[0018]将原始信元序列映射到[+1,

1]的值域中,规定数据流入执法者的方向为“+1”,数据流出执法者的方向为
“‑
1”,从而构建信元方向序列Seq
dir

[0019]客户端与服务器之间是通过TCP协议进行交互的,首先将不包含TCP协议的信元过滤出去,然后提取TCP协议层信元的长度,组成信元长度序列Seq
len

[0020]将信元方向序列和信元长度序列相结合,通过将这两个序列的各项相乘的方式构建信元特征序列Seq
mix
,如公式(1)所示:
[0021]Seq
mix
=Seq
len
×
Seq
dir
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)。
[0022]进一步地,所述离散小波变换使用带通滤波器对信元特征序列进行一层架构分解,并将降采样滤波器的倍数Q设为2,序列分解方法如公式(2)和公式 (3)所示:
[0023][0024][0025]式中,L(k)表示低通滤波器,H(k)表示高通滤波器,n表示时域中的信元特征,k表示频域中的信元特征,n和k是变量;信元特征序列经过公式(2)和公式(3)频域处理后得到一个低频序列x
1,L
(n)和一个高频序列x
1,H
(n),低频序列x
1,L
(n)包含了信元特征序列中变化缓慢的部分,是序列的基本框架,属于序列的近似信息,高频序列x
1,H
(n)包含了信元特征序列中变化迅速的部分,属于序列的细节信息,其中包含了噪声,因此将低频序列x
1,L
(n)保留下来,去除高频序列x
1,H
(n)。
[0026]进一步地,所述深度学习分类模型包括基本模块层、全连接层和自注意力机制层;
所述基本模块层依次包括Conv Layer、Pad、Batch Normalization、ELUor ReLU、Max Pooling、Pad和Dropout;所述全连接层依次包括FC Layer、BatchNormalization、ReLU和Dropout;所述自注意力机制层依次包括Embedding、 Self

Attention Layer、Batch Normalization、ReLU、Dropout和Label Smoothing。
[0027]进一步地,所述Dropout、Batch Normalization和Label Smoothing属于正则化技术来防止模型训练过程中出现本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于网络流量频域指纹的Tor用户访问网站识别方法,其特征在于,包含以下步骤:在用户访问网站的过程中捕获后台流量,生成原始流量数据包;提取原始流量数据包中信元序列的方向和长度信息,将其组合形成信元特征序列;将信元特征序列通过离散小波变换转化为信元频域特征序列,并保留离散小波变换后生成的低频序列;将信元频域特征序列以及其对应的网站标签存储到数据库;根据模型训练需求从数据库中提取信元频域特征序列以及其对应的网站标签,并生成训练序列矩阵和训练标签矩阵;根据流量的数据类型及特征构建深度学习分类模型;利用训练序列矩阵和训练标签矩阵对深度学习分类模型进行训练,通过训练选择出合适的超参数;从数据库中提取待测信元频域特征序列,生成测试序列矩阵;利用深度学习分类模型对测试序列矩阵进行预测,获取待测信元频域特征序列所对应的网站标签,完成对未知流量的识别,将流量与网站关联起来。2.根据权利要求1所述的基于网络流量频域指纹的Tor用户访问网站识别方法,其特征在于,所述提取原始流量数据包中信元序列的方向和长度信息,将其组合形成信元特征序列,包括:将原始信元序列映射到[+1,

1]的值域中,规定数据流入执法者的方向为“+1”,数据流出执法者的方向为
“‑
1”,从而构建信元方向序列Seq
dir
;客户端与服务器之间是通过TCP协议进行交互的,首先将不包含TCP协议的信元过滤出去,然后提取TCP协议层信元的长度,组成信元长度序列Seq
len
;将信元方向序列和信元长度序列相结合,通过将这两个序列的各项相乘的方式构建信元特征序列Seq
mix
,如公式(1)所示:Seq
mix
=Seq
len
×
Seq
dir
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)。3.根据权利要求1所述的基于网络流量频域指纹的Tor用户访问网站识别方法,其特征在于,所述离散小波变换使用带通滤波器对信元特征序列进行一层架构分解,并将降采样滤波器的倍数Q设为2,序列分解方法如公式(2)和公式(3)所示:序列分解方法如公式(2)和公式(3)所示:式中,L(k)表示低通滤波器,H(k)表示高通滤波器,n表示时域中的信元特征,k表示频域中的信元特征,n和k是变量;信元特征序列经过公式(2)和公式(3)频域处理后得到一个低频序列x
1,L
(n)和一个高频序列x
1,H
(n),低频序列x
1,L
(n)包含了信元特征序列中变化缓慢的部分,是序列的基本框架,属于序列的近似信息,高频序列x
1,H
(n)包含了信元特征序列中变化迅速的部分,属于序列的细节信息,其中包含了噪声,因此将低频序列x
1,L
(n)保留下来,去除高频序列x
1,H
(n)。4.根据权利要求1所述的基于网络流量频域指纹的Tor用户访问网站识别方法,其特征在于,所述深度学习分类模型包括基本模块层、全连接层和自注意力机制层;所述基本模块
层依次包括Conv Layer、Pad、Batch...

【专利技术属性】
技术研发人员:罗向阳孙玉宸王菡马照瑞李玲玲刘粉林
申请(专利权)人:中国人民解放军战略支援部队信息工程大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1