【技术实现步骤摘要】
基于网络流量频域指纹的Tor用户访问网站识别方法及系统
[0001]本专利技术属于匿名通信系统Tor
,特别涉及一种基于网络流量频域指纹的Tor用户访问网站识别方法及系统。
技术介绍
[0002]有了利益的驱动,互联网中滋生了大量网络入侵行为。Tor是目前最受欢迎的匿名通信系统,它每天为超过200million的用户提供隐私服务。Tor通过建立一个三跳中继的加密链路来保护用户访问的匿名性。这些中继被随机选择,并且在客户端访问服务器的过程中要定期更换链路。虽然直接破解Tor匿名通信系统十分困难,但是通过先前的研究证明,网络流量分析能够影响Tor的安全性,特别是网站指纹攻击(Website Fingerprint,WF)。用户在访问每个网站时会产生不同的网络流量特征,例如不同的数据包数量,不同的流量突发模式等。在WF攻击中,执法者在受监控用户以及Tor入口节点之间的加密连接中拦截流量并提取流量数据包的特征。通过分类器确定所拦截的流量与其感兴趣的网站是否有对应关系,如果流量与分类器匹配,即可说明受监控的用户正在访问其感兴趣的网站。WF攻击能够让执法者确定受监控用户是否在浏览违法网站,尤其是进行黑色交易的网站,这对于打击违法犯罪有重要意义。
[0003]为了让Tor网络更加安全,研究人员提出了一些防御措施来抵御WF攻击,其基本原理是对数据包流量进行操作(添加、删除、延迟数据包等措施),以达到混淆流量特征的目的。
[0004]Tor的初衷是为了在数据通信过程中给用户提供匿名性。Tor要尽量避免 WF攻击的 ...
【技术保护点】
【技术特征摘要】
1.一种基于网络流量频域指纹的Tor用户访问网站识别方法,其特征在于,包含以下步骤:在用户访问网站的过程中捕获后台流量,生成原始流量数据包;提取原始流量数据包中信元序列的方向和长度信息,将其组合形成信元特征序列;将信元特征序列通过离散小波变换转化为信元频域特征序列,并保留离散小波变换后生成的低频序列;将信元频域特征序列以及其对应的网站标签存储到数据库;根据模型训练需求从数据库中提取信元频域特征序列以及其对应的网站标签,并生成训练序列矩阵和训练标签矩阵;根据流量的数据类型及特征构建深度学习分类模型;利用训练序列矩阵和训练标签矩阵对深度学习分类模型进行训练,通过训练选择出合适的超参数;从数据库中提取待测信元频域特征序列,生成测试序列矩阵;利用深度学习分类模型对测试序列矩阵进行预测,获取待测信元频域特征序列所对应的网站标签,完成对未知流量的识别,将流量与网站关联起来。2.根据权利要求1所述的基于网络流量频域指纹的Tor用户访问网站识别方法,其特征在于,所述提取原始流量数据包中信元序列的方向和长度信息,将其组合形成信元特征序列,包括:将原始信元序列映射到[+1,
‑
1]的值域中,规定数据流入执法者的方向为“+1”,数据流出执法者的方向为
“‑
1”,从而构建信元方向序列Seq
dir
;客户端与服务器之间是通过TCP协议进行交互的,首先将不包含TCP协议的信元过滤出去,然后提取TCP协议层信元的长度,组成信元长度序列Seq
len
;将信元方向序列和信元长度序列相结合,通过将这两个序列的各项相乘的方式构建信元特征序列Seq
mix
,如公式(1)所示:Seq
mix
=Seq
len
×
Seq
dir
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)。3.根据权利要求1所述的基于网络流量频域指纹的Tor用户访问网站识别方法,其特征在于,所述离散小波变换使用带通滤波器对信元特征序列进行一层架构分解,并将降采样滤波器的倍数Q设为2,序列分解方法如公式(2)和公式(3)所示:序列分解方法如公式(2)和公式(3)所示:式中,L(k)表示低通滤波器,H(k)表示高通滤波器,n表示时域中的信元特征,k表示频域中的信元特征,n和k是变量;信元特征序列经过公式(2)和公式(3)频域处理后得到一个低频序列x
1,L
(n)和一个高频序列x
1,H
(n),低频序列x
1,L
(n)包含了信元特征序列中变化缓慢的部分,是序列的基本框架,属于序列的近似信息,高频序列x
1,H
(n)包含了信元特征序列中变化迅速的部分,属于序列的细节信息,其中包含了噪声,因此将低频序列x
1,L
(n)保留下来,去除高频序列x
1,H
(n)。4.根据权利要求1所述的基于网络流量频域指纹的Tor用户访问网站识别方法,其特征在于,所述深度学习分类模型包括基本模块层、全连接层和自注意力机制层;所述基本模块
层依次包括Conv Layer、Pad、Batch...
【专利技术属性】
技术研发人员:罗向阳,孙玉宸,王菡,马照瑞,李玲玲,刘粉林,
申请(专利权)人:中国人民解放军战略支援部队信息工程大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。