System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种面向Tor网络的跨域自适应小样本网站指纹识别方法技术_技高网
当前位置: 首页 > 专利查询>东南大学专利>正文

一种面向Tor网络的跨域自适应小样本网站指纹识别方法技术

技术编号:43183928 阅读:2 留言:0更新日期:2024-11-01 20:09
本发明专利技术公开了一种面向Tor网络的跨域自适应小样本网站指纹识别方法,所述方法包括以下步骤:S1:设计基于加性角度边界损失的预训练策略,S2:设计基于特定任务适配器的模型微调策略;其中,基于加性角度边界损失的预训练策略主要包括流量采集和预处理、随机批量采样、特征提取器模型构建、预训练损失函数设计、特征提取器训练5个步骤。基于特定任务适配器的模型微调策略主要包括随机小样本任务采样、加载和冻结主干网络参数、任务适配器插入和初始化、微调任务适配器权重、小样本任务测试5个步骤。本方法平衡了预训练的训练成本和性能,能够支持大规模数据集预训练,为匿名通信网络治理实践提供了有效基础和全新视角。

【技术实现步骤摘要】

本专利技术涉及网络空间安全治理与监管、大数据环境下匿名通信网络流量识别领域,具体应用于以洋葱路由(theonionrouter,tor)为代表的匿名通信网络下的网站流量指纹识别,为治理匿名通信网络和保障网络空间安全提供技术基础。


技术介绍

1、随着网络安全意识的日益增强和个人隐私保护需求的持续上升,互联网用户纷纷采用匿名通信工具进行网络访问,其中洋葱路由(theonionrouter,tor)是最具有代表性的匿名通信工具。据官方数据显示,tor是当前全球最流行的匿名通信系统,已有超过8000个中继节点和700000名用户。通过独特的洋葱路由技术和全球志愿者构建的中继网络,tor支持用户匿名浏览网络,能够有效躲避网络审查和流量追踪。tor的多层加密和随机化的路由选择策略,极大地增加了通信流量的混淆程度,使在中间链路难以进行有效的监管和审查。然而,tor在提供匿名访问服务的同时,也不幸地为一些非法活动提供了技术便利,为网络犯罪的溯源、取证和法律执行带来了严峻的挑战。近年来,研究人员开始深入研究tor的漏洞和弱点。尽管tor通过使用多层加密来保护通信的机密性,但一些流量信息,如时间戳、数据包方向和长度,无法完全隐藏。因此,访问同一网站产生的流量轨迹会包含相似的传输行为模式,可以从侧信道的角度分析出有价值的信息。这通常被称为网站指纹(websitefingerprinting,wf)识别。网站指纹识别指的是监管机构监听客户端和入口节点之间的流量,并使用预先学习的知识库来推断用户访问的网站内容。目前,对匿名网络流量进行网站指纹识别,被国内外业界与业界广泛认为是实现有效管理的重要手段之一。

2、传统的网站指纹识别方法专注于提高准确性。在经历了从手动特征提取的机器学习到能够自动化特征提取的深度学习的发展历程,传统网站指纹识别方法在理想化的假设下已经相对成熟。然而,为了防止模型过拟合,监管者需要为监控网站收集大量的流量数据样本,通常每个网站需要几百个样本,以训练一个具有泛化性的深度学习模型。此外,在传统的网站指纹识别的范式中,测试集中的数据分布和网站类别需要与训练集相匹配。这意味着传统网站指纹识别仅允许识别已在大规模数据上训练过的网站。如果监管者打算调整监控网站,就需要收集新的数据并重新训练模型,这个过程限制了网站指纹识别的实用性,并大大增加了额外的存储开销。因此,为了实现对监控网站进行灵活调整,研究者们提出了小样本网站指纹识别方法,旨在仅使用少量样本即可快速实现对未曾训练过的网站的识别能力。相比于传统网站指纹识别方法,小样本网站指纹识别方法的优势在于普适性好、灵活度高,具备快速启动、快速适应能力,能够有效克服复杂多变的网络环境、以及因tor系统更新迭代造成的变动。然而,目前小样本网站指纹识别方法大多采用基于传统迁移学习的方法实现,即在源域中大规模数据集上对模型进行预训练,然后在目标域的测试数据集上对模型参数进行微调和测试。虽然已有小样本网站指纹识别已经取得一些成果,但仍存在以下三点问题:(1)现有小样本网站指纹识别都要求预训练数据集和测试数据集属于同一域,意味着两个数据集必须具有相同的收集时间、tor浏览器版本等,而这限制了小样本网站指纹识别方法的实用性;(2)现有方法在预训练阶段所采用的损失函数在设计上缺乏明确的边界、导致类内样本的特征紧凑度和类外样本的特征相似度不足,从而难以获得通用表征以应对域偏移;(3)现有方法所采用的微调策略通常采用添加线性分类器或者整体微调,这两种无法将预训练阶段学到的通用的知识与特定任务数据集的特定知识进行有机融合,导致适应能力较差。

3、针对上述挑战,本专利技术提出了一种跨域自适应小样本网站指纹识别方法。该方法能够在跨域小样本的条件下实现自适应的网站指纹识别。它具备快速启动的能力、强大的自适应性等显著特点,不仅能够有效应对匿名通信网络的多变性和复杂性,还能够提高网站指纹识别的预训练效率和迁移后的准确性。本方法包含基于加性角度边界损失的预训练策略和基于特定任务适配器的模型微调策略,很好地解决了跨域适应难和小样本学习难的问题,进而实现对tor网络中的网站指纹持续地适应与识别,为治理匿名通信网络和保障网络空间安全提供有力的技术支撑。


技术实现思路

1、本专利技术针对现有小样本网站指纹识别方法所存在的问题,提出了一种跨域自适应小样本网站指纹识别方法,以满足在跨域场景下,以极少数量的样本实现对新的被监控网站的准确识别。

2、为了实现上述目的,本方法分为设计基于加性角度边界损失的预训练策略和设计基于特定任务适配器的模型微调策略两个主要步骤,具体如下:

3、s1:设计基于加性角度边界损失的预训练策略。为了使模型提前获得对于流量数据的通用知识,需要先进行预训练。具体过程分为5个步骤:流量采集和预处理、随机批量采样、特征提取器模型构建、预训练损失函数设计、特征提取器训练。

4、s11:流量采集和预处理。本过程具体分为4个步骤:搭建tor环境、模拟用户访问网站、网络流量采集、流量预处理。

5、(1)搭建tor环境:在多个云服务器上下载tor源码,然后进行编译,设置配置文件,使用sock5协议在固定端口上进行监听,实现流量代理。

6、(2)模拟用户访问网站:撰写脚本,控制浏览器循环依次访问预先设定的网站列表。

7、(3)网络流量采集:启动tor程序,使用抓包工具捕获对应tor流量并保存为pcap文件。注意在本步骤中,需要采集跨时间域和跨版本域的流量数据。

8、(4)流量预处理:如算法1所示,根据五元组提取每个pcap文件中交互次数最多的双向流,并依次处理双向流中的每个ip数据包,提取出固定长度512字节的tor信元的传输方向,将客户端到入口节点的信元标记为+1,将入口节点到客户端的标记为-1,每条双向流提取m个信元方向标记构成序列,并提取流量对应的网站url作为标签,保存为npy格式文件。

9、

10、s12:随机批量采样。由于gpu计算资源有限,需将数据采样为小批量数据。如算法2所示,本过程具体分为4个步骤:

11、(1)标签重构:为了使得模型处理更高效,便于编码和解码,将url标签转化为0-n的连续长整型。

12、(2)数据打乱:将原始数据和对应标签打乱顺序。

13、(3)转化为张量:将数据转化为tensor类型以适配训练要求,同时对模型的维度进行重塑。

14、(4)批量采样:从s11中采集的数据集中挑选规模最大的数据集作为预训练数据集,并将预训练数据集划分为多个包含固定数量样本的批量。

15、

16、

17、s13:特征提取器模型构建。为了从流量数据中自动化提取高维抽象特征,构建深度残差卷积神经网络模型。如算法3所示,本过程具体分为3个步骤:首次卷积模块构建、堆叠残差基本块、特征嵌入展开。

18、(1)首次卷积模块构建:对原始输入x进行一维卷积计算conv1d,批量归一化batchnorm1d和本文档来自技高网...

【技术保护点】

1.一种面向Tor网络的跨域自适应小样本网站指纹识别方法,其特征在于,所述方法包括以下步骤:

2.根据权利要求1所述的面向Tor网络的跨域自适应小样本网站指纹识别方法,其特征在于,S11:流量采集和预处理,具体分为4个步骤:搭建Tor环境、模拟用户访问网站、网络流量采集、流量预处理,具体如下:

3.根据权利要求1所述的面向Tor网络的跨域自适应小样本网站指纹识别方法,其特征在于,S12:随机批量采样,具体分为4个步骤:

4.根据权利要求1所述的面向Tor网络的跨域自适应小样本网站指纹识别方法,其特征在于,S13:特征提取器模型构建,具体分为3个步骤:首次卷积模块构建、堆叠残差基本块、特征嵌入展开,具体如下:

5.根据权利要求1所述的面向Tor网络的跨域自适应小样本网站指纹识别方法,其特征在于,S14:预训练损失函数设计,分为5个步骤:特征与参数归一化、全连接层计算、计算角度、添加角度边界、特征重放缩,具体如下:

6.根据权利要求1所述的面向Tor网络的跨域自适应小样本网站指纹识别方法,其特征在于,S15:特征提取器训练,将S12中采样好的批量数据送入特征提取器,计算出每个批量的损失,然后对特征提取器进行参数更新,具体分为4个步骤:

7.根据权利要求1所述的面向Tor网络的跨域自适应小样本网站指纹识别方法,其特征在于,S21:随机小样本任务采样,在目标域的测试数据集上进行小样本任务的采样,具体过程分为以下4个步骤:

8.根据权利要求1所述的面向Tor网络的跨域自适应小样本网站指纹识别方法,其特征在于,S23:任务适配器插入和初始化,为了将预训练获得的知识和在特定任务上学习的知识进行有机融合,需要添加任务适配器,具体分为3个步骤:

9.根据权利要求1所述的面向Tor网络的跨域自适应小样本网站指纹识别方法,其特征在于,

10.根据权利要求1所述的面向Tor网络的跨域自适应小样本网站指纹识别方法,其特征在于,

...

【技术特征摘要】

1.一种面向tor网络的跨域自适应小样本网站指纹识别方法,其特征在于,所述方法包括以下步骤:

2.根据权利要求1所述的面向tor网络的跨域自适应小样本网站指纹识别方法,其特征在于,s11:流量采集和预处理,具体分为4个步骤:搭建tor环境、模拟用户访问网站、网络流量采集、流量预处理,具体如下:

3.根据权利要求1所述的面向tor网络的跨域自适应小样本网站指纹识别方法,其特征在于,s12:随机批量采样,具体分为4个步骤:

4.根据权利要求1所述的面向tor网络的跨域自适应小样本网站指纹识别方法,其特征在于,s13:特征提取器模型构建,具体分为3个步骤:首次卷积模块构建、堆叠残差基本块、特征嵌入展开,具体如下:

5.根据权利要求1所述的面向tor网络的跨域自适应小样本网站指纹识别方法,其特征在于,s14:预训练损失函数设计,分为5个步骤:特征与参数归一化、全连接层计算、计算角度、添加角度边界、特征重放缩,具体如下...

【专利技术属性】
技术研发人员:许昱玮徐正欣曹捷白云鹏袁亚丽程光
申请(专利权)人:东南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1