一种全球暗网威胁线索智能检测方法及检测系统技术方案

技术编号:34919437 阅读:20 留言:0更新日期:2022-09-15 07:10
本发明专利技术涉及暗网站点智能检测,具体涉及一种全球暗网威胁线索智能检测方法及检测系统,探测全球暗网活跃站点,对探测到的信息源进行处理,构建活跃站点信息源数据库;通过同时连接、动态调度和切换节点,实现访问行为的混淆,并通过单节点多实例并发采集数据,实现暗网数据规模化采集;对暗网数据进行数据处理,使用深度神经网络模型对输入文本进行检测,判定是否为威胁线索;本发明专利技术提供的技术方案能够有效克服现有技术所存在的规模化采集暗网数据存在较大困难、无法对暗网数据进行准确检测以得到威胁线索的缺陷。到威胁线索的缺陷。到威胁线索的缺陷。

【技术实现步骤摘要】
一种全球暗网威胁线索智能检测方法及检测系统


[0001]本专利技术涉及暗网站点智能检测,具体涉及一种全球暗网威胁线索智能检测方法及检测系统。

技术介绍

[0002]Tor、I2P、ZeroNet等暗网具有匿名反追踪、分布式反审查等特点,存在大量威胁公共安全、金融安全、信息安全的线索,发现暗网信息源,并对威胁线索进行智能检测,对防范上述风险具有重要价值。
[0003]利用明网爬虫和暗网爬虫技术探测暗网站点、采集暗网数据是目前主流的暗网站点探测与采集方法。但是,由于Tor、I2P、ZeroNet等暗网采用分布式、多跳路由技术,使得暗网站点具有分散性、生命周期短、网络带宽非常小等特点,造成爬虫探测效率低下,规模化采集暗网数据困难。针对此问题,本专利技术提出了基于中继节点流量分析的站点探测技术、互联网公开信息的站点汇集技术、暗网站内信息与即时通讯信息的站点检测技术的暗网站点探测与暗网活跃站点信息源数据库构建方法,为暗网威胁线索的检测提供有效支撑。
[0004]目前,针对暗网线索挖掘主要通过搭建各类暗网网站模型,根据关键字提取所需暗网线索。但是,由于暗网数据具有类型多样、语言种类非常多、中文信息占比较少的特点,目前的暗网线索挖掘方法难以准确检测所需暗网线索。针对暗网数据的特点,本专利技术提供了一种应用多语言自动翻译,结合自动翻译与复杂文本识别技术、深度神经网络等新技术检测威胁线索的方法,并通过在线主动学习提升威胁线索的检测效果。

技术实现思路

[0005](一)解决的技术问题
[0006]针对现有技术所存在的上述缺点,本专利技术提供了一种全球暗网威胁线索智能检测方法及检测系统,能够有效克服现有技术所存在的规模化采集暗网数据存在较大困难、无法对暗网数据进行准确检测以得到威胁线索的缺陷。
[0007](二)技术方案
[0008]为实现以上目的,本专利技术通过以下技术方案予以实现:
[0009]一种全球暗网威胁线索智能检测方法,包括以下步骤:
[0010]S1、探测全球暗网活跃站点,对探测到的信息源进行处理,构建活跃站点信息源数据库;
[0011]S2、通过同时连接、动态调度和切换节点,实现访问行为的混淆,并通过单节点多实例并发采集数据,实现暗网数据规模化采集;
[0012]S3、对暗网数据进行数据处理,使用深度神经网络模型对输入文本进行检测,判定是否为威胁线索。
[0013]优选地,S1中探测全球暗网活跃站点,包括:
[0014]在多个国家的云虚拟机布设代理节点,在代理节点中截取其访问流量,通过分析
流量获取Tor暗网域名;
[0015]通过公开搜索引擎、暗网搜索引擎搜索“.onion”,从返回页面中提取Tor暗网域名;
[0016]从已采集Tor页面、Telegram群组信息中,识别和提取Tor暗网域名。
[0017]优选地,S1中探测全球暗网活跃站点,包括:
[0018]在多个国家的云虚拟机布设代理节点,在代理节点中截取其访问流量,提取其中的I2P暗网域名;
[0019]通过公开搜索引擎搜索“.i2p”,从返回结果中提取I2P暗网域名;
[0020]从已采集I2P页面、Telegram群组信息中,识别和提取I2P暗网域名。
[0021]优选地,S1中探测全球暗网活跃站点,包括:
[0022]通过在多个国家布设的代理节点,对ZeorNet网站进行漫爬扩展采集,通过站点之间的关联进行扩展,从而实现信息源探测,通过分析流量获取ZeorNet暗网域名;
[0023]通过公开搜索引擎搜索“zeronet”,从返回页面中提取ZeroNet暗网域名;
[0024]从已采集ZeroNet页面、Telegram群组信息中,识别和提取ZeroNet暗网域名。
[0025]优选地,S1中对探测到的信息源进行处理,构建活跃站点信息源数据库,包括:
[0026]对探测到的暗网信息源进行整理、去重、存活性验证,并计算站点语种、站点活跃度、情报线索标签、业务相关度,探索关联国家及地区的分析,从而构建形成活跃站点信息源数据库。
[0027]优选地,S2中通过同时连接、动态调度和切换节点,实现访问行为的混淆,并通过单节点多实例并发采集数据,实现暗网数据规模化采集,包括:
[0028]对于Tor暗网站点:
[0029]进行存活性验证,并根据站点活跃度、业务相关度进行采集调度,排列站点采集优先级;
[0030]针对网络带宽小的问题,采用单节点多实例并发技术,同时连接多个节点,实现大流量访问;
[0031]针对站点类型多的问题,对站点进行定向、慢爬、元搜索的综合采集,下载页面并抽取页面内容。
[0032]优选地,S2中通过同时连接、动态调度和切换节点,实现访问行为的混淆,并通过单节点多实例并发采集数据,实现暗网数据规模化采集,包括:
[0033]对于I2P暗网站点:
[0034]进行存活性验证,并根据站点活跃度、业务相关度进行采集调度,排列站点采集优先级;
[0035]针对网络带宽小的问题,对客户端进行修改,利用单节点多实例并发技术,通过同时连接多个节点来扩大采集带宽;
[0036]针对站点类型多的问题,结合定向采集与慢爬采集,下载页面并抽取页面内容。
[0037]优选地,S2中通过同时连接、动态调度和切换节点,实现访问行为的混淆,并通过单节点多实例并发采集数据,实现暗网数据规模化采集,包括:
[0038]对于ZeorNet暗网站点:
[0039]采用慢爬采集优先的采集方式,根据站点活跃度、业务相关度、站点语种选择种子
站点,进行慢爬采集;
[0040]对客户端进行修改,使其支持单节点多实例并发访问,提升采集效率;
[0041]针对ZeorNet暗网站点均为动态组装的特点,通过socket读取数据并动态组装为页面,再抽取页面内容。
[0042]优选地,S3中对暗网数据进行数据处理,使用深度神经网络模型对输入文本进行检测,判定是否为威胁线索,包括:
[0043]对暗网数据进行自动化语言翻译、自动降噪处理、结构化处理;
[0044]使用递归神经网络RNN识别短文本中的威胁线索,根据短文本中的词序关系、不同词的依赖和贡献程度的不同,给出输入文本属于威胁线索的概率;
[0045]使用图卷积神经网络GCN识别长文本中的威胁线索,在文本量化的基础上使用卷积神经网络构建端到端的判别模型,自动抽取文本特征,给出输入文本属于威胁线索的概率;
[0046]还包括以下步骤:
[0047]S4、对深度神经网络模型的输出结果进行检验,主动选择重要样本进行反馈,利用反馈样本对深度神经网络模型进行增量式学习。
[0048]一种全球暗网威胁线索智能检测系统,包括信息源数据库构建模块、数据规模化采集存储模块和威胁线索检测单元;
[0049]信息源数据库构建模本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种全球暗网威胁线索智能检测方法,其特征在于:包括以下步骤:S1、探测全球暗网活跃站点,对探测到的信息源进行处理,构建活跃站点信息源数据库;S2、通过同时连接、动态调度和切换节点,实现访问行为的混淆,并通过单节点多实例并发采集数据,实现暗网数据规模化采集;S3、对暗网数据进行数据处理,使用深度神经网络模型对输入文本进行检测,判定是否为威胁线索。2.根据权利要求1所述的全球暗网威胁线索智能检测方法,其特征在于:S1中探测全球暗网活跃站点,包括:在多个国家的云虚拟机布设代理节点,在代理节点中截取其访问流量,通过分析流量获取Tor暗网域名;通过公开搜索引擎、暗网搜索引擎搜索“.onion”,从返回页面中提取Tor暗网域名;从已采集Tor页面、Telegram群组信息中,识别和提取Tor暗网域名。3.根据权利要求1所述的全球暗网威胁线索智能检测方法,其特征在于:S1中探测全球暗网活跃站点,包括:在多个国家的云虚拟机布设代理节点,在代理节点中截取其访问流量,提取其中的I2P暗网域名;通过公开搜索引擎搜索“.i2p”,从返回结果中提取I2P暗网域名;从已采集I2P页面、Telegram群组信息中,识别和提取I2P暗网域名。4.根据权利要求1所述的全球暗网威胁线索智能检测方法,其特征在于:S1中探测全球暗网活跃站点,包括:通过在多个国家布设的代理节点,对ZeorNet网站进行漫爬扩展采集,通过站点之间的关联进行扩展,从而实现信息源探测,通过分析流量获取ZeorNet暗网域名;通过公开搜索引擎搜索“zeronet”,从返回页面中提取ZeroNet暗网域名;从已采集ZeroNet页面、Telegram群组信息中,识别和提取ZeroNet暗网域名。5.根据权利要求2

4中任意一项所述的全球暗网威胁线索智能检测方法,其特征在于:S1中对探测到的信息源进行处理,构建活跃站点信息源数据库,包括:对探测到的暗网信息源进行整理、去重、存活性验证,并计算站点语种、站点活跃度、情报线索标签、业务相关度,探索关联国家及地区的分析,从而构建形成活跃站点信息源数据库。6.根据权利要求5所述的全球暗网威胁线索智能检测方法,其特征在于:S2中通过同时连接、动态调度和切换节点,实现访问行为的混淆,并通过单节点多实例并发采集数据,实现暗网数据规模化采集,包括:对于Tor暗网站点:进行存活性验证,并根据站点活跃度、业务相关度进行采集调度,排列站点采集优先级;针对网络带宽小的问题,采用单节点多实例并发技术,同时连接多个节点,实现大流量访问;针对站点类型多的问题,对站点进行定向、慢爬、元搜索的综合采集,下载页面并抽取
页面内容。7.根据权利要求5所述的全球暗网威胁线索智能检测方法,其特征在于:S2中通过同时连接、动态调度和切换...

【专利技术属性】
技术研发人员:庞文俊陈继周瑞双李小超
申请(专利权)人:清创网御合肥科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1