【技术实现步骤摘要】
一种全球暗网威胁线索智能检测方法及检测系统
[0001]本专利技术涉及暗网站点智能检测,具体涉及一种全球暗网威胁线索智能检测方法及检测系统。
技术介绍
[0002]Tor、I2P、ZeroNet等暗网具有匿名反追踪、分布式反审查等特点,存在大量威胁公共安全、金融安全、信息安全的线索,发现暗网信息源,并对威胁线索进行智能检测,对防范上述风险具有重要价值。
[0003]利用明网爬虫和暗网爬虫技术探测暗网站点、采集暗网数据是目前主流的暗网站点探测与采集方法。但是,由于Tor、I2P、ZeroNet等暗网采用分布式、多跳路由技术,使得暗网站点具有分散性、生命周期短、网络带宽非常小等特点,造成爬虫探测效率低下,规模化采集暗网数据困难。针对此问题,本专利技术提出了基于中继节点流量分析的站点探测技术、互联网公开信息的站点汇集技术、暗网站内信息与即时通讯信息的站点检测技术的暗网站点探测与暗网活跃站点信息源数据库构建方法,为暗网威胁线索的检测提供有效支撑。
[0004]目前,针对暗网线索挖掘主要通过搭建各类暗网网站模型,根据关键字提取所需暗网线索。但是,由于暗网数据具有类型多样、语言种类非常多、中文信息占比较少的特点,目前的暗网线索挖掘方法难以准确检测所需暗网线索。针对暗网数据的特点,本专利技术提供了一种应用多语言自动翻译,结合自动翻译与复杂文本识别技术、深度神经网络等新技术检测威胁线索的方法,并通过在线主动学习提升威胁线索的检测效果。
技术实现思路
[0005](一)解决的技术问题
[0006 ...
【技术保护点】
【技术特征摘要】
1.一种全球暗网威胁线索智能检测方法,其特征在于:包括以下步骤:S1、探测全球暗网活跃站点,对探测到的信息源进行处理,构建活跃站点信息源数据库;S2、通过同时连接、动态调度和切换节点,实现访问行为的混淆,并通过单节点多实例并发采集数据,实现暗网数据规模化采集;S3、对暗网数据进行数据处理,使用深度神经网络模型对输入文本进行检测,判定是否为威胁线索。2.根据权利要求1所述的全球暗网威胁线索智能检测方法,其特征在于:S1中探测全球暗网活跃站点,包括:在多个国家的云虚拟机布设代理节点,在代理节点中截取其访问流量,通过分析流量获取Tor暗网域名;通过公开搜索引擎、暗网搜索引擎搜索“.onion”,从返回页面中提取Tor暗网域名;从已采集Tor页面、Telegram群组信息中,识别和提取Tor暗网域名。3.根据权利要求1所述的全球暗网威胁线索智能检测方法,其特征在于:S1中探测全球暗网活跃站点,包括:在多个国家的云虚拟机布设代理节点,在代理节点中截取其访问流量,提取其中的I2P暗网域名;通过公开搜索引擎搜索“.i2p”,从返回结果中提取I2P暗网域名;从已采集I2P页面、Telegram群组信息中,识别和提取I2P暗网域名。4.根据权利要求1所述的全球暗网威胁线索智能检测方法,其特征在于:S1中探测全球暗网活跃站点,包括:通过在多个国家布设的代理节点,对ZeorNet网站进行漫爬扩展采集,通过站点之间的关联进行扩展,从而实现信息源探测,通过分析流量获取ZeorNet暗网域名;通过公开搜索引擎搜索“zeronet”,从返回页面中提取ZeroNet暗网域名;从已采集ZeroNet页面、Telegram群组信息中,识别和提取ZeroNet暗网域名。5.根据权利要求2
‑
4中任意一项所述的全球暗网威胁线索智能检测方法,其特征在于:S1中对探测到的信息源进行处理,构建活跃站点信息源数据库,包括:对探测到的暗网信息源进行整理、去重、存活性验证,并计算站点语种、站点活跃度、情报线索标签、业务相关度,探索关联国家及地区的分析,从而构建形成活跃站点信息源数据库。6.根据权利要求5所述的全球暗网威胁线索智能检测方法,其特征在于:S2中通过同时连接、动态调度和切换节点,实现访问行为的混淆,并通过单节点多实例并发采集数据,实现暗网数据规模化采集,包括:对于Tor暗网站点:进行存活性验证,并根据站点活跃度、业务相关度进行采集调度,排列站点采集优先级;针对网络带宽小的问题,采用单节点多实例并发技术,同时连接多个节点,实现大流量访问;针对站点类型多的问题,对站点进行定向、慢爬、元搜索的综合采集,下载页面并抽取
页面内容。7.根据权利要求5所述的全球暗网威胁线索智能检测方法,其特征在于:S2中通过同时连接、动态调度和切换...
【专利技术属性】
技术研发人员:庞文俊,陈继,周瑞双,李小超,
申请(专利权)人:清创网御合肥科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。