【技术实现步骤摘要】
一种自定义动态扩展的暗网爬虫系统
本专利技术涉及一种自定义动态扩展的暗网爬虫系统。
技术介绍
暗网爬虫技术是挖掘暗网信息的一个关键技术,现有暗网爬虫系统主要是针对具体的站点页面,采用不同的爬虫解析方式,此种方法的爬虫系统固化,无法迭代以适应类型多变的网页数据的缺点,拓展性较差,站点变化时需要重新构造解析方法。同时,现有的暗网爬虫系统较关注爬虫解析本身,并未解决大量站点爬取的时间效率问题。
技术实现思路
由于暗网站点页面信息量巨大,对于爬虫系统来说,一方面暗网采用的是隐匿通信,其页面链接速度较慢,其爬取速度存在很大局限性,因此爬虫系统需要解决多站点同时高效率爬取的问题;另一方面由于网页信息结构的多样性,爬虫系统需要具有可维护性,即能够根据不同站点的爬虫要求,对爬虫系统进行拓展。实现暗网爬虫系统的执行效率和解析方法可拓展具有重要的研究意义和应用价值,本专利技术即解决了爬虫系统的高效以及易拓展问题。本专利技术的目的是通过以下技术方案来实现的:一种自定义动态扩展的暗网爬虫系统,包括:网页解析插件模块,对各类网页页面进行解析并将下一级站点链接输入给爬虫调度器;爬虫线程模块,负责执行各类网页爬虫过程;爬虫调度器模块,负责网页解析插件模块与爬虫线程之间的交互;并发模块,并发代理连接站点对网页页面进行下载,并且将网页页面数据输送给爬虫线程;负载均衡代理池管理模块:动态代理服务加载与管理,提供负载均衡功能。作为优选方式,爬虫系统的实现流程如下:S1:启动爬虫系统;S2:网页解析插件模块初始化获得初始爬虫站点;S3:爬虫站点放入爬虫调度器模块中;S4:爬虫调度器将站点分配给爬虫线 ...
【技术保护点】
1.一种自定义动态扩展的暗网爬虫系统,其特征在于,包括:网页解析插件模块,对各类网页页面进行解析并将下一级站点链接输入给爬虫调度器;爬虫线程模块,负责执行各类网页爬虫过程;爬虫调度器模块,负责网页解析插件模块与爬虫线程之间的交互;并发模块,并发代理连接站点对网页页面进行下载,并且将网页页面数据输送给爬虫线程;负载均衡代理池管理模块:动态代理服务加载与管理,提供负载均衡功能。
【技术特征摘要】
1.一种自定义动态扩展的暗网爬虫系统,其特征在于,包括:网页解析插件模块,对各类网页页面进行解析并将下一级站点链接输入给爬虫调度器;爬虫线程模块,负责执行各类网页爬虫过程;爬虫调度器模块,负责网页解析插件模块与爬虫线程之间的交互;并发模块,并发代理连接站点对网页页面进行下载,并且将网页页面数据输送给爬虫线程;负载均衡代理池管理模块:动态代理服务加载与管理,提供负载均衡功能。2.根据权利要求1所述的一种自定义动态扩展的暗网爬虫系统,其特征在于,爬虫系统的实现流程如下:S1:启动爬虫系统;S2:网页解析插件模块初始化获得初始爬虫站点;S3:爬虫站点放入爬虫调度器模块中;S4:爬虫调度器将站点分配给爬虫线程模块;S5:爬虫线程模块的各爬虫线程经过并发模块并行对各自站点进行代理...
【专利技术属性】
技术研发人员:徐进,孙恩博,刘义铭,郭宇斌,吕泉池,陈周国,
申请(专利权)人:中国电子科技集团公司第三十研究所,
类型:发明
国别省市:四川,51
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。