分布式爬虫的集中管理系统技术方案

技术编号：27501027 阅读：24 留言：0更新日期：2021-03-02 18:25

本发明专利技术实施例公开了一种分布式爬虫的集中管理系统，其中,该分布式爬虫的集中管理系统包括主机服务器和与该主机服务器通信的多台从机服务器，上述主机服务器和从机服务器使用Scrapy框架进行布局，且所述scrapy框架使用redis队列进行URL的管理。本发明专利技术通过采用分布式爬虫来进行数据爬取并对分布式爬虫通过管理平台进行管理，不仅实现了对爬虫任务的集中管理，还节省了人力资源，完善了对爬虫任务的管理。管理。管理。

全部详细技术资料下载

【技术实现步骤摘要】
分布式爬虫的集中管理系统

[0001]本专利技术涉及互联网
，尤其涉及一种分布式爬虫的集中管理系统。

技术介绍

[0002]随着现代科技的飞速发展，信息化、数字化时代的展开，互联网俨然成为了当今社会信息的最大载体。为了能够在浩瀚的信息海洋中精确地查找出用户所需要的信息，搜索引擎技术应运而生，而作为这一技术的重要组成部分——网络爬虫，它直接影响了搜索引擎的质量、大数据分析的准确性、模型培养的完善等相关需要数据基础的工作的完成效果。因此保证爬虫的高效性、准确性、速度以及如何管理多个爬虫任务等方面是目前爬虫的技术要点。
[0003]目前，爬虫任务的数量较多，如果通过人工进行管理，不仅会浪费大量的人力资源，而且无法做到集中精准，因此目前对爬虫任务的管理还需完善。

技术实现思路

[0004]基于此，有必要针对上述问题，提出了一种分布式爬虫的集中管理系统，用于实现对分布式爬虫任务的集中管理。
[0005]在第一方面，本专利技术实施例提供一种分布式爬虫的集中管理系统，所述集中管理系统包括主机服务器和与所述主机服务器通信的多台从机服务器，所述主机服务器和所述从机服务器使用Scrapy框架进行布局，且所述scrapy框架使用redis 队列进行统一资源定位符URL的管理；
[0006]其中，所述scrapy框架包含引擎、调度器、下载器、爬虫、管道以及中间件；
[0007]所述redis队列、所述调度器、所述引擎及所述管道布局在所述主机服务器，所述下载器、所述爬虫及所述中间件布局在所...

【技术保护点】

【技术特征摘要】
1.一种分布式爬虫的集中管理系统，其特征在于，所述集中管理系统包括主机服务器和与所述主机服务器通信的多台从机服务器，所述主机服务器和所述从机服务器使用Scrapy框架进行布局，且所述scrapy框架使用redis队列进行统一资源定位符URL的管理；其中，所述scrapy框架包含引擎、调度器、下载器、爬虫、管道以及中间件；所述redis队列、所述调度器、所述引擎及所述管道布局在所述主机服务器，所述下载器、所述爬虫及所述中间件布局在所述从机服务器上；所述从机服务器用于向所述主机服务器发送request；所述主机服务器用于基于所述request分配对应的URL，并向所述从机服务器反馈包含所述URL的request；所述从机服务器还用于根据所述包含URL的request进行解析及数据提取，并将提取的数据存储到预设的数据库中。2.根据权利要求1所述一种分布式爬虫的集中管理系统，其特征在于，所述Scrapy框架与Django对接。3.根据权利要求1所述一种分布式爬虫的集中管理系统，其特征在于，所述主机服务器中设置有爬虫，所述主机服务器调用所述爬虫从网络获取URL，并进行去重处理，将去重之后的URL按照优先级添加至所述redis队列。4.根据权利要求1所述一种分布式爬虫的集中管理系统，其特征在于，所述从机服务器还用于根据所述包含URL的request进行解析及数据提取，并将提取的数据存储到预设的数据库中，包括：所述从机服务器具体用于从所述包含URL的request中提取URL，并由所述下载器下载所述URL对应的页面，通过所述爬虫...

【专利技术属性】
技术研发人员：钟通，罗平，
申请(专利权)人：深圳市宝视佳科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人