【技术实现步骤摘要】
本专利技术属于网络网站领域,涉及一种爬虫系统。
技术介绍
在当前的网站中越来越多的网站进行了注册用户浏览和非注册用户留言的区分,这使得爬虫系统的要求也在改变,爬虫系统不单单需要浏览功能,还需要增加识别注册等功能。
技术实现思路
本专利技术的目的是提出了一种结构简单、易推广的爬虫系统。本专利技术的目的可通过下列技术方案来实现:一种爬虫系统,其特征在于:首先预设请求模块、认证模块、下载模块,其中请求模块实现页面发送采集请求;认证模块实现登录认证;下载模块实现页面进行采集;通过浏览器的网络监听工具监听网络数据包,查看用户登录过程发送的POST包;认证模块实现对登陆认证中POST包内容再现,发送到网页;认证模块实现对网站服务器result的记录;请求模块把网络监听的数据包中返回的相关记录值和请求做集成处理;请求模块发送页面的采集请求;下载模块实现页面的采集。在上述一种爬虫系统,所述认证模块包括自动注册和识别验证码。附图说明:图1:本专利技术的结构示意图。具体实施方式以下是本专利技术的具体实施例并结合附图,对本专利技术的技术方案作进一步的描述,但本专利技术并不限于这些实施例。如图1所示:图1中,首先预设请求模块、认证模块、下载模块,其中请求模块实现页面发送采集请求;第一,认证模块实现登录认证;第二,下载模块实现页面进行采集;第三,通过浏览器的网络监听工具监听网络数据包,查看用户登 ...
【技术保护点】
一种爬虫系统,其特征在于:首先预设请求模块、认证模块、下载模块,其中请求模块实现页面发送采集请求;认证模块实现登录认证;下载模块实现页面进行采集;通过浏览器的网络监听工具监听网络数据包,查看用户登录过程发送的POST包;认证模块实现对登陆认证中POST包内容再现,发送到网页;认证模块实现对网站服务器result的记录;请求模块把网络监听的数据包中返回的相关记录值和请求做集成处理;请求模块发送页面的采集请求;下载模块实现页面的采集。
【技术特征摘要】
1.一种爬虫系统,其特征在于:首先预设请求模块、认证模
块、下载模块,其中请求模块实现页面发送采集请求;认证模块实
现登录认证;下载模块实现页面进行采集;通过浏览器的网络监听
工具监听网络数据包,查看用户登录过程发送的POST包;认证模块
实现对登陆认证中POST包内容再现,发...
【专利技术属性】
技术研发人员:侯宇鹏,
申请(专利权)人:宁波市鄞州安业贸易有限公司,
类型:发明
国别省市:浙江;33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。