一种爬虫系统技术方案

技术编号:12015472 阅读:174 留言:0更新日期:2015-09-06 02:04
本发明专利技术提供了一种爬虫系统,其特征在于:首先预设请求模块、认证模块、下载模块,其中请求模块实现页面发送采集请求;认证模块实现登录认证;下载模块实现页面进行采集;通过浏览器的网络监听工具监听网络数据包,查看用户登录过程发送的POST包;认证模块实现对登陆认证中POST包内容再现,发送到网页;认证模块实现对网站服务器result的记录;请求模块把网络监听的数据包中返回的相关记录值和请求做集成处理;请求模块发送页面的采集请求;下载模块实现页面的采集。

【技术实现步骤摘要】
本专利技术属于网络网站领域,涉及一种爬虫系统
技术介绍
在当前的网站中越来越多的网站进行了注册用户浏览和非注册用户留言的区分,这使得爬虫系统的要求也在改变,爬虫系统不单单需要浏览功能,还需要增加识别注册等功能。
技术实现思路
本专利技术的目的是提出了一种结构简单、易推广的爬虫系统。本专利技术的目的可通过下列技术方案来实现:一种爬虫系统,其特征在于:首先预设请求模块、认证模块、下载模块,其中请求模块实现页面发送采集请求;认证模块实现登录认证;下载模块实现页面进行采集;通过浏览器的网络监听工具监听网络数据包,查看用户登录过程发送的POST包;认证模块实现对登陆认证中POST包内容再现,发送到网页;认证模块实现对网站服务器result的记录;请求模块把网络监听的数据包中返回的相关记录值和请求做集成处理;请求模块发送页面的采集请求;下载模块实现页面的采集。在上述一种爬虫系统,所述认证模块包括自动注册和识别验证码。附图说明:图1:本专利技术的结构示意图。具体实施方式以下是本专利技术的具体实施例并结合附图,对本专利技术的技术方案作进一步的描述,但本专利技术并不限于这些实施例。如图1所示:图1中,首先预设请求模块、认证模块、下载模块,其中请求模块实现页面发送采集请求;第一,认证模块实现登录认证;第二,下载模块实现页面进行采集;第三,通过浏览器的网络监听工具监听网络数据包,查看用户登录过程发送的POST包;第四,认证模块实现对登陆认证中POST包内容再现,发送到网页;第五,认证模块实现对网站服务器result的记录;第六,请求模块把网络监听的数据包中返回的相关记录值和请求做集成处理;第七,请求模块发送页面的采集请求;第八,下载模块实现页面的采集。认证模块包括自动注册和识别验证码。本文中所描述的具体实施例仅仅是对本专利技术精神作举例说明。本专利技术所属
的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本专利技术的精神或者超越所附权利要求书所定义的范围。本文档来自技高网
...

【技术保护点】
一种爬虫系统,其特征在于:首先预设请求模块、认证模块、下载模块,其中请求模块实现页面发送采集请求;认证模块实现登录认证;下载模块实现页面进行采集;通过浏览器的网络监听工具监听网络数据包,查看用户登录过程发送的POST包;认证模块实现对登陆认证中POST包内容再现,发送到网页;认证模块实现对网站服务器result的记录;请求模块把网络监听的数据包中返回的相关记录值和请求做集成处理;请求模块发送页面的采集请求;下载模块实现页面的采集。

【技术特征摘要】
1.一种爬虫系统,其特征在于:首先预设请求模块、认证模
块、下载模块,其中请求模块实现页面发送采集请求;认证模块实
现登录认证;下载模块实现页面进行采集;通过浏览器的网络监听
工具监听网络数据包,查看用户登录过程发送的POST包;认证模块
实现对登陆认证中POST包内容再现,发...

【专利技术属性】
技术研发人员:侯宇鹏
申请(专利权)人:宁波市鄞州安业贸易有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1