一种网络爬虫自动化获取网页信息方法、装置及系统制造方法及图纸

技术编号：24251645 阅读：19 留言：0更新日期：2020-05-22 23:37

本发明专利技术实施例公开了一种网络爬虫自动化获取网页信息方法、装置及系统，通过预先配置的网络爬虫自动启动浏览器并进入目标网页登录页面；在所述目标网页登录页面通过模拟键盘输入账号和密码完成模拟登录；获取目标网页服务器返回的cookie信息并保存；向所述目标网页服务器发送携带有所述cookie信息的访问请求访问目标网页并爬取网页信息。通过网络爬虫模拟真实登录过程，实现真实的账号和密码输入，获取cookie信息完成网页爬取，即便需要进行登录验证，登录安全控件升级以及网页参数的改变都不影响网页爬取的正常使用，减少客户端系统程序升级，最大程度减少不可控风险。

A method, device and system for automatically obtaining web page information by web crawler

全部详细技术资料下载

【技术实现步骤摘要】
一种网络爬虫自动化获取网页信息方法、装置及系统
本专利技术实施例涉及计算机
，具体涉及一种网络爬虫自动化获取网页信息方法、装置及系统。
技术介绍
网页爬虫，又称网络蜘蛛或网络机器人，是一种按照一定规则自动抓取万维网信息的程序或脚本，对于网页爬虫来说，其核心目的就是快速、准确地抓取源网页的各类信息。传统爬虫从一个或若干初始网页的URL开始，获得初始网页上的URL，在抓取网页的过程中，不断从当前页面上抽取新的URL放入队列，直到满足系统的一定停止条件。聚焦爬虫的工作流程较为复杂，需要根据一定的网页分析算法过滤与主题无关的链接，保留有用的链接并将其放入等待抓取的URL队列，然后根据一定的搜索策略从队列中选择下一步要抓取的网页URL，并重复上述过程，直到达到系统的某一条件时停止。现在很多网站都需要先进行账号登录才能爬取，传统的网页爬取方法存在以下缺陷：如果网站新增登录安全控件进行反爬虫，加密控件可以对用户输入密码进行加密，安全控件难以破解，将导致无法获取网页信息；如果目标网页参数名发生变化，将导致信息获取失败或者错误；以上缺陷将导致客户端系统信息查询失败，需要程序升级，不可控因素将影响系统正常运行。
技术实现思路
为此，本专利技术实施例提供一种网络爬虫自动化获取网页信息方法、装置及系统，以解决现有的网页爬取方法由于登录安全控件的存在或者网页参数的改变等导致信息获取失败的问题。为了实现上述目的，本专利技术实施例提供如下技术方案：根据本专利技术实施例的第一方面，提出了一种网络爬虫...

【技术保护点】
1.一种网络爬虫自动化获取网页信息方法，其特征在于，所述方法包括：/n通过预先配置的网络爬虫自动启动浏览器并进入目标网页登录页面；/n在所述目标网页登录页面通过模拟键盘输入账号和密码完成模拟登录；/n获取目标网页服务器返回的cookie信息并保存；/n向所述目标网页服务器发送携带有所述cookie信息的访问请求访问目标网页并爬取网页信息。/n

【技术特征摘要】
1.一种网络爬虫自动化获取网页信息方法，其特征在于，所述方法包括：
通过预先配置的网络爬虫自动启动浏览器并进入目标网页登录页面；
在所述目标网页登录页面通过模拟键盘输入账号和密码完成模拟登录；
获取目标网页服务器返回的cookie信息并保存；
向所述目标网页服务器发送携带有所述cookie信息的访问请求访问目标网页并爬取网页信息。

2.根据权利要求1所述的一种网络爬虫自动化获取网页信息方法，其特征在于，通过预先配置的网络爬虫自动启动浏览器并进入目标网页登录页面之前，所述方法还包括：
通过定时器设置定时python网络爬虫。

3.根据权利要求1所述的一种网络爬虫自动化获取网页信息方法，其特征在于，通过预先配置的网络爬虫自动启动浏览器并进入目标网页登录页面，具体包括：
所述网络爬虫通过调用Selenium自动化测试工具对所述浏览器进行操作。

4.根据权利要求1所述的一种网络爬虫自动化获取网页信息方法，其特征在于，在所述目标网页登录页面通过模拟键盘输入账号和密码完成模拟登录，具体包括：
所述网络爬虫通过调用winIO函数库，生成键盘电信号，触发键盘按键事件，进行账号和密码的模拟输入。

5.根据权利要求1所述的一种网络爬虫自动化获取网页信息方法，其特征在于，获取目标网页服务器返回的cookie信息并保存，具体包括：
所述网络爬虫通过使用BrowserMobProxy代理服务器抓取所述浏览器的http数据包，并提取所述co...

【专利技术属性】
技术研发人员：杨艺祥，吴文青，唐禹，陈胜路，
申请(专利权)人：天阳宏业科技股份有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人