一种基于selenium的爬虫抓取方法及系统技术方案

技术编号：14768204 阅读：109 留言：0更新日期：2017-03-08 12:30

一种基于selenium的爬虫抓取方法,其能够解决数据抓取中遇到难破解的网页/网站,并且抓取效率有所提高,开发者无需关注破解js如何加密,是否丢请求、丢参数,大大减少开发人员的工作时间和出错概率。该方法包括步骤：(1)执行初始url；(2)通过selenium驱动系统浏览器执行url地址；(3)当页面加载完毕后,获取页面进行页面数据解析。还提供了一种基于selenium的爬虫抓取系统。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于网络爬虫的
，具体地涉及一种基于selenium的爬虫抓取方法及系统。
技术介绍
网络爬虫(又被称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者)，是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。一般的爬虫都是直接使用http/https协议，下载指定url的html内容，并对内容进行爬虫抓取分析。例如在java中使用urlconnection，httpclient等。但是现在很多页面是通过js以及ajax动态加载的，这就使得抓取数据变得异常艰难。
技术实现思路
本专利技术的技术解决问题是：克服现有技术的不足，提供一种基于selenium的爬虫抓取方法,其能够解决数据抓取中遇到难破解的网页/网站,并且抓取效率有所提高,开发者无需关注破解js如何加密,是否丢请求、丢参数,大大减少开发人员的工作时间和出错概率。本专利技术的技术解决方案是：这种基于selenium的爬虫抓取方法，该方法包括以下步骤：(1)执行初始url；(2)通过selenium驱动系统浏览器执行url地址；(3)当页面加载完毕后,获取页面进行页面数据解析。本专利技术通过执行初始URL,因为selenium提供一组API可以与真实的浏览器内核交互，通过selenium驱动系统浏览器执行url地址,当页面加载完毕后,获取页面进行页面数据解析,因此能够解决数据抓取中遇到难破解的网页/网站,并且抓取效率有所提高,开发者无需关注破解js如何加密,是否丢请求、丢参数,大大减少开发人员的工作时间和出错概率。还提供了一种基于selenium的爬虫抓取系统，该系统...
一种基于selenium的爬虫抓取方法及系统

【技术保护点】
一种基于selenium的爬虫抓取方法，其特征在于：该方法包括以下步骤：(1)执行初始url；(2)通过selenium驱动系统浏览器执行url地址；(3)当页面加载完毕后,获取页面进行页面数据解析。

【技术特征摘要】
1.一种基于selenium的爬虫抓取方法，其特征在于：该方法包括以下步骤：(1)执行初始url；(2)通过selenium驱动系统浏览器执行url地址；(3)当页面加载完毕后,获取页面进行页面数据解析。2.根据权利要求1所述的基于selenium的爬虫抓取方法，其特征在于：在所述步骤(3)中，还获取系统中返回的cookie信息。3.根据权利要求1所述的基于selenium的爬虫抓取方法，其特征在于：所述步骤(1)中：为设置目标执行地址到selenium服务块，然后selenium通过内部webDriverwire协议调用浏览器原生api操作浏览器执行请求。4.根据权利要求3所述的基于selenium的爬虫抓取方法，其特征在于：所述步骤(2)中：通过selenium服务发送获取页面服务请求到wire协议,然后操作浏览器api获取浏览器加载的原始页面。5.根据权利要求4所述的基于selenium的爬虫抓取方法，其特征在于：所述步骤(3)中：通过wire协议返回到selenium服务中,当selenium服务拿到页面后交给解析模块进行页面解析。6.一种基于seleniu...

【专利技术属性】
技术研发人员：周灏，王雪飞，
申请(专利权)人：北京量科邦信息技术有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人