【技术实现步骤摘要】
本专利技术属于网络爬虫的
,具体地涉及一种基于selenium的爬虫抓取方法及系统。
技术介绍
网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。一般的爬虫都是直接使用http/https协议,下载指定url的html内容,并对内容进行爬虫抓取分析。例如在java中使用urlconnection,httpclient等。但是现在很多页面是通过js以及ajax动态加载的,这就使得抓取数据变得异常艰难。
技术实现思路
本专利技术的技术解决问题是:克服现有技术的不足,提供一种基于selenium的爬虫抓取方法,其能够解决数据抓取中遇到难破解的网页/网站,并且抓取效率有所提高,开发者无需关注破解js如何加密,是否丢请求、丢参数,大大减少开发人员的工作时间和出错概率。本专利技术的技术解决方案是:这种基于selenium的爬虫抓取方法,该方法包括以下步骤:(1)执行初始url;(2)通过selenium驱动系统浏览器执行url地址;(3)当页面加载完毕后,获取页面进行页面数据解析。本专利技术通过执行初始URL,因为selenium提供一组API可以与真实的浏览器内核交互,通过selenium驱动系统浏览器执行url地址,当页面加载完毕后,获取页面进行页面数据解析,因此能够解决数据抓取中遇到难破解的网页/网站,并且抓取效率有所提高,开发者无需关注破解js如何加密,是否丢请求、丢参数,大大减少开发人员的工作时间和出错概率。还提供了一种基于selenium的爬虫抓取系统,该系统 ...
【技术保护点】
一种基于selenium的爬虫抓取方法,其特征在于:该方法包括以下步骤:(1)执行初始url;(2)通过selenium驱动系统浏览器执行url地址;(3)当页面加载完毕后,获取页面进行页面数据解析。
【技术特征摘要】
1.一种基于selenium的爬虫抓取方法,其特征在于:该方法包括以下步骤:(1)执行初始url;(2)通过selenium驱动系统浏览器执行url地址;(3)当页面加载完毕后,获取页面进行页面数据解析。2.根据权利要求1所述的基于selenium的爬虫抓取方法,其特征在于:在所述步骤(3)中,还获取系统中返回的cookie信息。3.根据权利要求1所述的基于selenium的爬虫抓取方法,其特征在于:所述步骤(1)中:为设置目标执行地址到selenium服务块,然后selenium通过内部webDriverwire协议调用浏览器原生api操作浏览器执行请求。4.根据权利要求3所述的基于selenium的爬虫抓取方法,其特征在于:所述步骤(2)中:通过selenium服务发送获取页面服务请求到wire协议,然后操作浏览器api获取浏览器加载的原始页面。5.根据权利要求4所述的基于selenium的爬虫抓取方法,其特征在于:所述步骤(3)中:通过wire协议返回到selenium服务中,当selenium服务拿到页面后交给解析模块进行页面解析。6.一种基于seleniu...
【专利技术属性】
技术研发人员:周灏,王雪飞,
申请(专利权)人:北京量科邦信息技术有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。