基于浏览器内核的网页爬取方法、装置及包含该装置的浏览器制造方法及图纸

技术编号：9667918 阅读：172 留言：0更新日期：2014-02-14 06:21

本申请提供了一种基于浏览器内核的网页爬取方法、网页爬取装置及包含该装置的浏览器。所述方法包括：从用户获取初始URL；利用浏览器内核从Web服务器获取所述初始URL所对应网页的源代码文件；基于所述源代码文件生成相应的DOM树；遍历所述DOM树以获取所述网页中包含的静态URL和动态URL；以及将所述静态URL和动态URL加入待爬URL队列中。本申请的网页爬取方法能够支持各种网页标准，兼容各种不规范的网页；通过事件触发和HOOK手段能够更多、更准确的爬取URL。

全部详细技术资料下载

【技术实现步骤摘要】
基于浏览器内核的网页爬取方法、装置及包含该装置的浏 Il^r OS.SaL 口口
本申请涉及信息检索领域，尤其涉及基于浏览器内核的网页爬取方法、网页爬取装置及包含该网页爬取装置的浏览器。
技术介绍
互联网(World Wide Web,简称Web)就是处在世界各地的计算机互相连接而成的一个计算机网络。网站的浏览者(用户)坐在家中查看各种网站上的内容，实际上就是从远程的计算机中读取了一些内容，然后在本地计算机上显示出来的过程。因此，提供内容信息的计算机就称为“Web服务器”，用户使用“浏览器”，例如集成在Windows操作系统中的Internet Explorer,就可以通过网络取得Web服务器上的文件以及其他信息。浏览器一般由两部分组成:用户界面和内核，其中，用户界面主要用于与用户进行交互，例如等，内核作为浏览器的核心，主要负责取得网页的内容(HTML、XML、图像等)、整理讯息(例如加入CSS等),计算网页的显示方式,解析Javascript语言,执行Javascript语言代码来实现网页的动态效果等。当用户的计算机联入互联网后，用户打开浏览器并在地址栏中输入某个网站的地址，即URL (Uniform Resource Locator,统一资源定位符),浏览器内核就会按照预定的通信协议，例如HTTP协议，向Web服务器发送请求，该请求中携带有用户提供的URL，Web服务器响应于浏览器内核的请求，将与所述URL对应的信息传送到浏览器内核，浏览器再将该信息呈现给用户。如何通过浏览器有效地从Web服务器获取所需的网页成为一个巨大的挑战。目前浏览器主要...

【技术保护点】
一种基于浏览器内核的网页爬取方法，包括：从用户获取初始URL；利用浏览器内核从Web服务器获取所述初始URL所对应网页的源代码文件；基于所述源代码文件生成相应的DOM树；遍历所述DOM树以获取所述网页中包含的静态URL和动态URL；以及将所述静态URL和动态URL加入待爬URL队列中。

【技术特征摘要】
1.一种基于浏览器内核的网页爬取方法，包括: 从用户获取初始URL ；利用浏览器内核从Web服务器获取所述初始URL所对应网页的源代码文件；基于所述源代码文件生成相应的DOM树；遍历所述DOM树以获取所述网页中包含的静态URL和动态URL ；以及将所述静态URL和动态URL加入待爬URL队列中。2.如权利要求1所述的方法，其中，遍历所述DOM树以获取所述网页中包含的静态URL和动态URL的步骤包括:从所述DOM树上的标签的属性获取所述静态URL ;以及通过触发所述DOM树上的标签的事件并执行与所述事件绑定的事件处理代码，从而以HOOK方式截获作为执行所述事件处理代码的结果所访问的网页的动态URL。3.如权利要求2所述的方法，进一步包括: 在利用浏览器内核从Web服务器获取所述初始URL所对应网页的源代码文件之前，调用浏览器内核向Web服务器发出访问所述初始URL所对应网页的请求，其中所述请求中包含所述初始URL。4.如权利要求3所述的方法，进一步包括: 以HOOK方式拦截所述请求以从中分离出所述初始URL，并将所述初始URL加入到待爬URL队列中。5.如权利要求1至4中·任一项所述的方法，进一步包括: 从Web服务器获取到所述初始URL所对应网页的源代码文件后利用浏览器内核对该源代码文件进行解析，并且以HOOK方式获取对所述源代码文件进行解析的过程中所述浏览器内核主动访问的URL。6.一种网页爬取装置，包括: 接口单元，从用户获取初始URL ；浏览器内核，响应于所述接口单元的调用，从We...

【专利技术属性】
技术研发人员：付俊，张峰，杨光华，
申请(专利权)人：中国移动通信集团公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人