一种基于链接分析的聚焦爬虫方法技术

技术编号：10314306 阅读：153 留言：0更新日期：2014-08-13 16:26

一种基于链接分析的聚焦爬虫方法，属于互联网信息检索、搜索引擎等领域，解决现有爬虫抓取准确率不高的问题，包括如下步骤：抓取网页，将网页和目标样本网页的结构进行比较，确定目标网页，从网站入口链接开始，记录爬虫到目标网页的每一条链接路径，建立目标网页链接树；分析目标网页链接树，归纳链接树中目标网页路径上的链接，替换链接树中的链接，形成链接模版树；爬虫使用链接模版树作为导航，抓取与链接模版树相匹配中的网页链接，直到整个抓取循环过程结束，最终抓取完所有目标网页。本发明专利技术的爬虫能够根据链接模版树的导航，在抓取网页的过程中，只抓取有效的链接，从而保证爬虫抓取网页的效率和准确率。

全部详细技术资料下载

【技术实现步骤摘要】
【专利摘要】，属于互联网信息检索、搜索引擎等领域，解决现有爬虫抓取准确率不高的问题，包括如下步骤：抓取网页，将网页和目标样本网页的结构进行比较，确定目标网页，从网站入口链接开始，记录爬虫到目标网页的每一条链接路径，建立目标网页链接树；分析目标网页链接树，归纳链接树中目标网页路径上的链接，替换链接树中的链接，形成链接模版树；爬虫使用链接模版树作为导航，抓取与链接模版树相匹配中的网页链接，直到整个抓取循环过程结束，最终抓取完所有目标网页。本专利技术的爬虫能够根据链接模版树的导航，在抓取网页的过程中，只抓取有效的链接，从而保证爬虫抓取网页的效率和准确率。【专利说明】
，用于导航爬虫准确地抓取网页，涉及互联网信息检索、搜索引擎等领域，具体涉及基于网页链接分析一建立链接模版树。
技术介绍
海量的Web数据给信息检索(InformationRetrieval)带来了前所未有的挑战,通用搜索引擎技术是Web信息检索的主要解决方案。如Google、百度、Bing等通用搜索引擎，网民已经很方便地通过这些搜索引擎，输入关键字，获取所需要的Web信息。爬虫技术是搜索引擎中不可分割的部分，互联网向人们提供了海量的知识和信息，爬虫技术就是用来从海量Web资源中自动下载Web内容，其基本原理是:实现提供一些入口 URL，也被称为种子链接，然后以这些种子链接为起点，按照广度优先或者深度优先的策略不断地爬取和下载页面。爬虫技术解决了互联网中海量信息如何获取的问题。聚焦爬虫技术与传统爬虫技术的区别就是聚焦爬虫只爬取预先设定的特定领域或者主题的网页。目前聚焦爬虫技术多基于网页内容分析...

【技术保护点】
一种基于链接分析的聚焦爬虫方法，其特征在于，包括如下步骤：(1)抓取网页，将网页和目标样本网页的结构进行比较，确定目标网页，从网站入口链接开始，记录爬虫到目标网页的每一条链接路径，建立目标网页链接树；(2)分析目标网页链接树，归纳链接树中目标网页路径上的链接，替换链接树中的链接，形成链接模版树；(3)爬虫使用链接模版树作为导航，抓取与链接模版树相匹配的网页链接，直到整个抓取循环过程结束，最终抓取完所有目标网页。

【技术特征摘要】

【专利技术属性】
技术研发人员：屈鸿，周安林，张马路，孙明，邵领，
申请(专利权)人：电子科技大学，
类型：发明
国别省市：四川;51

全部详细技术资料下载我是这个专利的主人