一种基于链接分析的聚焦爬虫方法,属于互联网信息检索、搜索引擎等领域,解决现有爬虫抓取准确率不高的问题,包括如下步骤:抓取网页,将网页和目标样本网页的结构进行比较,确定目标网页,从网站入口链接开始,记录爬虫到目标网页的每一条链接路径,建立目标网页链接树;分析目标网页链接树,归纳链接树中目标网页路径上的链接,替换链接树中的链接,形成链接模版树;爬虫使用链接模版树作为导航,抓取与链接模版树相匹配中的网页链接,直到整个抓取循环过程结束,最终抓取完所有目标网页。本发明专利技术的爬虫能够根据链接模版树的导航,在抓取网页的过程中,只抓取有效的链接,从而保证爬虫抓取网页的效率和准确率。
【技术实现步骤摘要】
【专利摘要】,属于互联网信息检索、搜索引擎等领域,解决现有爬虫抓取准确率不高的问题,包括如下步骤:抓取网页,将网页和目标样本网页的结构进行比较,确定目标网页,从网站入口链接开始,记录爬虫到目标网页的每一条链接路径,建立目标网页链接树;分析目标网页链接树,归纳链接树中目标网页路径上的链接,替换链接树中的链接,形成链接模版树;爬虫使用链接模版树作为导航,抓取与链接模版树相匹配中的网页链接,直到整个抓取循环过程结束,最终抓取完所有目标网页。本专利技术的爬虫能够根据链接模版树的导航,在抓取网页的过程中,只抓取有效的链接,从而保证爬虫抓取网页的效率和准确率。【专利说明】
,用于导航爬虫准确地抓取网页,涉及互联网信息检索、搜索引擎等领域,具体涉及基于网页链接分析一建立链接模版树。
技术介绍
海量的Web数据给信息检索(InformationRetrieval)带来了前所未有的挑战,通用搜索引擎技术是Web信息检索的主要解决方案。如Google、百度、Bing等通用搜索引擎,网民已经很方便地通过这些搜索引擎,输入关键字,获取所需要的Web信息。爬虫技术是搜索引擎中不可分割的部分,互联网向人们提供了海量的知识和信息,爬虫技术就是用来从海量Web资源中自动下载Web内容,其基本原理是:实现提供一些入口 URL,也被称为种子链接,然后以这些种子链接为起点,按照广度优先或者深度优先的策略不断地爬取和下载页面。爬虫技术解决了互联网中海量信息如何获取的问题。聚焦爬虫技术与传统爬虫技术的区别就是聚焦爬虫只爬取预先设定的特定领域或者主题的网页。目前聚焦爬虫技术多基于网页内容分析,通过下载网页后,分析网页内容,去除不符合要求的网页,该过程造成了网络带宽和系统处理资源的浪费,分析网页内容时,也浪费大量时间。而目前基于链接的聚焦爬虫,主要判断链接周围文本和主题的相关程度,但是其中包含的信息量较少,因此基于该方法的聚焦爬虫的准确率不高。
技术实现思路
本专利技术针对现有技术的不足之处提供了,用以解决现有聚焦爬虫抓取网页准确率和效率较低的问题。为实现上述目的,本专利技术采用的技术方案为:,其特征在于,包括如下步骤:(I)抓取网页,将网页和目标样本网页的结构进行比较,确定目标网页,从网站入口链接开始,记录爬虫到目标网页的每一条链接路径,建立目标网页链接树;(2)分析目标网页链接树,归纳链接树中目标网页路径上的链接,替换链接树中的链接,形成链接模版树;(3)爬虫使用链接模版树作为导航,抓取与链接模版树相匹配的网页链接,直到整个抓取循环过程结束,最终抓取完所有目标网页。作为优选,步骤(I)中,所述建立目标网页链接树的具体步骤如下:(11)选择一个目标网页作为目标样本网页,用于比较将下载的网页结构;(12)初始化链接树,即将链接树设置为一棵空树;(13)初始化链接队列,将网站的入口链接加入到链接队列尾部;(14)从链接队列头部取出链接,广度优先地抓取网页;(15)将抓取的网页和目标样本网页进行比较,如果结构相同,则将该目标网页的路径添加到链接树中,将目标网页的链接作为叶子节点,否则记录路径;(16)分析抓取的目标网页,提取目标网页中的链接,添加到链接队列尾部;(17)抓取的网页依层数递增,如果没有达到阈值,继续循环地按层次广度优先抓取网页,否则目标网页链接树建立过程结束。作为优选,步骤(15)中,所述抓取的网页和目标样本网页进行比较的步骤如下:(151)将目标样本网页和抓取的网页转换成DOM树(DocumentObjectModel,文档对象化模型),就是将网页解析成HTML标签树——DOM树的结构;(152)使用层次遍历的方法比较两个DOM树的结构是否相同;(153)使用数据结构中的队列作为辅助结构,比较DOM树中每一层的HTML标签,如果标签相同,继续比较,直到遍历结束,返回true,反之,如果对应的标签不一样,则返回false。作为优选,步骤(2)中,所述链接模版树的形成包括以下步骤:(21)将链接树中每一层相似的链接聚合,从相似链接集合中抽取出正则表达式,比较链接之间的相似程度,其中比较链接i和链接j之间的相似程度公式如下:【权利要求】1.,其特征在于,包括如下步骤: (1)抓取网页,将网页和目标样本网页的结构进行比较,确定目标网页,从网站入口链接开始,记录爬虫到目标网页的每一条链接路径,建立目标网页链接树; (2)分析目标网页链接树,归纳链接树中目标网页路径上的链接,替换链接树中的链接,形成链接模版树; (3)爬虫使用链接模版树作为导航,抓取与链接模版树相匹配的网页链接,直到整个抓取循环过程结束,最终抓取完所有目标网页。2.根据权利要求1所述的,其特征在于,步骤(1)中,所述建立目标网页链接树的具体步骤如下: (11)选择一个目标网页作为目标样本网页,用于比较将下载的网页结构; (12)初始化链接树,即将链接树设置为一棵空树; (13)初始化链接队列,将网站的入口链接加入到链接队列尾部; (14)从链接队列头部取出链接,广度优先地抓取网页; (15)将抓取的网页和目标样本网页进行比较,如果结构相同,则将该目标网页的路径添加到链接树中,将目标网页的链接作为叶子节点,否则记录路径; (16)分析抓取的目标网页,提取目标网页中的链接,添加到链接队列尾部; (17)抓取的网页依层数递增,如果没有达到阈值,继续循环地按层次广度优先抓取网页,否则目标网页链接树建立过程结束。3.根据权利要求2所述的,其特征在于,步骤(15)中,所述抓取的网页和目标样本网页进行比较的步骤如下: (151)将目标样本网页和抓取的网页转换成DOM树(DocumentObjectModel,文档对象化模型),就是将网页解析成HTML标签树——DOM树的结构; (152)使用层次遍历的方法比较两个DOM树的结构是否相同; (153)使用数据结构中的队列作为辅助结构,比较DOM树中每一层的HTML标签,如果标签相同,继续比较,直到遍历结束,返回true,反之,如果对应的标签不一样,则返回false。4.根据权利要求1所述的,其特征在于,步骤(2)中,所述链接模版树的形成包括以下步骤: (21)将链接树中每一层相似的链接聚合,从相似链接集合中抽取出正则表达式,比较链接之间的相似程度,其中比较链接i和链接j之间的相似程度公式如下: ,a/..、 pre(i, j) 0 pre(i, j) tail(i, j) ,, taiHi, j) NUSi I, j) = αχ-~x-^-+ βχ-~^^-+vx———— /t"7(/)Ien(J)Ien(J)Ien(J) pre(i, j)表示URLJP URLj相同的前缀字符个数,Ien (i)表示URLi的字符个数,Ien (j)表示URLj的字符个数,tail (i, j)表示URLi和URLj相同的后缀字符个数,α、β、Y和δ是归一化因子,O ( a ^ 1,0 ^ β ^ 1,0 ^ Y ^ 1,0 ^ δ ≤ I且 α+β + Υ + δ =1,使得NUS (i,j)在O到I之间,值越大表示链接相似度越高。 (22)判断链接树中每一层节点的相似度,将每一层相似的链接聚合成一类,对于本文档来自技高网...
【技术保护点】
一种基于链接分析的聚焦爬虫方法,其特征在于,包括如下步骤:(1)抓取网页,将网页和目标样本网页的结构进行比较,确定目标网页,从网站入口链接开始,记录爬虫到目标网页的每一条链接路径,建立目标网页链接树;(2)分析目标网页链接树,归纳链接树中目标网页路径上的链接,替换链接树中的链接,形成链接模版树;(3)爬虫使用链接模版树作为导航,抓取与链接模版树相匹配的网页链接,直到整个抓取循环过程结束,最终抓取完所有目标网页。
【技术特征摘要】
【专利技术属性】
技术研发人员:屈鸿,周安林,张马路,孙明,邵领,
申请(专利权)人:电子科技大学,
类型:发明
国别省市:四川;51
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。