搜索引擎爬虫抓取网页的方法及装置制造方法及图纸

技术编号:10506745 阅读:186 留言:1更新日期:2014-10-08 10:59
本发明专利技术公开了一种搜索引擎爬虫抓取网页的方法,其包括:获取搜索引擎爬虫多个目标网页的网址信息以及网址信息对应的链接锚文本;根据链接锚文本识别每个目标网页是否为原创网页;对于识别出的原创网页,计算原创网页的网页内容被转载的次数;基于原创网页被转载的次数确定各个目标网页的抓取优先级;根据确定的抓取优先级将各个目标网页插入到待抓取网页列表进行网页抓取。该方法根据获取的链接锚文本将目标网页进行了区分,分为原创网页和转载网页,避免了搜索引擎爬虫每天能够实际抓取的URL有限时,搜索引擎爬虫重复抓取转载网页的问题;通过确定目标网页的抓取优先级提升了搜索引擎抓取流量的利用效率,及时收录了用户的原创内容。

【技术实现步骤摘要】
搜索引擎爬虫抓取网页的方法及装置
本专利技术涉及互联网
,具体涉及一种搜索引擎爬虫抓取网页的方法及装置。
技术介绍
搜索引擎的爬虫程序每天能够发现大量的互联网中新产生的URL(统一资源定位符),但是搜索引擎每天能够实际抓取的URL量是有限的,这就需要在爬虫实际发起抓取之前对已经发现的URL做一个排序,优先抓取质量较高的URL。但是,新发现的URL能够获取到的信息是很少的,在有限的信息基础上预测URL对应的网页是否是一个高质量的网页是一件难度较大的工作。现有的对新发现的URL排序主要根据已抓取的网页来反馈,比如如果已抓取网页的质量较高,那么认为与已抓取的URL具有相同模式的新发现的URL的质量也是较高的。这种方案的缺点是存在富集的现象,即对应相同模式的URL量可能是巨大的。这时根据已抓取URL来进行反馈的实际效果并不好。之所以存在这种问题是因为这种方案没有考虑每个URL各自单独的特征,虽然这些URL具有相同的模式,其实质量是千差万别的,只能是说这个模式总体上是好的,但是还是存在垃圾、重复的网页,即使质量都是较高的网页,在流量有限的情况下还是需要进行区分的。
技术实现思路
鉴于上述问题,提出了本专利技术以便提供一种克服上述问题或者至少部分地解决上述问题的搜索引擎爬虫抓取网页的方法和相应的搜索引擎爬虫抓取网页的装置。根据本专利技术的一个方面,提供了一种搜索引擎爬虫抓取网页的方法,其包括:获取搜索引擎爬虫多个目标网页的网址信息以及所述网址信息对应的链接锚文本;根据所述链接锚文本识别每个目标网页是否为原创网页;对于识别出的原创网页,计算所述原创网页的网页内容被转载的次数;基于原创网页被转载的次数确定各个目标网页的抓取优先级;根据确定的抓取优先级将各个目标网页插入到待抓取网页列表进行网页抓取。可选地,所述获取搜索引擎爬虫多个目标网页的网址信息以及所述网址信息对应的链接锚文本进一步包括:在目标网页的来源页中获取超链接网址信息作为目标网页的网址信息;以及,在目标网页的来源页中获取超链接网址信息对应的链接锚文本作为目标网页的网址信息对应的链接锚文本。可选地,根据所述链接锚文本识别每个目标网页是否为原创网页进一步包括:判断所述链接锚文本是否包含转载关键字;若所述链接锚文本不包含所述转载关键字,则识别所述目标网页为原创网页;所述方法进一步包括:若所述链接锚文本包含所述转载关键字,则识别所述目标网页为转载网页。可选地,该方法还包括:确定各个目标网页的来源页的其它内链网页的抓取优先级,以及根据确定的抓取优先级将各个目标网页的来源页的其它内链网页插入到待抓取网页列表进行网页抓取;其中,原创网页的来源页的其它内链网页的抓取优先级是根据原创网页被转载的次数确定的。可选地,所述原创网页被转载的次数越高,该原创网页以及该原创网页的来源页的其它内链网页的抓取优先级越高。可选地,所述原创网页以及原创网页的来源页的其它内链网页的抓取优先级高于所述转载网页以及转载网页的来源页的其它内链网页的抓取优先级。可选地,所述对于识别出的原创网页,计算所述原创网页的网页内容被转载的次数进一步包括:根据所述原创网页的链接锚文本,查找与所述原创网页的链接锚文本匹配的转载网页,根据查找出的转载网页的个数确定所述原创网页的网页内容被转载的次数。可选地,所述根据所述原创网页的链接锚文本,查找与所述原创网页的链接锚文本匹配的转载网页进一步包括:根据所述原创网页的链接锚文本从存储有所有网页的数据库中查找与所述原创网页的链接锚文本匹配的转载网页。可选地,该方法还包括,根据网址信息对应的链接锚文本确定具有同类特征的目标网页集合;所述根据所述原创网页的链接锚文本,查找与所述原创网页的链接锚文本匹配的转载网页进一步包括:根据所述原创网页的链接锚文本从所述目标网页集合中查找与所述原创网页的链接锚文本匹配的转载网页。根据本专利技术的另一方面,提供了一种搜索引擎爬虫抓取网页的装置,其包括:获取模块,适于获取搜索引擎爬虫多个目标网页的网址信息以及所述网址信息对应的链接锚文本;识别模块,适于根据所述链接锚文本识别每个目标网页是否为原创网页;计算模块,适于对于识别出的原创网页,计算所述原创网页的网页内容被转载的次数;优先级确定模块,适于确定各个目标网页的抓取优先级,其中,所述原创网页的抓取优先级是根据原创网页被转载的次数确定的;抓取模块,适于根据确定的抓取优先级将各个目标网页插入到待抓取网页列表进行网页抓取。可选地,所述获取模块进一步适于:在目标网页的来源页中获取超链接网址信息作为目标网页的网址信息;以及,在目标网页的来源页中获取超链接网址信息对应的链接锚文本作为目标网页的网址信息对应的链接锚文本。可选地,所述识别模块进一步包括:判断单元,适于判断所述链接锚文本是否包含转载关键字;识别单元,适于在判断所述链接锚文本不包含所述转载关键字时,将所述目标网页识别为原创网页;识别单元进一步适于:在判断所述链接锚文本包含所述转载关键字时,将所述目标网页识别为转载网页。可选地,优先级确定模块进一步适于:确定各个目标网页的来源页的其它内链网页的抓取优先级;所述抓取模块还适于:根据确定的抓取优先级将各个目标网页的来源页的其它内链网页插入到待抓取网页列表进行网页抓取;其中,原创网页的来源页的其它内链网页的抓取优先级是根据原创网页被转载的次数确定的。可选地,所述原创网页被转载的次数越高,该原创网页以及该原创网页的来源页的其它内链网页的抓取优先级越高。可选地,所述原创网页以及原创网页的来源页的其它内链网页的抓取优先级高于所述转载网页以及转载网页的来源页的其它内链网页的抓取优先级。可选地,所述计算模块进一步包括:查找单元,适于根据所述原创网页的链接锚文本,查找与所述原创网页的链接锚文本匹配的转载网页;计算单元,适于根据查找出的转载网页的个数确定所述原创网页的网页内容被转载的次数。可选地,该装置还包括:数据库,适于存储所有网页;查找单元进一步适于:根据所述原创网页的链接锚文本从存储有所有网页的数据库中查找与所述原创网页的链接锚文本匹配的转载网页。可选地,该装置还包括:目标网页集合确定模块,适于根据网址信息对应的链接锚文本确定具有同类特征的目标网页集合;所述查找单元进一步适于:根据所述原创网页的链接锚文本从所述目标网页集合中查找与所述原创网页的链接锚文本匹配的转载网页。根据本专利技术提供的方案,获取搜索引擎爬虫多个目标网页的网址信息以及网址信息对应的链接锚文本;根据链接锚文本识别每个目标网页是否为原创网页;对于识别出的原创网页,计算原创网页的网页内容被转载的次数;基于原创网页被转载的次数确定各个目标网页的抓取优先级;根据确定的抓取优先级将各个目标网页插入到待抓取网页列表进行网页抓取。该方法根据获取的链接锚文本将目标网页进行了区分,分为原创网页和转载网页,避免了搜索引擎爬虫每天能够实际抓取的URL有限时,搜索引擎爬虫重复抓取转载网页的问题;通过确定目标网页的抓取优先级提升了搜索引擎抓取流量的利用效率,及时收录了用户的原创内容。上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,而可依照说明书的内容予以实施,并且为了让本专利技术的上述和其它目的、特征和优点能够更明显易懂,以下特举本专利技术的具体实施方式。附图说明通本文档来自技高网...
搜索引擎爬虫抓取网页的方法及装置

【技术保护点】
一种搜索引擎爬虫抓取网页的方法,其包括:获取搜索引擎爬虫多个目标网页的网址信息以及所述网址信息对应的链接锚文本;根据所述链接锚文本识别每个目标网页是否为原创网页;对于识别出的原创网页,计算所述原创网页的网页内容被转载的次数;基于原创网页被转载的次数确定各个目标网页的抓取优先级;根据确定的抓取优先级将各个目标网页插入到待抓取网页列表进行网页抓取。

【技术特征摘要】
1.一种搜索引擎爬虫抓取网页的方法,其包括:获取搜索引擎爬虫多个目标网页的网址信息以及所述网址信息对应的链接锚文本;根据所述链接锚文本识别每个目标网页是否为原创网页;对于识别出的原创网页,计算所述原创网页的网页内容被转载的次数;基于原创网页被转载的次数确定各个目标网页的抓取优先级,其中,所述原创网页的抓取优先级是根据原创网页被转载的次数确定的,原创网页被转载的次数越高,该原创网页的抓取优先级越高;根据确定的抓取优先级将各个目标网页插入到待抓取网页列表进行网页抓取;其中,所述对于识别出的原创网页,计算所述原创网页的网页内容被转载的次数进一步包括:根据所述原创网页的链接锚文本,查找与所述原创网页的链接锚文本匹配的转载网页,根据查找出的转载网页的个数确定所述原创网页的网页内容被转载的次数。2.根据权利要求1所述的方法,其中,所述获取搜索引擎爬虫多个目标网页的网址信息以及所述网址信息对应的链接锚文本进一步包括:在目标网页的来源页中获取超链接网址信息作为目标网页的网址信息;以及,在目标网页的来源页中获取超链接网址信息对应的链接锚文本作为目标网页的网址信息对应的链接锚文本。3.根据权利要求1或2所述的方法,其中,根据所述链接锚文本识别每个目标网页是否为原创网页进一步包括:判断所述链接锚文本是否包含转载关键字;若所述链接锚文本不包含所述转载关键字,则识别所述目标网页为原创网页;所述方法进一步包括:若所述链接锚文本包含所述转载关键字,则识别所述目标网页为转载网页。4.根据权利要求3所述的方法,其中,还包括:确定各个目标网页的来源页的其它内链网页的抓取优先级,以及根据确定的抓取优先级将各个目标网页的来源页的其它内链网页插入到待抓取网页列表进行网页抓取;其中,原创网页的来源页的其它内链网页的抓取优先级是根据原创网页被转载的次数确定的。5.根据权利要求4所述的方法,其中,所述原创网页被转载的次数越高,该原创网页以及该原创网页的来源页的其它内链网页的抓取优先级越高。6.根据权利要求4所述的方法,其中,所述原创网页以及原创网页的来源页的其它内链网页的抓取优先级高于所述转载网页以及转载网页的来源页的其它内链网页的抓取优先级。7.根据权利要求1所述的方法,所述根据所述原创网页的链接锚文本,查找与所述原创网页的链接锚文本匹配的转载网页进一步包括:根据所述原创网页的链接锚文本从存储有所有网页的数据库中查找与所述原创网页的链接锚文本匹配的转载网页。8.根据权利要求1所述的方法,其中,还包括,根据网址信息对应的链接锚文本确定具有同类特征的目标网页集合;所述根据所述原创网页的链接锚文本,查找与所述原创网页的链接锚文本匹配的转载网页进一步包括:根据所述原创网页的链接锚文本从所述目标网页集合中查找与所...

【专利技术属性】
技术研发人员:王智广
申请(专利权)人:北京奇虎科技有限公司奇智软件北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有1条评论
  • 来自[北京市电信通] 2015年01月13日 22:59
    网络爬虫是一种自动获取网页内容的程序,是搜索引擎的重要组成部分。
    0
1