本实用新型专利技术适用于网络技术领域,提供了一种搜索引擎抓取服务器,所述服务器包括:链接存储器;连接所述链接存储器的数据分析器;连接所述数据分析器的调度器;连接所述调度器的下载器;连接所述下载器的网页存储器。在本实用新型专利技术中,通过数据分析器对已经抓取过的链接的相关信息进行分析,确定不同主域、子域和目录的抓取权重,以提高数据分析精度,增加搜索结果的准确性。(*该技术在2021年保护过期,可自由使用*)
【技术实现步骤摘要】
本技术属于网络
,尤其涉及一种搜索引擎抓取服务器。
技术介绍
随着互联网技术的迅速发展,各类网站的数量急剧增长,且站点内容更新频繁,因此也导致了各网站站点及其下各子域及页面的质量参差不齐。面对当前海量的互联网数据,现有的搜索引擎抓取服务器只是按照各站点的子域权重来进行调度,对于同一子域内的页面好坏却不加以区分,影响了数据分析的精度,降低了搜索结果的准确性。同时,各种页面的内容只有在下载后才能获取,因此只有通过抓取才能进行质量判别,造成了服务器资源的严重浪费,加之目前页面作弊现象普遍,对现有的搜索引擎抓取服务器提出了更高的要求。
技术实现思路
本技术实施例的目的在于提供一种搜索引擎抓取服务器,旨在解决现有搜索弓I擎抓取服务器无法细分子域权重的问题。本技术实施例是这样实现的,一种搜索引擎抓取服务器,所述服务器包括链接存储器;连接所述链接存储器的数据分析器;连接所述数据分析器的调度器;连接所述调度器的下载器;连接所述下载器的网页存储器。本技术实施例通过数据分析器对已经抓取过的链接按照主域、子域和目录三个级别进行抓取权重细分,提高了数据分析精度,增加了搜索结果的准确性,并通过上述抓取权重对未下载页面的质量进行预测,确定是否继续抓取相关链接,由此避免了搜索服务器的无谓资源消耗。附图说明图1是本技术实施例提供的搜索引擎抓取服务器的结构图。具体实施方式为了使本技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本技术,并不用于限定本技术。在本技术实施例中,通过数据分析器对已经抓取过的链接的相关信息进行分析,确定不同主域、子域和目录的抓取权重,以提高数据分析精度,增加搜索结果的准确性。3图1示出了本技术实施例提供的搜索引擎抓取服务器的结构,为了便于说明,仅示出了与本实施例相关的部分。参照图1,该搜索引擎抓取服务器包括链接存储器11;连接所述链接存储器的数据分析器12 ;连接所述数据分析器的调度器13 ;连接所述调度器的下载器14 ;连接所述下载器的网页存储器15。其中,搜索引擎抓取服务器各组成部分的实现原理如下所述链接存储器11,存储经过抓取的链接的相关信息,包括该链接的统一资源定位符 (Uniform Resource Location, URL)禾口下载信息。在本技术实施例中,链接的下载信息包括该链接的下载状态,例如该链接下载成功与否;该链接的页面分析结果,例如该链接是否为空页面、是否为作弊链接、是否包含病毒;以及该链接的页面中包含其他链接的数量,等等,在此不作限定。当链接存储器11需要对经过抓取的链接的相关信息进行存储时,首先检查该链接是否已经存储于链接存储器11中,如果是,则将该链接的下载信息进行更新,如果否,则在链接存储器11中新建该链接,并对该链接的URL以及下载信息进行存储。数据分析器12,对链接存储器11中存储的链接的相关信息进行分析,分别确定不同主域、子域和目录的抓取权重。在本技术实施例中,数据分析器12具体包括了以下结构连接所述链接存储器的链接分类单元121 ;连接所述链接存储器和所述链接分类单元的抓取权重确定单元122 ;连接所述链接存储器的下载压力检测单元123。上述各结构的实现原理如下所述链接分类单元121,根据链接存储器11中存储的链接的URL,将链接分类成主域、 子域和目录三个类别。抓取权重确定单元122,根据链接存储器11中存储的链接的相关信息,分别对不同主域、子域和目录的抓取权重进行确定,其具体包括了主域抓取权重确定单元1221、子域抓取权重确定单元1222和目录抓取权重确定单元1223,在本技术实施例中,抓取权重确定单元122根据链接存储器11中存储的链接的相关信息,统计出每个主域、子域和目录最近一段时期的下载信息,包括每个主域、子域和目录中链接的死链率、页面分析成功率、作弊率、病毒率、空页面率和发现新页面的能力等等,并依据上述参考因子,确定出每个主域、子域和目录各自对搜索引擎的贡献度,由此确定出其各自的抓取权重。通过抓取权重确定单元122,实现对主域、子域和目录三个级别的抓取权重细化,由此达到更好的数据分析精度和搜索准确度。在本技术实施例中,对根据参考因子确定抓取权重的具体方法不作限定。在本技术实施例中,数据分析器12还包括连接所述目录抓取权重确定单元的抓取控制单元123,其根据目录抓取权重确定单元122中确定的每个目录的抓取权重,确定是否继续对该目录进行抓取,以及控制继续抓取的链接数量。4由于互联网中的很多数据都是由程序模板自动生成,因此,一般说来,同一目录下的链接,无论是在URL的形式上还是在页面内容方面都有着很大的相似性。例如,新浪新闻站点把其当天的新闻都放在同一个目录下,如2011年1月10日的国际新闻就放在目录 http://news. sina. com. cn/w/2011-01-10/下;或者,例如一些博客站点会把博文、图片分别划分到不同的目录中去。因此,在同一个目录下的网页总是存在一些相似性,有些是生成时间相近,有些是网页类型类似,搜索引擎只需要对目录中的一部分数据进行抓取并分析, 就可以预测这个目录总体质量的好坏,避免无效的抓取。因此,在本技术实施例中,可以通过每个目录下的当前抓取权重,决定是否继续对该目录下的链接进行抓取,以及控制抓取链接的数量。通过抓取控制单元123,可以对未下载的页面内容进行预测,达到有的放矢,很好地节省了搜索引擎抓取服务器的系统资源。在本技术实施例中,数据分析器12还包括下载压力检测单元124,其根据链接存储器11中存储的链接的相关信息,检测每个子域的页面下载压力,该页面下载压力即为每个子域每天需要下载的页面数目。在本技术实施例中,子域的下载压力通过检测每个子域下的子域个数、IP信息、是否为虚拟主机、下载速度、平均页面大小、平均页面更新周期,以及一些外部输入数据,如浏览器页面每天访问量、用户对搜索引擎的点击日志等信息确定。在本技术实施例中,通过确定不同子域的下载压力,可以控制搜索引擎对该子域每天的下载量。例如,子域news. sina. com. cn的下载压力为10个链接每秒,则搜索引擎抓取服务器每天从该子域中下载的页面个数为864000个。由此,通过检测每个子域的下载压力,很好地了解到每个子域的流量负荷情况,方便制定调度计划。调度器13根据数据分析器12分析出的相关数据,生成相应的调度计划,并根据调度计划发送需要下载的链接的URL。在本技术实施例中,调度器13包括连接所述数据分析器的调度顺序生成单元131 ;连接所述数据分析器的速度控制单元132,其中调度顺序生成单元131根据抓取权重确定单元122确定的主域、子域和目录三个级别的抓取权重,按照主域、子域以及目录的抓取权重轻重,对链接进行排序,生成调度计划,该调度计划指明了每个主域、子域及目录中需要下载的链接的下载顺序。速度控制单元132根据子域压力确定单元IM控制下载的速度,该下载速度即为该子域的压力。例如根据上文所述子域news. sina. com. cn的下载压力为10个链接每秒, 则控制本文档来自技高网...
【技术保护点】
1.一种搜索引擎抓取服务器,其特征在于,所述服务器包括:链接存储器;连接所述链接存储器的数据分析器;连接所述数据分析器的调度器;连接所述调度器的下载器;连接所述下载器的网页存储器。
【技术特征摘要】
【专利技术属性】
技术研发人员:李晓堂,詹峰,
申请(专利权)人:深圳信息职业技术学院,
类型:实用新型
国别省市:94
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。