一种搜索引擎抓取服务器制造技术

技术编号：6954656 阅读：205 留言：0更新日期：2012-04-11 18:40

本实用新型专利技术适用于网络技术领域，提供了一种搜索引擎抓取服务器，所述服务器包括：链接存储器；连接所述链接存储器的数据分析器；连接所述数据分析器的调度器；连接所述调度器的下载器；连接所述下载器的网页存储器。在本实用新型专利技术中，通过数据分析器对已经抓取过的链接的相关信息进行分析，确定不同主域、子域和目录的抓取权重，以提高数据分析精度，增加搜索结果的准确性。（*该技术在2021年保护过期，可自由使用*）

全部详细技术资料下载

【技术实现步骤摘要】

本技术属于网络
，尤其涉及一种搜索引擎抓取服务器。
技术介绍
随着互联网技术的迅速发展，各类网站的数量急剧增长，且站点内容更新频繁，因此也导致了各网站站点及其下各子域及页面的质量参差不齐。面对当前海量的互联网数据，现有的搜索引擎抓取服务器只是按照各站点的子域权重来进行调度，对于同一子域内的页面好坏却不加以区分，影响了数据分析的精度，降低了搜索结果的准确性。同时，各种页面的内容只有在下载后才能获取，因此只有通过抓取才能进行质量判别，造成了服务器资源的严重浪费，加之目前页面作弊现象普遍，对现有的搜索引擎抓取服务器提出了更高的要求。
技术实现思路
本技术实施例的目的在于提供一种搜索引擎抓取服务器，旨在解决现有搜索弓I擎抓取服务器无法细分子域权重的问题。本技术实施例是这样实现的，一种搜索引擎抓取服务器，所述服务器包括链接存储器；连接所述链接存储器的数据分析器；连接所述数据分析器的调度器；连接所述调度器的下载器；连接所述下载器的网页存储器。本技术实施例通过数据分析器对已经抓取过的链接按照主域、子域和目录三个级别进行抓取权重细分，提高了数据分析精度，增加了搜索结果的准确性，并通过上述抓取权重对未下载页面的质量进行预测，确定是否继续抓取相关链接，由此避免了搜索服务器的无谓资源消耗。附图说明图1是本技术实施例提供的搜索引擎抓取服务器的结构图。具体实施方式为了使本技术的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本技术进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本技术，并不用于限定本技术。在本技术实施例中，通过数据分析器对已经抓取过的链接...

【技术保护点】
１．一种搜索引擎抓取服务器，其特征在于，所述服务器包括：链接存储器；连接所述链接存储器的数据分析器；连接所述数据分析器的调度器；连接所述调度器的下载器；连接所述下载器的网页存储器。

【技术特征摘要】

【专利技术属性】
技术研发人员：李晓堂，詹峰，
申请(专利权)人：深圳信息职业技术学院，
类型：实用新型
国别省市：94

全部详细技术资料下载我是这个专利的主人