本发明专利技术涉及网络数据通信技术领域,公开了确定网页质量的装置及方法。所述装置包括:获取模块,适于获取待确定网页URL和URL对应的锚文字;分类模块,适于根据所述URL所属的网址模式,将所述URL划分为各个类别;查找模块,适于在各个类别中,根据URL对应的锚文件查找出具有相似内容的多个URL;确定模块,适于对于具有相似内容的多个URL,根据URL的预设特征确定URL对应的网页的质量。本发明专利技术能够解决确定网页质量的操作的效率较低的问题,取得了提高确定网页质量操作的效率的有益效果,并且之后可以根据网页质量进行抓取,进而能够节省抓取的流量,提升搜索引擎收录的覆盖率和时效性。
【技术实现步骤摘要】
本专利技术涉及网络数据通信
,具体涉及。
技术介绍
搜索引擎的蜘蛛程序每天能够发现大量的互联网中新产生的URL。因为搜索引擎 每天能够实际抓取的URL数量有限,所以蜘蛛程序在进行抓取之前,需要对发现的URL进行 选择,从中选择高质量的URL进行抓取。在现有技术中,对URL进行质量确定的方法包括如 下两种。一种是根据网页内容确定URL对应的网页的质量。另一种是和该网页内容类似的 网页的抓取量来确定URL对应的网页的质量。例如,如果和该网页内容类似的网页的抓取 量较大时,降低URL对应的网页的抓取概率。 但是,通过网页内容或相关网页的抓取量来确定网页质量,需要获得较多的信息, 并且对信息的处理复杂,导致确定网页质量的操作的效率较低。
技术实现思路
鉴于上述问题,提出了本专利技术以便提供一种克服上述问题或者至少部分地解决上 述问题的。 依据本专利技术的一个方面,提供了一种确定网页质量的装置,该装置包括: 获取模块,适于获取待确定网页URL和URL对应的锚文字; 分类模块,适于根据所述URL所属的网址模式,将所述URL划分为各个类别; 查找模块,适于在各个类别中,根据URL对应的锚文件查找出具有相似内容的多 个 URL ; 确定模块,适于对于具有相似内容的多个URL,根据URL的预设特征确定URL对应 的网页的质量。 可选地,所述查找模块,进一步包括: 计算子模块,适于根据URL对应的锚文字计算类别中各个URL间的相似度; 查找子模块,适于根据URL间相似度查找出类别中具有相似内容的多个URL。 可选地,所述确定模块,进一步适于根据URL的关注度从所述具有相似内容的多 个URL中选择URL,对选择的URL进行网页抓取。 可选地,所述分类模块,进一步适于将属于同一网站的具有同一网址模式的URL 划分到同一类别。 可选地,所述确定模块,进一步适于按URL的关注度对所述具有相似内容的多个 URL进行排序;选择排序中的前N个URL进行网页抓取,其中,N为预设正整数。 可选地,所述计算子模块,进一步适于将同一类别中URL对应的锚文字分别进行 分词,从分词所得词条中确定关键词;根据锚文字中关键词计算URL间相似度。 可选地,所述查找模块还包括: 去除子模块,适于在将同一类别中URL对应的锚文字分别进行分词之后,利用预 设词表从对锚文字分词所得词条中,去除掉与锚文字的特征无关词条。 可选地,所述计算子模块,进一步适于根据词条所对应的频率,从分词所得词条中 确定关键词。 根据本专利技术的另一方面,提供了一种确定网页质量的方法,该方法包括: 获取待确定网页URL和URL对应的锚文字; 根据所述URL所属的网址模式,将所述URL划分为各个类别; 在各个类别中,根据URL对应的锚文件查找出具有相似内容的多个URL ; 对于具有相似内容的多个URL,根据URL的预设特征确定URL对应的网页的质量。 可选地,所述根据URL对应的锚文件查找出具有相似内容的多个URL,进一步包 括: 根据URL对应的锚文字计算类别中各个URL间的相似度; 根据URL间相似度查找出类别中具有相似内容的多个URL。 可选地,所述根据URL的预设特征确定URL对应的网页的质量,进一步包括: 根据URL的关注度从所述具有相似内容的多个URL中选择URL,对选择的URL进行 网页抓取。 可选地,所述根据所述URL所属的网址模式,将所述URL划分为各个类别,进一步 包括: 将属于同一网站的具有同一网址模式的URL划分到同一类别。 可选地,所述根据URL的关注度从所述具有相似内容的多个URL中选择URL,对选 择的URL进行网页抓取进一步包括: 按URL的关注度对所述具有相似内容的多个URL进行排序; 选择排序中的前N个URL进行网页抓取,其中,N为预设正整数。 可选地,所述根据URL对应的锚文字计算类别中各个URL间的相似度,进一步包 括: 将同一类别中URL对应的锚文字分别进行分词,从分词所得词条中确定关键词; 根据锚文字中关键词计算URL间相似度。 可选地,所述方法还包括: 在将同一类别中URL对应的锚文字分别进行分词之后,利用预设词表从对锚文字 分词所得词条中,去除掉与锚文字的特征无关词条。 可选地,所述从分词所得词条中确定关键词,进一步包括: 根据词条所对应的频率,从分词所得词条中确定关键词。 根据本专利技术的技术方案可以获取待确定网页URL和URL对应的锚文字;根据URL 所属的网址模式,将URL划分为各个类别;在各个类别中,根据URL对应的锚文件查找出具 有相似内容的多个URL ;对于具有相似内容的多个URL,根据URL的预设特征确定URL对应 的网页的质量。由此解决了通过网页内容或相关网页的抓取量来确定网页质量,需要获得 较多的信息,并且对信息的处理复杂,导致确定网页质量的操作的效率较低的问题,取得了 提高确定网页质量操作的效率的有益效果,并且之后可以根据网页质量进行抓取,进而能 够节省抓取的流量,提升搜索引擎收录的覆盖率和时效性。 上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段, 而可依照说明书的内容予以实施,并且为了让本专利技术的上述和其它目的、特征和优点能够 更明显易懂,以下特举本专利技术的【具体实施方式】。【附图说明】 通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通 技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本专利技术 的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中: 图1示出了根据本专利技术一个实施例的确定网页质量的方法的流程图; 图2示出了根据本专利技术一个实施例的查找具有相似内容的URL的操作的流程图; 图3示出了根据本专利技术一个实施例的选择URL进行抓取的操作的流程图; 图4示出了根据本专利技术一个实施例的确定网页质量的方法的流程图; 图5示出了根据本专利技术一个实施例的确定网页质量的装置的结构图;以及 图6示出了根据本专利技术一个实施例的确定网页质量的装置的结构图。【具体实施方式】 下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开 的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例 所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围 完整的传达给本领域的技术人员。 图1示出了根据本专利技术一个实施例的确定网页质量的方法的流程图。该方法适于 各种与搜索引擎相关的服务器,如图1所示,该方法包括如下步骤。 在步当前第1页1 2 3 4 本文档来自技高网...
【技术保护点】
一种确定网页质量的装置,该装置包括:获取模块,适于获取待确定网页URL和URL对应的锚文字;分类模块,适于根据所述URL所属的网址模式,将所述URL划分为各个类别;查找模块,适于在各个类别中,根据URL对应的锚文件查找出具有相似内容的多个URL;确定模块,适于对于具有相似内容的多个URL,根据URL的预设特征确定URL对应的网页的质量。
【技术特征摘要】
【专利技术属性】
技术研发人员:王智广,
申请(专利权)人:北京奇虎科技有限公司,奇智软件北京有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。