网站权威值的获取方法及装置制造方法及图纸

技术编号:8735165 阅读:207 留言:0更新日期:2013-05-26 11:45
本发明专利技术公开了一种网站权威值的获取方法及装置。其中,该方法包括:根据互联网上每个站点的所有入链中来自于可信站集合中的入链的数量,获取每个站点的可信投票数;根据互联网上所有站点的可信投票数将所有站点归档至预设的不同档位中,并为每个档位分配一个档位权威值,将每个档位内站点的站点权威值设定为档位权威值;将站点权威值大于权威值阈值且不属于可信站集合的站点添加到可信站集合中。通过本发明专利技术,达到了避免权威值计算受到spam等问题的影响,同时能够正确反映新上线站点的权威性的效果。

【技术实现步骤摘要】

本专利技术涉及计算机信息检索领域,具体而言,涉及一种网站权威值的获取方法及>J-U ρ α装直。
技术介绍
搜索引擎是网民获取资料信息的主要方式,搜索引擎应该提供给网民满足需求的、真实权威的信息。搜索结果的权威度、可信度是衡量搜索引擎优劣的重要因素之一。目前,网页或网站权威性评价方法大多数都采用根据页面的链接关系迭代计算页面的权威值的做法,PageRank算法是评价网页权威值的重要和首要的方法,之后不断出现对其改进的网页排序算法和网站排序算法。PageRank算法的核心思想是如果一个页面被许多其他页面引用,则这个页面很可能是重要页面;一个页面尽管没有被多次引用,但被一个重要页面引用,那么这个页面很可能也是重要页面;一个页面的重要性被均分并传递到它所引用的页面。因此,页面的重要性可以用PageRank度量。HITS算法的目标就是通过一定的计算(迭代计算)方法以得到针对某个检索提问的最具价值的网页,即排名最高的权威网页。随着网络的发展,网页间的推荐作用在下降,一些商业网站为了获得更好的排名而互相连接,导致一些搜索结果中排在前面的网页与用户需求并不相关,在此基础上也出现了一些衍生的算法。但在反作弊策略“魔高一尺,道高一丈”的工作模式下,总会有一部分spam链接或seo 链接影响到页面权威值的计算,导致部分计算结果不准确。另外,由于整个互联网中的网页数量是天文数字,搜索引擎无法全部纳入页面权威值的计算。因此,搜索引擎一般都设计各种策略过滤掉部分价值不大的链接。由于策略的取舍,一些没有外链的网站/网页难免会被过滤掉,使得他们无法获得权威值,从而影响了搜索结果的质量。以下内容涉及到站点等概念,这里先对这些概念进行适当介绍以便于理解:站点:指URL 中第一个 V’前的部分。例如,news.sina.com.cn, sports, sina.com.cn被认为是两个站点。主域:即主域名,指域名注册人的网上名称。例如,“jike.com”(详见http =//baike.baidu.com/view/3444440.htm)。子域:指比主域更低级的三级域名、甚至四级域名。例如,homebbs.cq.soufun.com 中的 cq.soufun.com。以mil.news.sina.com.cn 这个 host 为例,其主域为 sina.com.cn,其一级子域为new.sina.com.cn,当然如果还存在xxx.mil.news.sina.com.cn的话,那么此 host 还存在二级子域 mil.news.sina.com.cn。这里请参照图1,图1是根据相关技术的以主域及子域的树形结构示意图,如图1所示,方框表示不包含站点,胶囊型的框表示域,其中树根便是主域。因此,对于任何一个节点而言,从该节点到根的路径上,除去本身和根节点之外的所有域都是其子域,而根节点就是其主域。可信站:自动生成或手工整理的站点集合。认为站点内容权威可信,站点的出链具有推荐性,几乎没有spam的出链或SEO的出链。可信投票数:只来自于可信站链接的主域数。其中,不论来自同一个域的链接有多少,都算做一次计数。用户生成内容(User Generated Content,简称为UGC):包括有论坛、博客、分享网络、微博等站点形式和评论、回复等页面的形式。主域传递树:表示主域的权威值能否遗传给其下的子域、站点,以及子域的权威值能否遗传给其下站点的树状结构。本地化站点:例如“bj.ganj1.com”,对于北京地区的网民而言就相当于主站,可视为与 “WWW.ganj1.com” 等同。对于一些新上线的优质资源站点或频道,一般没有足够的超链指向它们,这就导致新站点受到歧视,计算得出的权威值偏低或根本没有权威值。不论是PageRank算法还是HITS算法,都忽略了网页作为网站一部分的属性。传统意义上,网络由网页和链接两部分组成,分别对应网络的内容和结构。PageRank算法和HITS算法都是针对网络结构的研究。近年来,越来越多的研究者意识到网站同样是网络的组成部分,并且在其中扮演着重要的角色。与单个网页相比,网站可以提供更多的语义信息。首先,同一站点的网页通常在内容、页面布局及链接方面有很高的相似性;其次,从拓扑学的观点看,相比不同网站的网页链接集合,同一站点的网页链接结构通常有更高的密集度。网站作为互联网中更高抽象层次的组成单元,能够展现比网页更全面的信息和信息结构,而且针对站点的spam行为或seo行为会更加困难,所以站点排序技术已经成为搜索引擎中一项非常重要的技术。目前常见的有SiteRank和AggregateRank两种站点排序算法。SiteRank算法与PageRank类似,就是基于站点链接图采用PageRank算法计算出域名的排序。AggregateRank是对PageRank的一个近似,并且简化了计算复杂度。因此,网站作为网络结构的组成单元,是评价权威性不可或缺的维度,网站排序技术已也经成为搜索引擎中一项非常重要的技术。然而,目前的网站权威值计算方法仍然以PageRank为基础,不可避免地也引入了PageRank的一些缺点:权威性计算易受spam等问题的影响,导致部分计算结果不准确;权威性计算倾向于老站点,无法反应新上线的优质资源站点的权威性。针对相关技术中网站权威值计算方法存在权威性计算易受spam等问题的影响,且无法反应新上线的优质资源站点的权威性的问题,目前尚未提出有效的解决方案。
技术实现思路
本专利技术提供了一种网站权威值的获取方法及装置,以至少解决上述问题。根据本专利技术的一个方面,提供了一种网站权威值的获取方法,包括:根据互联网上每个站点的所有入链中来自于可信站集合中的入链的数量,获取每个站点的可信投票数;根据互联网上所有站点的可信投票数将所有站点归档至预设的不同档位中,并为每个档位分配一个档位权威值,将每个档位内站点的站点权威值设定为档位权威值;将站点权威值大于权威值阈值且不属于可信站集合的站点添加到可信站集合中。优选地,在根据互联网上每个站点的所有入链中来自于可信站集合中的入链的数量,获取每个站点的可信投票数之前,包括:抽取全网链接数据形成满足目标统一资源定位符Dest URL源统一资源定位符Source URL锚文本Anchor Text格式的原始数据;从原始数据中获取多个领域的URL列表页,并将URL列表页汇总成种子站集合;从种子站集合中剔除低质量站点、搜索引擎优化SEO站点以及作弊SPAM站点,得到可信站集合。优选地,在将站点权威值大于权威值阈值且不属于可信站集合的站点添加到可信站集合中之后,包括:获取主域下所有站点的站点信息,根据站点信息确定主域的域权威值;根据站点信息和域权威值生成主域的主域遗传树;根据主域遗传树、域权威值,以及预定的权威值递减规则确定主域包括的子域的权威值、以及子域包括的站点的权威值。优选地,在将站点权威值大于权威值阈值且不属于可信站集合的站点添加到可信站集合中之后,包括:挖掘与当前主域存在站点关系的其他主域,其中,站点关系包括:跳转或站群;确定当前主域的权威值在当前主域中的站点与其他主域的站点间的传递方式。优选地,在根据互联网上每个站点的所有入链中来自于可信站集合中的入链的数量,获取每个本文档来自技高网
...

【技术保护点】
一种网站权威值的获取方法,其特征在于,包括:根据互联网上每个站点的所有入链中来自于可信站集合中的入链的数量,获取所述每个站点的可信投票数;根据互联网上所有站点的可信投票数将所有站点归档至预设的不同档位中,并为每个所述档位分配一个档位权威值,将每个所述档位内站点的站点权威值设定为所述档位权威值;将站点权威值大于权威值阈值且不属于所述可信站集合的站点添加到所述可信站集合中。

【技术特征摘要】

【专利技术属性】
技术研发人员:白俊良
申请(专利权)人:人民搜索网络股份公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1