一种对检索结果进行排序的方法及装置制造方法及图纸

技术编号:7837809 阅读:205 留言:0更新日期:2012-10-12 02:39
本发明专利技术涉及互联网信息处理领域,公开了一种对检索结果进行排序的方法及装置,该方法为:根据用户输入的检索关键词,获取相应的检索结果,以及获取对应各检索结果预设的领域属性;根据所述各检索结果的领域属性,计算所述检索关键词的领域属性;根据所述各检索结果的领域属性、所述检索关键词的领域属性,分别对每一个检索结果与所述检索关键词的相关性,以及每一个检索结果的权威性进行调整;根据各检索结果调整后的相关性和权威性,对各检索结果进行排序。这样,便从而从相关性和权威性两个角度改进了检索结果的排序精确性,有效提高了检索质量,提升了系统性能。

【技术实现步骤摘要】

本专利技术涉及互联网信息处理领域,特别涉及一种对检索结果进行排序的方法及装置
技术介绍
随着互联网技术的发展,搜索引擎技术的应用范围越来越广泛,传统的搜索引擎在响应用户的检索需求时,主要按照以下两种参数对检索结果进行排序一是检索结果(也称作url,统一资源定位),与用户输入的检索关键词(也称作query)之间的相关性,二是url自身的权威性,所谓的权威性可以依据url的PageRank(网页级别)或url所属站点的SiteRank(站点级别)来确定,总体来讲,与query的相关性越高的url排名越高,在相关性相近的情况下,权威性越高的url排名越高。然而,这种依赖于相关性、PageRank及SiteRank进行检索结果页面排名的方法,存在着下列问题I、由于query的长度较短,很难对其进行语义分析,所以相关性的计算一般依赖于字面匹配,url与query之间存在字面匹配的同时也会存在转义,从而令实际上不相关的页面排名过高,例如,query为“磨盘”,而url的主题为“磨盘山,两者本不相关,但由于存在字面匹配,从而令主题为“磨盘山”的url也成为了检索结果,如果此时该url还拥有较高的PageRank,则会令该url拥有较高的排名,从而影响其他url的正确排名;2、目前国内的互联网上普遍存在这样的情况黑客使用各种技术手段攻陷政府、公司等权威站点,然后在这些站点之下注入网游、博彩、医疗等领域的劣质页面,这些劣质页面将会继承所在站点的SiteRank,从而拥有较高级别的权威性,当用户输入网游、博彩、医疗等领域的query时,这些劣质页面获得的排名与该领域内真正的权威站点获得排名相近,甚至更高,从而影响了其他url的正确排名;3、一些综合类的超级网站,涉猎到非常广阔的领域,且拥有一个非常高的SiteRank,而事实上,这些超级网站在某些领域上并不如一些专精的站点更加权威,但是由于这些超级网站拥有一个较高的SiteRank,从而令归属于这些超级网站的url在超级网站涉猎的领域上的权威性超过那些对应领域的专精权威站点,获得一个不公正的高排名,进而影响了其他url的正确排名。
技术实现思路
本专利技术实施例提供一种调整检索结果排序的方法,用以提高搜索引擎的检索结果排序的精准性。本专利技术实施例提供的具体技术方案如下一种对检索结果进行排序的方法,包括 根据用户输入的检索关键词,获取相应的检索结果,以及获取对应各检索结果预设的领域属性;根据所述各检索结果的领域属性,计算所述检索关键词的领域属性;根据所述各检索结果的领域属性、所述检索关键词的领域属性,分别对每一个检索结果与所述检索关键词的相关性,以及每一个检索结果的权威性进行调整;根据各检索结果调整后的相关性和权威性,对各检索结果进行排序。一种对检索结果进行排序的装置,包括获取单元,用于根据用户输入的检索关键词,获取相应的检索结果,以及获取对应各检索结果预设的领域属性;处理单元,用于根据所述各检索结果的领域属性,计算所述检索关键词的领域属 性;调整单元,用于根据所述各检索结果的领域属性、所述检索关键词的领域属性,分别对每一个检索结果与所述检索关键词的相关性,以及每一个检索结果的权威性进行调整;排序单元,用于根据各检索结果调整后的相关性和权威性,对各检索结果进行排序。本专利技术实施例中,新定义了领域属性这一参量对query对应的各url的相关性和权威性进行调整,从而令各url基于调整后的相关性和权威性进行排序,这样,有效避免了由于query的转义而造成的相关性计算不准确,从而导致不相关url排名较高的情况,也避免了大型权威网站的url在网站不熟悉领域的排名高于小型专精网站的url的情况,进一步地,还可以避免黑客注入的作弊目录或页面依托所在网站的高权威性,排名高于正常网站url的情况,从而从相关性和权威性两个角度改进了 url的排序精确性,有效提高了检索质量,提升了系统性能。附图说明图I为本专利技术实施例中对检索结果进行排序流程图;图2为本专利技术实施例中检索装置功能结构示意图。具体实施例方式为了提高搜索引擎的检索结果排名的精准性,本专利技术实施例中,在传输搜索引擎的排名算法中,引入了除相关性和权威性这两个参数之外的第三类参数-站点领域,来调整检索结果的排序。为了便于描述,下面对本实施例中各参数的含义进行简单介绍。相关性(weight),设置为一个属于区间的实数,基于字面匹配及有限的语义分析进行计算。权威性(authority),设置为一个属于区间本实施例中,系统可以米用网页抓取技术基于用户输入的query获取相应的若干检索结果,与用户输入的query相对应的检索结果以url的形式进行呈现,一个query可以对应多个检索结果,即对应多条url,一条url对应一个检索结果,对检索结果的排序即是对相应url的排序。另一方面,对于检索获得的若干url,系统把每一条单独的url看做一个站点,较佳的,可以使用与计算网站的站点领域属性相近的方法对url的站点领域属性进行配置,如,将一条url的站点领域表征为<Durt,0>,很明显,单条url构成的站点,其领域属性为Durl,领域分散度为0,因为它涉及且仅涉及一个单一的领域,这个领域就是url中的内容主题所属的领域,为了加速计算过程,url的领域属性可以不在用户检索query的时候进行计算,而是由管理人员根据经验预先设置在数据库中与url的其它属性一同保存起来。为了进一步提高执行效率,本实施例中,系统在获取各url对应的领域属性之前,可以先确定各url与query的相关性(也由管理人员预先配置在数据库中),并且只获取相关性大于设定阈值的url的领域属性,而相关性未达到设定阈值的url则可以丢弃。步骤110 :根据所述各检索结果的领域属性Durt,计算获得query的领域属性DqUOTy。由于query的长度一般较短,所以基于query内容计算其领域属性几乎是不可能的,所以,本实施例中,采用一种迂回的方式来计算query的领域属性,称为Dquwy,具体为通常情况下,在某一 query对应的各url中,与query相关性较高的部分url的领域属性与query的领域属性是相同或相近的,只有少部分存在转义的url的领域属性与query的领域属性不同,因此,可以先确定相关性大于设定阈值的部分url的领域属性,并求其平均值,称为平均值a,如果在获取url的领域属性时,已排除了相关性未达到设定阈值的url,则此处也可以直接求剩余的部分url的领域属性的平均值,得到平均值a,接着,筛选出领域属性最接近此平均值的部分url,即筛选出领域属性取值与所述第一平均值的差值在设定范围内的部分url ;如,将各url的领域属性按照与该平均值的差值从小到大的顺序排列,取前N个url,N为预设参数;然后,根据筛选出的部分url,重新计算这部分url的领域属性的平均值,称为平均值b,此平均值b就是query的领域属性DqUOTy,其中,计算平均值时,也可以使用url与query的相关性进行加权,令相关性较高的url能够对query的领域属性有一个较大的影响。以不采用相关性进行加权为例,假设用户输入的query为“磨盘”,而系统检索到的若干url中,有9个与“磨盘”相关,而本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种对检索结果进行排序的方法,其特征在于,包括 根据用户输入的检索关键词,获取相应的检索结果,以及获取对应各检索结果预设的领域属性; 根据所述各检索结果的领域属性,计算所述检索关键词的领域属性; 根据所述各检索结果的领域属性、所述检索关键词的领域属性,分别对每一个检索结果与所述检索关键词的相关性,以及每一个检索结果的权威性进行调整; 根据各检索结果调整后的相关性和权威性,对各检索结果进行排序。2.如权利要求I所述的方法,其特征在于,采用参量D表征所述领域属性,所述参量D设置为任意类型的标量,且在其取值空间上能够定义距离函数Dist (Dl,D2)。3.如权利要求2所述的方法,其特征在于,根据所述各检索结果的领域属性,计算所述检索关键词的领域属性,包括 根据所述各检索结果的领域属性取值求得第一平均值; 根据所述第一平均值,在所述各检索结果中筛选出领域属性取值与所述第一平均值的差值在设定范围内的部分检索结果; 根据所述部分检索结果的领域属性取值求得第二平均值,并将该第二平均值作为所述检索关键词的领域属性取值。4.如权利要求3所述的方法,其特征在于,在根据所述各检索结果的领域属性求得所述第一平均值之前,包括 确定各检索结果与所述检索关键词之间的相关性,并将相关性低于设定阈值的检索结果排除。5.如权利要求3所述的方法,其特征在于,根据所述各检索结果的领域属性取值求得第一平均值;包括 根据所述各检索结果的领域属性取值,直接求得所述第一平均值;或者, 分别按照每一个检索结果与检索关键词之间的相关性对相应检索结果的领域属性取值进行加权,并根据加权后的各检索结果的领域属性取值,求得所述第一平均值。6.如权利要求2所述的方法,其特征在于,根据所述各检索结果的领域属性,计算所述检索关键词的领域属性,包括 对所述各检索结果进行聚类,并筛选出包含检索结果的数目大于设定阈值的类; 分别计算筛选出的每一个类中包含的各检索结果的领域属性取值的平均值; 将计算得获得的各平均值作为所述检索关键词的多个领域属性取值。7.如权利要求3-6任一项所述的方法,其特征在于,根据所述各检索结果的领域属性、所述检索关键词的领域属性,分别对每一个检索结果与所述检索关键词的相关性,以及每一个检索结果的权威性进行调整,包括 根据所述检索关键词的领域属性和所述各检索结果的领域属性,分别计算所述检索关键词和每一个检索结果的第一领域匹配度;根据所述各检索结果的领域属性和各检索结果归属的网站的领域属性,分别计算每一个检索结果与其归属的网站之间的第二领域匹配度;以及根据所述检索关键词的领域属性和所述各检索结果归属的网站的领域属性,分别计算所述检索关键词与每一个网站之间的第三领域匹配度; 分别采用获得的每一个第一领域匹配度对相应的检索结果与所述检索关键词之间的相关性进行调整,分别采用获得的每一个第二领域匹配度对相应的检索结果的权威性进行调整,以及分别采用获得的每一个第三领域匹配度对相应的检索结果的权威性进行调整。8.如权利要求7所述的方法,其特征在于,计算所述检索关键词与任意一个检索结果之间的第一领域匹配度时,先采用公式DiSt(Dqu y,Durt)计算所述检索关键词与任意一个检索结果之间的距离,其中,Dquwy表示所述检索关键词的领域属性,Durl表示所述任意一个检索结果的领域属性,Dist ()为距离函数,再根据Dist (DtiueVDurl)确定对应的第一领域匹配度; 计算任意一个检索结果与其归属的网站之间的第二领域匹配度时,先采用公式Dist (Durl, Dsite)计算所述任意一个检索结果与其归属的网站之间的距离,其中,Durt表示所述任意一个检索结果的领域属性,Dsite表示所述任意一个检索结果归属的网站的领域属性,DistO为距离函数,再根据Dist (Durt,Dsite)和所述网站的领域分散度确定对应的第二领域匹配度; 计算所述检索关键词与任意一个检索结果归属的网站之间的第三领域匹配度时,先采用公式DiSt(Dqu y,Dsite)计算所述检索关键词与所述任意一个检索结果归属的网站之间的距离,其中,Dquwy表示所述检索关键词的领域属性,Dsite表示所述任意一个检索结果归属的网站的领域属性,DistO为距离函数,再根据Dist (D_y,DsiJ和所述网站的领域分散度确定对应的第三领域匹配度。9.如权利要求7所述的方法,其特征在于,采用获得的任意一个第一领域匹配度对相应的检索结果与所述检索关键词之间的相关性进行调整时,根据对应所述任意一个第一领域匹配度预设的下调幅度对所述相关性的取值进行调整; 采用获得的任意一个第二领域匹配度对相应的检索结果的权威性进行调整时,根据对应所述任意一个第二领域匹配度预设的下调幅度对所述权威性进行调整; 采用获得的任意一个第三领域匹配度对相应的检索结果的权威性进行调整时,根据对应所述任意一个第三领域匹配度预设的下调幅度对所述权威性进行调整。10.如权利要求9所述的方法,其特征在于,进一步包括 根据对应任意一个检索结果归属的网站的领域分散度预设的下调幅度,对所述任意一个检索结果的权威性进行调整。11.一种对检索结果进行排序的装置,其特征在于,包括 获取单元,用于根据用户输入的检索关键词,获取相应的检索结果,以及获取对应各检索结...

【专利技术属性】
技术研发人员:张子云
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1