【技术实现步骤摘要】
本专利技术涉及互联网信息处理领域,特别涉及一种对检索结果进行排序的方法及装置。
技术介绍
随着互联网技术的发展,搜索引擎技术的应用范围越来越广泛,传统的搜索引擎在响应用户的检索需求时,主要按照以下两种参数对检索结果进行排序一是检索结果(也称作url,统一资源定位),与用户输入的检索关键词(也称作query)之间的相关性,二是url自身的权威性,所谓的权威性可以依据url的PageRank(网页级别)或url所属站点的SiteRank(站点级别)来确定,总体来讲,与query的相关性越高的url排名越高,在相关性相近的情况下,权威性越高的url排名越高。然而,这种依赖于相关性、PageRank及SiteRank进行检索结果页面排名的方法,存在着下列问题I、由于query的长度较短,很难对其进行语义分析,所以相关性的计算一般依赖于字面匹配,url与query之间存在字面匹配的同时也会存在转义,从而令实际上不相关的页面排名过高,例如,query为“磨盘”,而url的主题为“磨盘山,两者本不相关,但由于存在字面匹配,从而令主题为“磨盘山”的url也成为了检索结果,如果此时该url还拥有较高的PageRank,则会令该url拥有较高的排名,从而影响其他url的正确排名;2、目前国内的互联网上普遍存在这样的情况黑客使用各种技术手段攻陷政府、公司等权威站点,然后在这些站点之下注入网游、博彩、医疗等领域的劣质页面,这些劣质页面将会继承所在站点的SiteRank,从而拥有较高级别的权威性,当用户输入网游、博彩、医疗等领域的query时,这些劣质页面获得的排名与该领域内真 ...
【技术保护点】
【技术特征摘要】
1.一种对检索结果进行排序的方法,其特征在于,包括 根据用户输入的检索关键词,获取相应的检索结果,以及获取对应各检索结果预设的领域属性; 根据所述各检索结果的领域属性,计算所述检索关键词的领域属性; 根据所述各检索结果的领域属性、所述检索关键词的领域属性,分别对每一个检索结果与所述检索关键词的相关性,以及每一个检索结果的权威性进行调整; 根据各检索结果调整后的相关性和权威性,对各检索结果进行排序。2.如权利要求I所述的方法,其特征在于,采用参量D表征所述领域属性,所述参量D设置为任意类型的标量,且在其取值空间上能够定义距离函数Dist (Dl,D2)。3.如权利要求2所述的方法,其特征在于,根据所述各检索结果的领域属性,计算所述检索关键词的领域属性,包括 根据所述各检索结果的领域属性取值求得第一平均值; 根据所述第一平均值,在所述各检索结果中筛选出领域属性取值与所述第一平均值的差值在设定范围内的部分检索结果; 根据所述部分检索结果的领域属性取值求得第二平均值,并将该第二平均值作为所述检索关键词的领域属性取值。4.如权利要求3所述的方法,其特征在于,在根据所述各检索结果的领域属性求得所述第一平均值之前,包括 确定各检索结果与所述检索关键词之间的相关性,并将相关性低于设定阈值的检索结果排除。5.如权利要求3所述的方法,其特征在于,根据所述各检索结果的领域属性取值求得第一平均值;包括 根据所述各检索结果的领域属性取值,直接求得所述第一平均值;或者, 分别按照每一个检索结果与检索关键词之间的相关性对相应检索结果的领域属性取值进行加权,并根据加权后的各检索结果的领域属性取值,求得所述第一平均值。6.如权利要求2所述的方法,其特征在于,根据所述各检索结果的领域属性,计算所述检索关键词的领域属性,包括 对所述各检索结果进行聚类,并筛选出包含检索结果的数目大于设定阈值的类; 分别计算筛选出的每一个类中包含的各检索结果的领域属性取值的平均值; 将计算得获得的各平均值作为所述检索关键词的多个领域属性取值。7.如权利要求3-6任一项所述的方法,其特征在于,根据所述各检索结果的领域属性、所述检索关键词的领域属性,分别对每一个检索结果与所述检索关键词的相关性,以及每一个检索结果的权威性进行调整,包括 根据所述检索关键词的领域属性和所述各检索结果的领域属性,分别计算所述检索关键词和每一个检索结果的第一领域匹配度;根据所述各检索结果的领域属性和各检索结果归属的网站的领域属性,分别计算每一个检索结果与其归属的网站之间的第二领域匹配度;以及根据所述检索关键词的领域属性和所述各检索结果归属的网站的领域属性,分别计算所述检索关键词与每一个网站之间的第三领域匹配度; 分别采用获得的每一个第一领域匹配度对相应的检索结果与所述检索关键词之间的相关性进行调整,分别采用获得的每一个第二领域匹配度对相应的检索结果的权威性进行调整,以及分别采用获得的每一个第三领域匹配度对相应的检索结果的权威性进行调整。8.如权利要求7所述的方法,其特征在于,计算所述检索关键词与任意一个检索结果之间的第一领域匹配度时,先采用公式DiSt(Dqu y,Durt)计算所述检索关键词与任意一个检索结果之间的距离,其中,Dquwy表示所述检索关键词的领域属性,Durl表示所述任意一个检索结果的领域属性,Dist ()为距离函数,再根据Dist (DtiueVDurl)确定对应的第一领域匹配度; 计算任意一个检索结果与其归属的网站之间的第二领域匹配度时,先采用公式Dist (Durl, Dsite)计算所述任意一个检索结果与其归属的网站之间的距离,其中,Durt表示所述任意一个检索结果的领域属性,Dsite表示所述任意一个检索结果归属的网站的领域属性,DistO为距离函数,再根据Dist (Durt,Dsite)和所述网站的领域分散度确定对应的第二领域匹配度; 计算所述检索关键词与任意一个检索结果归属的网站之间的第三领域匹配度时,先采用公式DiSt(Dqu y,Dsite)计算所述检索关键词与所述任意一个检索结果归属的网站之间的距离,其中,Dquwy表示所述检索关键词的领域属性,Dsite表示所述任意一个检索结果归属的网站的领域属性,DistO为距离函数,再根据Dist (D_y,DsiJ和所述网站的领域分散度确定对应的第三领域匹配度。9.如权利要求7所述的方法,其特征在于,采用获得的任意一个第一领域匹配度对相应的检索结果与所述检索关键词之间的相关性进行调整时,根据对应所述任意一个第一领域匹配度预设的下调幅度对所述相关性的取值进行调整; 采用获得的任意一个第二领域匹配度对相应的检索结果的权威性进行调整时,根据对应所述任意一个第二领域匹配度预设的下调幅度对所述权威性进行调整; 采用获得的任意一个第三领域匹配度对相应的检索结果的权威性进行调整时,根据对应所述任意一个第三领域匹配度预设的下调幅度对所述权威性进行调整。10.如权利要求9所述的方法,其特征在于,进一步包括 根据对应任意一个检索结果归属的网站的领域分散度预设的下调幅度,对所述任意一个检索结果的权威性进行调整。11.一种对检索结果进行排序的装置,其特征在于,包括 获取单元,用于根据用户输入的检索关键词,获取相应的检索结果,以及获取对应各检索结...
【专利技术属性】
技术研发人员:张子云,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。