进行信息搜索的方法及服务器技术

技术编号:9336262 阅读:107 留言:0更新日期:2013-11-13 15:36
本发明专利技术提供了进行信息搜索的方法及服务器,其中,该方法包括:接收来自用户终端的包含查询词的搜索请求,根据所述搜索请求搜索得到初始排序后的搜索结果;对所述查询词的各个排序位置的位置点击率进行估计,得到在各个排序位置的位置点击率估计值;用各个排序位置的位置点击率估计值除以排序位置中首位位置的位置点击率估计值,将相除结果作为相应排序位置的补偿因子;将搜索得到的各排序位置上的搜索结果条目的条目点击率与相应排序位置对应的补偿因子相除,将相除结果作为该搜索结果条目的排序分数;按照排序分数降序对搜索结果条目进行排序,将排序后的数据反馈给用户终端。本发明专利技术方案能够更加准确地对搜索结果进行排序,使排序结果更遵循用户的查询需求。

【技术实现步骤摘要】
进行信息搜索的方法及服务器
本专利技术涉及信息处理技术,尤其涉及进行信息搜索的方法及服务器。
技术介绍
随着信息技术的发展和网络时代的来临,运用网络进行信息搜索,以获取需要的数据也日益普遍。进行信息搜索包括:用户终端向进行信息搜索的服务器发送包含查询词的搜索请求,服务器接收搜索请求后,搜索出搜索结果条目,对各搜索结果条目进行初始排序,将排序后的数据结果反馈给用户终端。一般地,常利用用户点击日志对各搜索结果条目进行初始排序。用户点击日志记录了用户搜索各查询词的信息,包括某查询词下各搜索结果条目的条目点击率。关于某查询词下某搜索结果条目的条目点击率,为用户在该查询词下点击该搜索结果条目的总次数除以用户搜索该查询词的次数,所得到的值。现有技术中采用条目点击率对搜索结果条目进行排序,具体地,按照条目点击率,降序对搜索结果条目进行排序。条目点击率是对搜索结果满意程度的一种直接体现,一般说来,条目点击率越高的搜索结果条目,说明用户对该搜索结果条目的满意度越高,此搜索结果条目应该排在前面。然而,条目点击率本身也收到搜索结果排序的影响,排在越靠前的搜索结果条目被用户点击的概率越大,因此,并非按照条目点击率排在前面的搜索结果条目就是用户需求度高的结果,此问题称为位置偏置问题。位置偏置问题说明仅按照条目点击率对搜索结果条目进行排序,是不准确的,对排序靠后的搜索结果条目不公平。为了解决位置偏置问题,目前多采用人工调试排序的方法对搜索结果条目进行排序,该方法中,人工为各排序位置设置位置补偿因子,所述排序位置指排在最靠前的第一位置、其后的第二位置、以及后面依次排列的第三位置、第四位置、第五位置……每个排序位置对应一个补偿因子,各个排序位置的补偿因子是由人工调试得到的经验值,且调试后的一套补偿因子适用于所有搜索结果排序中。现有人工调试排序的方法包括:服务器接收来自用户终端的包含查询词的搜索请求后,搜索出搜索结果条目;服务器从用户点击日志中获取各搜索结果条目的条目点击率,将所有的搜索结果条目按照条目点击率进行降序排序,每个排序位置对应一个补偿因子,将各排序位置上的搜索结果条目的条目点击率与该排序对应的补偿因子相乘,将相乘结果作为该搜索结果条目的排序分数;按照排序分数降序对搜索结果条目进行排序;将排序后的数据反馈给用户终端。现有人工调试排序的方案中,各个排序位置的补偿因子是由人工调试得到的经验值,且调试后的一套补偿因子适用于所有搜索结果排序中;这种采用由经验值确定补偿因子的方法过于粗糙,且将一套补偿因子适用于所有搜索结果排序中,会造成补偿不准确,导致排序结果不能满足用户的查询需求。
技术实现思路
本专利技术提供了一种进行信息搜索的方法,该方法能够更加准确地对搜索结果进行排序,使排序结果更遵循用户的查询需求。本专利技术提供了一种进行信息搜索的服务器,该服务器能够更加准确地对搜索结果进行排序,使排序结果更遵循用户的查询需求。一种进行信息搜索的方法,该方法包括:接收来自用户终端的包含查询词的搜索请求,根据所述搜索请求搜索得到初始排序后的搜索结果;对所述查询词的各个排序位置的位置点击率进行估计,得到在各个排序位置的位置点击率估计值;用各个排序位置的位置点击率估计值除以排序位置中首位位置的位置点击率估计值,将相除结果作为相应排序位置的补偿因子;将搜索得到的各排序位置上的搜索结果条目的条目点击率与相应排序位置对应的补偿因子相除,将相除结果作为该搜索结果条目的排序分数;按照排序分数降序对搜索结果条目进行排序,将排序后的数据反馈给用户终端。一种进行信息搜索的服务器,该服务器包括估计单元、排序分数获取单元和排序反馈单元;所述估计单元,用于接收来自用户终端的包含查询词的搜索请求,根据所述搜索请求搜索得到初始排序后的搜索结果;对所述查询词的各个排序位置的位置点击率进行估计,得到在各个排序位置的位置点击率估计值,传送给所述排序分数获取单元;所述排序分数获取单元,用各个排序位置的位置点击率估计值除以排序位置中首位位置的位置点击率估计值,将相除结果作为相应排序位置的补偿因子;将搜索得到的各排序位置上的搜索结果条目的条目点击率与相应排序位置对应的补偿因子相除,将相除结果作为该搜索结果条目的排序分数,将排序分数发送给所述排序反馈单元;所述排序反馈单元,用于按照排序分数降序对搜索结果条目进行排序,将排序后的数据反馈给用户终端。从上述方案可以看出,本专利技术对某查询词下各个排序位置的补偿因子分别进行运算得到,而非采用人工调试的经验值确定补偿因子,使获得的补偿因子更加准确;并且,针对不同的查询词,由确定的相应补偿因子计算得到不同的排序分数,避免了现有技术中将一套补偿因子适用于所有搜索结果排序中,从而,使搜索结果排序更加准确,也使排序结果更遵循用户的查询需求。附图说明图1为本专利技术进行信息搜索的方法示意性流程图;图2为由查询词“专利技术”搜索出的搜索结果条目;图3为本专利技术进行信息搜索的服务器结构示意图。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚明白,下面结合实施例和附图,对本专利技术进一步详细说明。本专利技术对某查询词下各个排序位置的补偿因子分别进行运算得到,再由确定的相应补偿因子计算得到该查询词下给搜索结果条目的排序分数,而后,由排序分数进行搜索结果排序。参见图1,为本专利技术进行信息搜索的方法示意性流程图,其包括以下步骤:步骤101,接收来自用户终端的包含查询词的搜索请求,根据所述搜索请求搜索搜索得到初始排序后的搜索结果。服务器接收搜索请求,由查询词搜索出搜索结果条目;对搜索结果条目进行初始排序,得到初始排序的搜索结果。所述初始排序包括多种实现方式,举例说明:按照随机方式进行排序;或者,按照特征值进行排序,如按照各搜索结果条目的条目点击率进行降序排列。以查询词“专利技术”为例,图2示出了与“专利技术”相关的前5个排序位置的搜索结果条目,排在最靠前第一位置的是关于“中国专利技术网”的搜索结果条目,排在第二位置的是关于“专利技术百度百科”的搜索结果条目,排在第三位置的是关于“专利技术吧百度贴吧”的搜索结果条目,排在第四位置的是关于“《我爱专利技术》官网”的搜索结果条目,排在第五位置的是关于“专利技术的最新相关信息”的搜索结果条目;图中的省略号为各搜索结果条目的概述。步骤102,对所述查询词的各个排序位置的位置点击率进行估计,得到在各个排序位置的位置点击率估计值。关于某查询词下某排序位置的位置点击率,为在该查询词下用户点击该排序位置的总次数除以用户搜索该查询词的次数,所得到的值。估计某查询词的各个排序位置的位置点击率,可采用机器学习方法实现,下面进行举例说明。本步骤所述对所述查询词的各个排序位置的位置点击率进行估计包括:选取特征,获取所述查询词下所述特征对应的数值;由获取的数值以及各排序位置的历史点击行为信息,利用机器学习方法对所述查询词的各排序位置的位置点击率进行估计。选取特征后,可从用户点击日志中获取所述查询词下所述特征对应的数值,为便于说明,将所述查询词表示为q;选取的特征为至少一个。用户点击日志记录了用户搜索各查询词的信息,包括某查询词下各特征对应的数值,用户点击日志记录中的特征包括各搜索结果条目的条目点击率,以及某查询词下的翻页率、页面点击率等。某查询词下某搜索结果条目的条目点击率,为在该查询词下用户点击本文档来自技高网
...
进行信息搜索的方法及服务器

【技术保护点】
一种进行信息搜索的方法,其特征在于,该方法包括:接收来自用户终端的包含查询词的搜索请求,根据所述搜索请求搜索得到初始排序后的搜索结果;对所述查询词的各个排序位置的位置点击率进行估计,得到在各个排序位置的位置点击率估计值;用各个排序位置的位置点击率估计值除以排序位置中首位位置的位置点击率估计值,将相除结果作为相应排序位置的补偿因子;将搜索得到的各排序位置上的搜索结果条目的条目点击率与相应排序位置对应的补偿因子相除,将相除结果作为该搜索结果条目的排序分数;按照排序分数降序对搜索结果条目进行排序,将排序后的数据反馈给用户终端。

【技术特征摘要】
1.一种进行信息搜索的方法,其特征在于,该方法包括:接收来自用户终端的包含查询词的搜索请求,根据所述搜索请求搜索得到初始排序后的搜索结果;对所述查询词的各个排序位置的位置点击率进行估计,得到在各个排序位置的位置点击率估计值;用各个排序位置的位置点击率估计值除以排序位置中首位位置的位置点击率估计值,将相除结果作为相应排序位置的补偿因子;将搜索得到的各排序位置上的搜索结果条目的条目点击率与相应排序位置对应的补偿因子相除,将相除结果作为该搜索结果条目的排序分数;按照排序分数降序对搜索结果条目进行排序,将排序后的数据反馈给用户终端。2.如权利要求1所述的方法,其特征在于,对所述查询词的各个排序位置的位置点击率进行估计包括:选取特征,获取所述查询词下所述特征对应的数值;由获取的数值以及各排序位置的历史点击行为信息,利用机器学习方法对所述查询词的各排序位置的位置点击率进行估计。3.如权利要求2所述的方法,其特征在于,所述特征包括翻页率或页面点击率。4.如权利要求2所述的方法,其特征在于,所述机器学习方法包括逻辑斯蒂回归方法。5.如权利要求1至4中任一项所述的方法,所述将相除结果作为相应排序位置的补偿因子之后,该方法还包括:对补偿因子与设定指数作指数运算,将运算结果作为修正后的补偿因子,所述设定指数取值为[0,1]中的一个实数;所述将搜索得到的各排序位置上的搜索结果条目的条目点击率与相应排序位置对应的补偿因子相除包括:将搜索得到的各排序位置上的搜索结果条目的条目点击率与相应排序位置对应的修正后的补偿因子相除。6.一种进行信息搜索的服务器,其特征在于,该服务器包括估计单元、排序分数获取单元和排序反馈单元;所述估计...

【专利技术属性】
技术研发人员:李祯孝陈戈
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1