一种面向收益提升的无偏学习排序方法技术

技术编号：27975817 阅读：14 留言：0更新日期：2021-04-06 14:10

本发明专利技术公开了一种面向收益提升的无偏学习排序方法，基于有偏的用户点击日志数据，直接优化一个无偏的效益指标。首先学习了一个位置敏感的点击率预估模型，建模不同特征的查询‑文档对在不同位置下的点击率，得到的用户效益的无偏估计，基于lambdaloss的学习框架提出了一个基于lambdaloss的目标函数来直接优化用户效益的无偏估计，通过学习一个打分函数可以将测试阶段的复杂度降低到O(N)。理论分析证明该目标函数可以优化目标效益的一个有效上界。本发明专利技术在三个公开数据集上都证明了该方法的有效性，可以被用于列表推荐，网页搜索，广告系统等场景。

全部详细技术资料下载

【技术实现步骤摘要】
一种面向收益提升的无偏学习排序方法
本专利技术涉及信息检索领域，尤其涉及一种无偏机器学习排序的方法。
技术介绍
学习排序(Learningtorank)是信息检索领域的经典问题，也是互联网搜索、推荐等业务场景的核心任务。传统的学习排序方法依赖显式的相关性反馈，这种显式的反馈通常需要来自人类专家的标注，而且是非个性化的。而在个性化的搜索、推荐等场景下，人工标注的数据是非常昂贵、难于获得的。同时，隐式反馈(implicitfeedback)，比如用户的点击日志，作为一种廉价、即时、以用户为中心的替代，也被广泛地应用在搜索、推荐等场景下。然而，用户点击日志受到具体的展示方式的影响，最主要的是展示的位置带来的偏差，位置偏差(Positionbias)，导致其不能直接准确地反应物品的相关性。传统的学习排序方法被更多地用在网页搜索的场景中。一些针对于网页搜索的用户点击模型，以及基于此的反事实学习的方法，都通过对用户浏览行为的不同假设来解决点击日志和真实的相关性反馈之间的不匹配，从而使得排序的结果仍然能够按照他们的相关性概率降序排列。在一个实际的推荐系统中，通常可以被建模成一个指定查询和上下文的排序问题。以电影推荐为例，查询指的是用户过往的观看历史，而上下文指的是时间，使用的设备这一类特征。通过这种建模方式，一个列表推荐推荐系统，我们可以通过一些学习排序的方法来解决，这在传统的网页搜索的框架里已经被研究地很好了。但是在这样的一个系统中，却又会产生一些更加复杂的用户行为模式，从而带来一些新的挑战。在这样的一个实际系统中，我们...

【技术保护点】
1.一种面向收益提升的无偏机器学习排序方法，其特征在于，基于有偏的用户行为数据，建模一个无偏的机器学习排序模型，直接面向收益提升进行优化。/n

【技术特征摘要】
1.一种面向收益提升的无偏机器学习排序方法，其特征在于，基于有偏的用户行为数据，建模一个无偏的机器学习排序模型，直接面向收益提升进行优化。

2.如权利要求1所述的方法，其特征在于，所述无偏的机器学习排序模型包括一个位置敏感的点击率预估模型，以及一个排序打分函数。

3.如权利要求2所述的方法，其特征在于，其学习过程分两步进行：
第一步，学习所述位置敏感的点击率预估模型来得到目标效益的无偏估计；
第二步，基于上一步得到的无偏估计的变化量使用成对损失函数学习所述排序打分函数。

4.如权利要求3所述的方法，其特征在于，包括如下步骤：
步骤1、从和用户的交互中，得到用户的点击日志；
步骤2、根据具体的应用场景，定义目标效益的形式；所述目标效益的形式包括点击率/购买率的加权求和形式；
步骤3、从所述点击日志中随机抽取Sc个点击数据，训练所述基于位置敏感的点击率预估模型gθ(fi，ki)；
步骤4、基于所述点击日志和所述基于位置敏感的点击率预估模型gθ(fi，ki)，得到每条查询上所述目标效益的无偏估计；
步骤5、开始所述排序打分函数的学习，首先随机初始化所述排序打分函数si＝Φ(fi)；
步骤6、根据当前所述排序打分函数进行排序，得到每个查询下的排序列表；
步骤7、随机挑选Sr对来自同一个查询下的文档对，计算交换这对样本之后，目标效益估计的差值；
步骤8、根据每对样本的所述目标效益估计的差值，更新所述排序打分函数Φ(fi)；
步骤9、重复步骤6-8，直至所述排序打分函数收敛。

5.如权利要求4所述的方法，其特征在于，所述步骤1中...

【专利技术属性】
技术研发人员：张伟楠，戴心仪，侯嘉伟，西云佳，俞勇，
申请(专利权)人：上海交通大学，
类型：发明
国别省市：上海;31

全部详细技术资料下载我是这个专利的主人