一种面向收益提升的无偏学习排序方法技术

技术编号:27975817 阅读:14 留言:0更新日期:2021-04-06 14:10
本发明专利技术公开了一种面向收益提升的无偏学习排序方法,基于有偏的用户点击日志数据,直接优化一个无偏的效益指标。首先学习了一个位置敏感的点击率预估模型,建模不同特征的查询‑文档对在不同位置下的点击率,得到的用户效益的无偏估计,基于lambdaloss的学习框架提出了一个基于lambdaloss的目标函数来直接优化用户效益的无偏估计,通过学习一个打分函数可以将测试阶段的复杂度降低到O(N)。理论分析证明该目标函数可以优化目标效益的一个有效上界。本发明专利技术在三个公开数据集上都证明了该方法的有效性,可以被用于列表推荐,网页搜索,广告系统等场景。

【技术实现步骤摘要】
一种面向收益提升的无偏学习排序方法
本专利技术涉及信息检索领域,尤其涉及一种无偏机器学习排序的方法。
技术介绍
学习排序(Learningtorank)是信息检索领域的经典问题,也是互联网搜索、推荐等业务场景的核心任务。传统的学习排序方法依赖显式的相关性反馈,这种显式的反馈通常需要来自人类专家的标注,而且是非个性化的。而在个性化的搜索、推荐等场景下,人工标注的数据是非常昂贵、难于获得的。同时,隐式反馈(implicitfeedback),比如用户的点击日志,作为一种廉价、即时、以用户为中心的替代,也被广泛地应用在搜索、推荐等场景下。然而,用户点击日志受到具体的展示方式的影响,最主要的是展示的位置带来的偏差,位置偏差(Positionbias),导致其不能直接准确地反应物品的相关性。传统的学习排序方法被更多地用在网页搜索的场景中。一些针对于网页搜索的用户点击模型,以及基于此的反事实学习的方法,都通过对用户浏览行为的不同假设来解决点击日志和真实的相关性反馈之间的不匹配,从而使得排序的结果仍然能够按照他们的相关性概率降序排列。在一个实际的推荐系统中,通常可以被建模成一个指定查询和上下文的排序问题。以电影推荐为例,查询指的是用户过往的观看历史,而上下文指的是时间,使用的设备这一类特征。通过这种建模方式,一个列表推荐推荐系统,我们可以通过一些学习排序的方法来解决,这在传统的网页搜索的框架里已经被研究地很好了。但是在这样的一个系统中,却又会产生一些更加复杂的用户行为模式,从而带来一些新的挑战。在这样的一个实际系统中,我们有三点最中心的考虑,首先是我们需要很好的解决由于展示方式带来的数据偏差,第二点是我们希望学习目标能够更加的接近真实场景下的一些收益指标,比如点击率、转化率等,第三点是实际应用的过程中,我们希望最终上线的模型能够有高效率和低时延。我们希望设计一个系统能够满足以上的三点要求,兼顾无偏性、目标导向和效率。(一)分析近期关于无偏机器学习排序的研究近期来,专家和学者围绕解决如何学习一个无偏的机器学习排序,提出了一系列基于反事实学习的方法。Wang等在网络搜索与数据挖掘国际会议信息检索国际会议SpecialInterestGrouponInformationRetrieval(SIGIR2016年第39届)上发表的LearningtoRankwithSelectionBiasinPersonalSearch,以及Joachims等在网络搜索与数据挖掘国际会议InternationalConferenceonWebSearchandDataMining(WSDM2017年第10届)上发表的UnbiasedLearning-to-RankwithBiasedFeedback,都基于线上随机交换实验估计排序位置带来的影响,然后利用倾向度的逆向加权(InversePropensityWeighting)来修正位置偏差。然而,这些方法需要基于线上的随机交换实验,这无疑牺牲了用户体验,影响平台收益。考虑到这一点,Agarwal等在网络搜索与数据挖掘国际会议InternationalConferenceonWebSearchandDataMining(WSDM2019年第12届)上发表的Estimatingpositionbiaswithoutintrusiveinterventions提出了一种方法,可以根据用户点击日志直接估计排序位置带来的影响,从而避免了线上随机实验的昂贵代价。在此基础上,Fang等在信息检索国际会议SpecialInterestGrouponInformationRetrieval(SIGIR2019年第42届)上发表的Interventionharvestingforcontext-dependentexamination-biasestimation进一步提出利用用户点击日志估计一个和查询信息有关的位置偏置倾向度。但是这些方法有着较强的限制,比如要求排序日志中存在多个历史排序模型,并且把同一个物品排在不同的位置,这样的限制带来了真实场景下实际应用的不便。另外,有一系列工作致力于从用户的点击日志中联合学习一个倾向模型和一个学习排序模型。Wang等在网络搜索与数据挖掘国际会议InternationalConferenceonWebSearchandDataMining(WSDM2018年第11届)上发表的Positionbiasestimationforunbiasedlearningtorankinpersonalsearch在一个EM方法的框架中联合学习了位置偏差系数和一个基于回归的排序模型。Ai等在信息检索国际会议SpecialInterestGrouponInformationRetrieval(SIGIR2018年第41届)上发表的Unbiasedlearningtorankwithunbiasedpropensityestimation就利用了对偶学习的思想,联合学习了一个倾向模型和无偏的学习排序模型。Hu等在世界万维网大会TheWorldWideWebConference(WWW2019)发表的UnbiasedLambdaMART:AnUnbiasedPairwiseLearning-to-RankAlgorithm同样使用了联合学习的方法,不仅对点击的物品计算了位置影响的倾向性得分,对于没有点击的物品,也计算了相应的倾向性得分。该类方法的问题在于,在联合学习的框架中,倾向模型和相关性模型的建模都没有确切的监督信号;除非相关性的估计足够准确,倾向模型才能够学好,而相关性的学习又依赖于一个好的倾向模型。对于国内外的相关研究可以得出以下的结论:目前基于用户交互的无偏机器学习方法,依赖于代价高昂的线上随机实验,严苛的数据要求,或者缺乏保证的训练框架,很难在真实的场景落地实施。同时,他们大多围绕传统的相关性指标,比如MAP,NDCG进行优化,而并没有针对一个具体的面向效益提升的目标,导致离线评价指标和真实的线上评价指标之间存在一定的脱节。因此,本领域的技术人员致力于开发一种无偏机器学习方法适用于普遍的数据场景,不需要进行额外的线上交互,同时可以优化真实的线上的效益指标。
技术实现思路
有鉴于现有技术的上述缺陷,本专利技术需要解决的两个问题是,尽可能基于真实的用户交互在不需要额外交互的情况下得到一个无偏的学习目标,并尽可能使得学习的目标贴近真实场景下的效益指标。同时,我们希望学习的方法在测试阶段能够有高效率和低时延。为实现上述目的,本专利技术提供了一种面向收益提升的无偏机器学习排序方法:基于有偏的用户行为数据,建模一个无偏的机器学习排序模型,直接面向收益提升进行优化。进一步地,无偏的机器学习排序模型包括一个位置敏感的点击率预估模型,以及一个排序打分函数。进一步地,其学习过程分两步进行,第一步,学习一个位置敏感的点击率预估模型来得到目标效益的无偏估计;第二步,基于这个效益估计的变化量使用成对损失函数学习一个排序打分函数。进一步地,位置敏感的点本文档来自技高网
...

【技术保护点】
1.一种面向收益提升的无偏机器学习排序方法,其特征在于,基于有偏的用户行为数据,建模一个无偏的机器学习排序模型,直接面向收益提升进行优化。/n

【技术特征摘要】
1.一种面向收益提升的无偏机器学习排序方法,其特征在于,基于有偏的用户行为数据,建模一个无偏的机器学习排序模型,直接面向收益提升进行优化。


2.如权利要求1所述的方法,其特征在于,所述无偏的机器学习排序模型包括一个位置敏感的点击率预估模型,以及一个排序打分函数。


3.如权利要求2所述的方法,其特征在于,其学习过程分两步进行:
第一步,学习所述位置敏感的点击率预估模型来得到目标效益的无偏估计;
第二步,基于上一步得到的无偏估计的变化量使用成对损失函数学习所述排序打分函数。


4.如权利要求3所述的方法,其特征在于,包括如下步骤:
步骤1、从和用户的交互中,得到用户的点击日志;
步骤2、根据具体的应用场景,定义目标效益的形式;所述目标效益的形式包括点击率/购买率的加权求和形式;
步骤3、从所述点击日志中随机抽取Sc个点击数据,训练所述基于位置敏感的点击率预估模型gθ(fi,ki);
步骤4、基于所述点击日志和所述基于位置敏感的点击率预估模型gθ(fi,ki),得到每条查询上所述目标效益的无偏估计;
步骤5、开始所述排序打分函数的学习,首先随机初始化所述排序打分函数si=Φ(fi);
步骤6、根据当前所述排序打分函数进行排序,得到每个查询下的排序列表;
步骤7、随机挑选Sr对来自同一个查询下的文档对,计算交换这对样本之后,目标效益估计的差值;
步骤8、根据每对样本的所述目标效益估计的差值,更新所述排序打分函数Φ(fi);
步骤9、重复步骤6-8,直至所述排序打分函数收敛。


5.如权利要求4所述的方法,其特征在于,所述步骤1中...

【专利技术属性】
技术研发人员:张伟楠戴心仪侯嘉伟西云佳俞勇
申请(专利权)人:上海交通大学
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1