【技术实现步骤摘要】
多任务学习模型的训练方法、使用方法及装置
[0001]本公开涉及机器学习
,尤其涉及多任务学习模型的训练方法、使用方法及装置。
技术介绍
[0002]某些应用(APP)为了提高用户的留存率,一般会为用户推荐一些用户感兴趣的物品,以使用户对此物品产生粘性后产生复登的行为,从而提高用户的活跃度。
[0003]现有的推荐策略所使用的复登率预估模型主要依赖用户对推荐物品的点击行为的相关的数据来预估用户的复登率。然而该点击行为的相关的数据中存在大量噪声,会降低推荐准确率。
技术实现思路
[0004]有鉴于此,本公开提供一种多任务学习模型的训练方法、使用方法及装置,以提高推荐准确率。
[0005]第一方面,提供一种多任务学习模型的训练方法,所述多任务学习模型包括第一子任务模型和第二子任务模型,所述第一子任务模型的输出为点击复登率,所述点击复登率用于描述用户登录应用并点击所述应用的推荐物品的情况下,复登所述应用的概率,所述第二子任务模型的输出为未点击复登率,所述未点击复登率用于描述所述用户登录所述应用但未点击所述应用的推荐物品的情况下,复登所述应用的概率;所述方法包括:使用第一样本训练所述第一子任务模型,得到所述第一子任务模型的输出,所述第一样本记录了所述用户登录所述应用并点击所述应用的推荐物品的情况下,复登所述应用的行为;使用第二样本训练所述第二子任务模型,得到所述第二子任务模型的输出,所述第二样本记录了所述用户登录所述应用但未点击所述应用的推荐物品的情况下,复登所述应用的行为;根据所述第一 ...
【技术保护点】
【技术特征摘要】
1.一种多任务学习模型的训练方法,所述多任务学习模型包括第一子任务模型和第二子任务模型,所述第一子任务模型的输出为点击复登率,所述点击复登率用于描述用户登录应用并点击所述应用的推荐物品的情况下,复登所述应用的概率,所述第二子任务模型的输出为未点击复登率,所述未点击复登率用于描述所述用户登录所述应用但未点击所述应用的推荐物品的情况下,复登所述应用的概率;所述方法包括:使用第一样本训练所述第一子任务模型,得到所述第一子任务模型的输出,所述第一样本记录了所述用户登录所述应用并点击所述应用的推荐物品的情况下,复登所述应用的行为;使用第二样本训练所述第二子任务模型,得到所述第二子任务模型的输出,所述第二样本记录了所述用户登录所述应用但未点击所述应用的推荐物品的情况下,复登所述应用的行为;根据所述第一子任务模型的输出和所述第二子任务模型的输出,更新所述多任务学习模型。2.根据权利要求1所述的训练方法,所述多任务学习模型还包括第三子任务模型,所述第三子任务模型的输出为所述应用的推荐物品的点击到达率。3.根据权利要求2所述的训练方法,所述方法还包括:根据所述点击到达率对所述第一子任务模型的损失值和/或所述第二子任务模型的损失值进行逆倾向加权。4.根据权利要求3所述的训练方法,所述对所述第一子任务模型的损失值进行所述逆倾向加权时的权值为所述点击到达率的倒数;和/或,对所述第二子任务模型的损失值进行所述逆倾向加权时的权值为1与所述点击到达率的差值的倒数。5.根据权利要求3或4所述的训练方法,所述第一子任务模型、所述第二子任务模型以及所述第三子任务模型的输入层均为嵌入层,且所述第一子任务模型、所述第二子任务模型以及所述第三子任务模型共享同一嵌入层。6.根据权利要求1所述的训练方法,所述第一样本包括第一用户信息和第一物品信息,所述第一子任务模型包括第一门控结构,所述第一门控结构用于过滤所述第一物品信息中的与所述推荐物品无关的信息;和/或所述第二样本包括第二用户信息和第二物品信息,所述第二子任务模型包括第二门控结构,所述第二门控结构用于过滤所述第二物品信息中的与所述推荐物品无关的信息。7.根据权利要求6所述的训练方法,所述第一门控结构的门控参数是基于所述第一用户信息和所述第一物品信息确定的;和/或所述第二门控结构的门控参数是基于所述第二用户信息和所述第二物品信息确定的。8.一种基于多任务学习模型的物品推荐方法,所述多任务学习模型包括第一子任务模型和第二子任务模型,所述第一子任务模型的输出为点击复登率,所述点击复登率用于描述用户登录应用并点击所述应用的推荐物品的情况下,复登所述应用的概率,所述第二子任务模型的输出为未点击复登率,所述未点击复登率用于描述所述用户登录所述应用但未点击所述应用的推荐物品的情况下,复登所述应用的概率;利用所述多任务学习模型计算第一用户针对多个待推荐物品的点击复登率和未点击
复登率;根据所述第一用户针对所述多个待推荐物品的点击复登率和未点击复登率,向所述第一用户推荐所述多个待推荐物品中的至少一个物品。9.根据权利要求8所述的方法,所述多任务学习模型还包括第三子任务模型,所述第三子任务模型的输出为所述应用的推荐物品的点击到达率,所述方法还包括:利用所述多任务学习模型计算所述第一用户针对多个待推荐物品的点击到达率;所述根据所述第一用户针对所述多个待推荐物品的点击复登率和未点击复登率,向所述第一用户推荐所述多个待推荐物品中的至少一个物品,包括:根据所述第一用户针对所述多个待推荐物品的点击复登率、未点击复登率以及点击到达率,向所述第一用户推荐所述多个待推荐物品中的至少一个物品。10.根据权利要求9所述的方法,所述根据所述第一用户针对所述多个待推荐物品的点击复登率、未点击复登率以及点击到达率,向所述第一用户推荐所述多个待推荐物品中的至少一个物品,包括:根据所述多个待推荐物品各自对应的点击复登率、未点击复登率以及点击到达率,对所述多个待推荐物品进行打分;根据所述多个待推荐物品的打分,对所述多个待推荐物品进行排序;向所述第一用户推荐所述多个待推荐物品中的排序在前K的物品,K为不小于1的整数。11.一种多任务学习模型的训练装置,所述多任务学习模型包括第一子任务模型...
【专利技术属性】
技术研发人员:王东,张阳,申月,
申请(专利权)人:支付宝杭州信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。