基于相似性成对排名的推荐系统物品预测方法技术方案

技术编号:27619514 阅读:22 留言:0更新日期:2021-03-10 10:57
本发明专利技术公开了基于相似性成对排名的推荐系统物品预测方法,该方法的步骤如下:获取推荐系统数据集;针对每个用户将数据集划分为正负样本集合;将正样本集合进一步划分为相似物品组;将数据集、相似物品组、负样本集合重新组成相似物品对组成的数据集;相似成对排名模型初始化;相似成对排名模型训练;物品分数预测和排序。本方法在成对排序方法的基础上,利用物品之间的相似性,推荐系统中现有的贝叶斯个性化排序方法进行了优化,解决了成对排序方法中的头部问题。使用相似性成对排序的推荐系统在物品推荐排名预测性能比原有的成对排序预测方法性能有提升。测方法性能有提升。测方法性能有提升。

【技术实现步骤摘要】
基于相似性成对排名的推荐系统物品预测方法


[0001]本专利技术涉及一种基于相似性成对排名的推荐系统物品排名预测方法,属于推荐系统。

技术介绍

[0002]随着互联网行业的发展,人类社会已进入了一个信息爆炸的时代。信息爆炸是互联网赋予当前时代的特征,信息的快速创造和传播不断加剧了信息爆炸的问题,并且带给人类诸多感受:1.各类商品花样繁多;2.新闻信息飞速增加3.广告信息铺天盖地4.科技信息迅猛递增5.个人接收力严重“超载”。推荐系统作为解决这一问题的有效手段已在各个领域广泛使用。推荐系统的任务是预测一组物品的个性化排名。物品可以是网站、电影、商品等。简言之就是根据用户的偏好推荐其最有可能感兴趣的内容。图1表示了一个简单的推荐系统。推荐系统在现实生活中应用广泛。Netflix为电影和电视推荐举行了Netflix Prize大赛,华盛顿邮报在trec中添加了新闻推荐赛道,阿里巴巴研究网上购物行为中利用推荐系统提高用户转化率,以及帮助学者们发现合适论文的推荐系统。Top

N推荐系统能够帮助用户以极小的时间和精力代价下寻找到自己想要的物品,有着充分的研究价值。
[0003]推荐系统中用户行为极为稀少,而待推荐的物品数量庞大。其中,待推荐的物品中既包含了用户看过而不喜欢的物品,也包含了用户可能喜欢但是没有看到的物品。与分类问题不同的是,推荐中的用户不与项目进行交互有一些原因。可能是用户真的不喜欢这个项目,或者用户没有看到这个项目。为了更好的建模推荐问题,成对排序方法没有直接预测用户是否喜欢某一个物品,而是从排序学习的角度考虑推荐系统所面临的问题。具体而言,成对排序方法从用户的历史行为中学习物品的偏序信息,并增大正负样本对之间的得分差异,得分高的物品便是用户喜欢的物品。贝叶斯个性化排序是一种建立成对学习模型的有效方法,广泛应用于Top

N推荐中。然而,数据分布的不平衡会严重影响贝叶斯个性化排序有效性。贝叶斯个性化排序往往将流行项目排在个性化项目之前,以至于无法满足用户的个性化需求。

技术实现思路

[0004]本专利技术用于解决贝叶斯个性化排序有效性受数据分布的不平衡影响的问题,具体提出了一种基于成对物品相似性的推荐系统物品预测方法。该方法在贝叶斯个性化排序的基础上,利用了正样本之间的相似性,改进原有方法的学习效果。
[0005]为实现上述目的,本专利技术采用的技术方案基于成对排名进行改进的相似性成对排名的推荐系统物品预测方法,如图所示,该方法的实现步骤如下:
[0006]步骤(1)获取推荐系统数据集;推荐系统数据集表示为(用户、物品、用户对物品的评分),其中用户用u表示,物品分为正样本i和负样本j,用户对物品的评分用r表示,由用户给出评分的物品称为正样本,未由用户给出评分的物品称为负样本;
[0007]步骤(2)根据用户,把推荐系统数据集中的物品划分为正负样本集合,其中,使用
V
u
表示用户u的正样本集合,V\V
u
表示用户u的负样本集合;
[0008]步骤(3)把用户的正样本集合划分为多个相似物品组,具体的,用户的评分范围为1

S,将用户u的正样本继续划分为S个子集合每个子集合中的物品拥有相同的用户评分,子集中的任意两个物品称为相似物品,每个子集合为一个相似物品组;
[0009]步骤(4)将推荐系统数据集、相似物品组集合、负样本集合重新组织为相似物品对数据集,其中,相似物品对表示为<u,i,q,j>,其中,q表示与正样本i相似的正样本,即物品i的相似物品,j表示负样本;
[0010]步骤(5)构建相似性成对排名模型并初始化;
[0011]在推荐系统中,常常使用向量来分别表示用户和物品并进行计算。为了解决贝叶斯个性化排序有效性受数据分布的不平衡影响的问题,相似性成对排名模型建模了两个正样本之间的相似性以及正样本和负样本之间的差异性。相似性成对排名模型要求两个正样本之间的分数差异尽可能的小,这样就可以使被某些用户喜欢的物品可以像流行物品一样拥有较高的分数。同时,模型也要求正样本和负样本之间的分数差异尽可能的大,这样做的好处是模型能够很好的区分用户喜欢的物品和不喜欢的物品。模型还加入了正则化项防止过拟合。所述的相似性成对排名模型用于最优化用户及物品的向量表示,使用户u喜欢的物品的向量表达更加接近,用户u不喜欢的物品的向量表达更加的不同,具体如下:其中,Ds表示步骤(4)得到的相似物品对数据集,α为超参数,用于控制物品的相似性对目标函数和结果的影响,σ为sigmoid函数,表示正样本i和负样本j之间的得分差异,表示正样本i和另一个正样本q之间的得分差异,||X||2和||Y||2表示正则化项,用于防止模型学习过拟合,表示正则化项,用于防止模型学习过拟合,表示用户u对物品m的预测分数,X
u
表示用户u的向量表示,X表示所有用户向量组成的用户矩阵,X
u
是矩阵X的第u行,X
uk
是X中第u行第k列的元素,Y表示所有物品向量组成的物品矩阵,Y
m
表示任一物品m的向量表示,也是矩阵Y的第m行;K表示预设的向量维度;初始化:本方法利用向量来表示数据集中的每一个用户和物品,本方法中采用高斯分布随机初始化所有用户向量和物品向量;
[0012]步骤(6)相似性成对排名模型训练,得到用户和物品的最优向量表示;
[0013]步骤(7)物品分数预测和排序;根据步骤(6)得到的每一个用户的最优向量表示和每一个物品的最优向量表示,使用打分函数预测用户对每一个物品的喜好分数,然后根据分数对所有物品进行排序,最后根据实际需求生成推荐列表,其中,打分函数如下:
有益效果本方法在成对排名的基础上,利用了正样本之间的相似性,改进原有方法的学习效果,解决了使用成对排序方法时遇到的头部问题。使用相似性成对排序的推荐系统预测性能比原来的成对排序的推荐系统性能显著提升。
附图说明
[0014]图1为推荐系统示意图
[0015]图2为本方法流程图
具体实施方式
[0016]本专利技术的目的在于提出一种基于物品相似性的推荐系统物品预测方法,在成对排序的基础上,利用物品之间的相似性产生更加个性化的推荐结果。
[0017]为了实现上述目标,本专利技术采用的技术方案为基于成对排序的基于相似性成对排序的推荐系统物品排序预测方法,如图所示。该方法的实现步骤如下:
[0018]步骤(1)获取推荐系统数据集:
[0019]推荐系统数据集主要记录了真实世界中用户对物品的评分信息(u,i,r),其中,u表示物品,i表示物品,r表示u对i的评分数值。例如(张三,《我和我的祖国》,5)表示张三给电影《我和我的祖国》打了5分。推荐系统常用的数据集有MovieLens1M数据集。其中记录了6040个用户对3952部电影的共100万条评分。分数范围为1

5分。数据集的格式为{本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于相似性成对排名的推荐系统物品预测方法,其特征在于:包括以下步骤,步骤(1)获取推荐系统数据集,表示为(用户、物品、用户对物品的评分),其中,用户用u表示,物品分为正样本i和负样本j,用户对物品的评分用r表示,由用户给出评分的物品称为正样本,未由用户给出评分的物品称为负样本;步骤(2)根据用户,把推荐系统数据集中的物品划分为正负样本集合,其中,使用V
u
表示用户u的正样本集合,V\V
u
表示用户u的负样本集合;步骤(3)把用户的正样本集合划分为多个相似物品组,具体的,用户的评分范围为1

S,将用户u的正样本继续划分为S个子集合每个子集合中的物品拥有相同的用户评分,子集中的任意两个物品称为相似物品,每个子集合为一个相似物品组;步骤(4)将推荐系统数据集、相似物品组集合、负样本集合重新组织为相似物品对数据集,其中,相似物品对表示为<u,i,q,j>,其中,q表示与正样本i相似的正样本,即物品i的相似物品,j表示负样本;步骤(5)构建相似性成对排名模型并初始化;所述的相似性成对排名模型用于最优化用户及物品的向量表示,使用户u喜欢的物品的向量表达更加接近,用户u不喜欢的物品的向量表达更加的不同,具体如下:其中,Ds表示步骤(4)得到的相似物品对数据集,α为超参数,用于控制物品...

【专利技术属性】
技术研发人员:杨震刘俊锐李童
申请(专利权)人:北京工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1