基于相似性传播与流行度降维的混合推荐方法技术

技术编号:10701050 阅读:138 留言:0更新日期:2014-12-03 10:26
本发明专利技术涉及一种基于相似性传播与流行度降维的混合推荐方法,对稀疏的数据进行了两阶段处理,首先通过相似性传播方法,利用用户、资源及Tag的相似矩阵不断迭代以扩展它们的邻居,从而填充为零的元素;之后,考虑到原始数据存在无意义的垃圾Tag问题,将搜索引擎中的评分算法引入进来计算Tag的流行度,删除流行度低于某个阈值的Tag以精简数据,从而对矩阵降维。而将基于内容的推荐与协同过滤推荐结合起来,既可以使得推荐结果具有多样性,又可以一定程度上缓解稀疏性和冷启动的问题。提供了对个性化推荐过程中数据稀疏性问题的一种解决方法,该方法对推荐结果精度高,具有准确性高、可靠性高的优点。

【技术实现步骤摘要】
基于相似性传播与流行度降维的混合推荐方法
本专利技术涉及一种数据挖掘的个性化推荐技术,特别涉及一种基于相似性传播与流行度降维的混合推荐方法。
技术介绍
在个性化推荐算法的研究中,社会化标签作为一种重要的显示评分技术,不仅可以描述资源而且可以表征用户的偏好,因此结合社会化标签的推荐正成为互联网推荐引擎中的研究热点。然而大多数推荐算法的研究都面临着数据稀疏性的问题。目前解决稀疏性问题的研究方法主要分为采用各种技术对矩阵进行填充和数据降维两大类。在对矩阵进行填充方面,最简单的矩阵填充方法是将用户未评分项目设为一个固定的缺省值,可以是用户对其他项目的平均评分值或其他用户对该项目的平均评分值,但该方法对用户的推荐质量有待提高。另一种矩阵填充方法是采用预测填充方法,如采用BP神经网络对项目进行预测,但网络模型的学习速度较慢,算法效率较低,而且对用户的推荐质量有待提高;采用朴素贝叶斯方法估算项目所属的分类,利用此类中其他项目的评分来预测未评分项目的评分,从而减小数据稀疏性。另外有一些研究利用相似性传播的方法,假定用户的品味具有传递性,并利用此传递性对矩阵进行填充,这些方法对用户的推荐质量有明显的提升。但是,目前基于相似性传播来填充矩阵的方法只考虑了两维空间:用户和资源。将Tag这一维空间考虑进来解决数据稀疏性问题更有意义。在数据降维方面,采用奇异值分解技术可以减少向量空间的维数。有些研究将主成分分析(PCA)用在推荐中,利用主成分分析对评分数据预处理,原始评分数据被投射到最相关的主特征向量上。还可以采用聚类的方法,利用用户间相似性对用户聚类,将离目标用户最近的一个类的所有用户作为其邻居,从而对数据进行降维度。这些方法的优点是能有效提高推荐系统的预测准确率,不足之处是算法的复杂度比较高。
技术实现思路
本专利技术是针对推荐算法中数据存在稀疏性的问题,提出了一种基于相似性传播与流行度降维的混合推荐方法,提供了对个性化推荐过程中数据稀疏性问题的一种解决方法,该方法对推荐结果精度高,具有准确性高、可靠性高的优点。本专利技术的技术方案为:一种基于相似性传播与流行度降维的混合推荐方法,具体包括如下步骤:1)数据建模:利用原始用户、资源及Tag的三元数据构建二元数据模型,即构建稀疏矩阵UT矩阵、UR矩阵及RT矩阵,其中:U={u1,u2,...,um}表示m个用户集合,R={r1,r2,...,rn}表示n个资源集合,T={t1,t2,...,tp}表示p个Tag集合;2)相似性计算:通过步骤1)所得二元数据模型,采用pearson相关系数计算用户之间、资源之间及Tag之间的相似性值,计算相似矩阵UU矩阵、RR矩阵及TT矩阵;3)相似性传播:利用步骤2)所得相似矩阵对步骤1)稀疏矩阵进行迭代以传播和扩展它们的相似邻居,每迭代一次,需要对稀疏矩阵进行一次标准化,从而填充为0的元素;4)流行度降维:通过改进PageRank算法,利用资源、用户和Tag三者之间的互增强关系进行迭代,得到最终Tag的流行度值,删除流行度低于阈值的Tag,从而对矩阵降维;5)混合推荐:使用平衡因子α,综合基于内容的推荐和协同过滤推荐算法,为用户生成推荐。所述步骤1)三元数据是关于用户、资源及Tag之间关系的数据,每条记录为一个三元关系,形式为:用户ID,资源ID,Tag1,Tag2,...,Tagq,其中q≤p,表示用户对一个资源标注了一组标签,稀疏矩阵UT矩阵、UR矩阵及RT矩阵如下表示:uti,j表示用户ui使用Tagtj标注的资源数;rti,j表示资源ri被Tagtj标注的用户数。所述步骤2)中相似矩阵UU矩阵、RR矩阵及TT矩阵计算:用户间的相似矩阵UU的元素uui,j表示用户ui与用户uj的相似性,该相似性分别通过UR矩阵和UT矩阵来计算,然后取两个相似性的均值,公式为:其中,simi,j(UR)是根据矩阵UR得到的用户ui和用户uj的相似性,simi,j(UT)是根据UT矩阵得到的用户ui和用户uj的相似性;资源间相似性矩阵RR的元素rri,j表示资源ri与rj的相似性,该相似性分别通过UR矩阵和RT矩阵来计算,然后取两个相似性的均值,公式为:其中,是根据矩阵UR得到的资源ri和资源rj的相似性,是根据RT矩阵得到的资源ri和资源rj的相似性;Tag间相似性矩阵TT的元素ttt,j表示Tagti与tj相似性,该相似性分别通过UT矩阵和RT矩阵来计算,然后取两个相似性的均值,公式为:其中,表示利用矩阵UT得到的Tagti与tj相似性,表示利用矩阵RT得到的Tagti与tj相似性。所述相似性计算:其中,R(ui)表示用户ui标注的资源集合,R(uj)表示用户uj标注的资源集合;r为用户ui和用户uj共同标注的资源;表示用户ui对资源r的偏好值,表示用户ui对所有标注过的资源的平均偏好值;表示用户uj对资源r的偏好值,表示用户uj对所有标注过的资源的平均偏好值;其中,T(ui)表示用户ui标注的Tag集合,T(uj)表示用户uj标注的Tag集合;t为用户ui和用户uj共同标注的Tag;表示用户ui对Tagt的偏好值,表示用户ui对所有标注过的tag的平均偏好值;表示用户uj对Tagt的偏好值,表示用户uj对所有标注过的Tag的平均偏好值;其中,U(ri)表示标注资源ri的用户集合,U(rj)表示标注资源rj的用户集合;u为同时标注资源ri和资源rj的用户;表示用户u对资源ri的偏好值,表示所有标注过资源ri的用户对资源ri的平均偏好值;表示用户u对资源rj的偏好值,表示所有标注过资源rj的用户对资源rj的平均偏好值;其中,T(ri)表示资源ri被标注的Tag集合,T(rj)表示资源rj被标注的Tag集合;t为同时标注资源ri和资源rj的Tag;表示资源ri对Tagt的偏好值,表示资源ri对所有标注过的Tag的平均偏好值;表示资源rj对Tagt的偏好值,表示资源rj对所有标注过的Tag的平均偏好值;其中,U(ti)表示Tagti被标注的用户集合,U(tj)表示Tagti被标注的用户集合;u为同时标注Tagti与tj的用户;表示用户u对Tagti的偏好值,表示所有标注过的Tagti的用户对Tagti的平均偏好值;表示用户u对Tagtj的偏好值,表示所有标注过的Tagtj的用户对Tagtj的平均偏好值;其中,R(ti)表示Tagti被标注的资源集合,R(tj)表示Tagti被标注的资源集合;r为同时标注Tagti与tj资源;表示资源r对Tagti的偏好值,表示所有标注过的Tagti的资源对Tagti的平均偏好值;表示资源r对Tagtj的偏好值,表示所有标注过的Tagtj的资源对Tagtj的平均偏好值。5、根据权利要求1所述基于相似性传播与流行度降维的混合推荐方法,其特征在于,所述步骤3)相似性传播公式如下:其中,i表示相似性传播迭代的次数;UTT、RTT和URT分别表示UT矩阵RT矩阵和UR矩阵的转置矩阵;(UT)i+1、(RT)i+1和(UR)i+1分别表示经过i次迭代后的UT矩阵、RT矩阵和UR矩阵。所述步骤4)流行度降维算法基于如下假设:被高素质用户用高质量的Tag标注的资源具有更高价值,而用高质量的Tag标注高价值资源的用户也具有更高的素质,被高素质本文档来自技高网
...
基于相似性传播与流行度降维的混合推荐方法

【技术保护点】
一种基于相似性传播与流行度降维的混合推荐方法,其特征在于,具体包括如下步骤:1)数据建模:利用原始用户、资源及Tag的三元数据构建二元数据模型,即构建稀疏矩阵UT矩阵、UR矩阵及RT矩阵,其中:U={u1,u2,...,um}表示m个用户集合,R={r1,r2,...,rn}表示n个资源集合,T={t1,t2,...,tp}表示p个Tag集合;2)相似性计算:通过步骤1)所得二元数据模型,采用Pearson相关系数计算用户之间、资源之间及Tag之间的相似性值,计算相似矩阵UU矩阵、RR矩阵及TT矩阵;3)相似性传播:利用步骤2)所得相似矩阵对步骤1)稀疏矩阵进行迭代以传播和扩展它们的相似邻居,每迭代一次,需要对稀疏矩阵进行一次标准化,从而填充为0的元素;4)流行度降维:通过改进PageRank算法,利用资源、用户和Tag三者之间的互增强关系进行迭代,得到最终Tag的流行度值,删除流行度低于阈值的Tag,从而对矩阵降维;5)混合推荐:使用平衡因子α,综合基于内容的推荐和协同过滤推荐算法,为用户生成推荐。

【技术特征摘要】
1.一种基于相似性传播与流行度降维的混合推荐方法,其特征在于,具体包括如下步骤:1)数据建模:利用原始用户、资源及Tag的三元数据构建二元数据模型,即构建稀疏矩阵UT矩阵、UR矩阵及RT矩阵,其中:U={u1,u2,…,um}表示m个用户集合,R={r1,r2,…,rn}表示n个资源集合,T={t1,t2,…,tp}表示p个Tag集合;2)相似性计算:通过步骤1)所得二元数据模型,采用Pearson相关系数计算用户之间、资源之间及Tag之间的相似性值,计算相似矩阵UU矩阵、RR矩阵及TT矩阵;3)相似性传播:利用步骤2)所得相似矩阵对步骤1)稀疏矩阵进行迭代以传播和扩展它们的相似邻居,每迭代一次,需要对稀疏矩阵进行一次标准化,从而填充为0的元素;4)流行度降维:通过改进PageRank算法,利用资源、用户和Tag三者之间的互增强关系进行迭代,得到最终Tag的流行度值,删除流行度低于阈值的Tag,从而对矩阵降维;5)混合推荐:使用平衡因子α,综合基于内容的推荐和协同过滤推荐算法,为用户生成推荐。2.根据权利要求1所述基于相似性传播与流行度降维的混合推荐方法,其特征在于,所述步骤1)三元数据是关于用户、资源及Tag之间关系的数据,每条记录为一个三元关系,形式为:用户ID,资源ID,Tag1,Tag2,…,Tagq,其中q≤p,表示用户对一个资源标注了一组标签,稀疏矩阵UT矩阵、UR矩阵及RT矩阵如下表示:uti,j表示用户ui使用Tagtj标注的资源数;rti,j表示资源ri被Tagtj标注的用户数。3.根据权利要求1所述基于相似性传播与流行度降维的混合推荐方法,其特征在于,所述步骤2)中相似矩阵UU矩阵、RR矩阵及TT矩阵计算:用户间的相似矩阵UU的元素uui,j表示用户ui与用户uj的相似性,该相似性分别通过UR矩阵和UT矩阵来计算,然后取两个相似性的均值,公式为:其中,simui,uj(UR)是根据矩阵UR得到的用户ui和用户uj的相似性,simui,uj(UT)是根据UT矩阵得到的用户ui和用户uj的相似性;资源间相似性矩阵RR的元素rri,j表示资源ri与rj的相似性,该相似性分别通过UR矩阵和RT矩阵来计算,然后取两个相似性的均值,公式为:其中,是根据矩阵UR得到的资源ri和资源rj的相似性,是根据RT矩阵得到的资源ri和资源rj的相似性;Tag间相似性矩阵TT的元素tti,j表示Tagti与tj相似性,该相似性分别通过UT矩阵和RT矩阵来计算,然后取两个相似性的均值,公式为:其中,表示利用矩阵UT得到的Tagti与tj相似性,表示利用矩阵RT得到的Tagti与tj相似性。4.根据权利要求3所述基于相似性传播与流行度降维的混合推荐方法,其特征在于,所述相似性计算:其中,R(ui)表示用户ui标注的资源集合,R(uj)表示用户uj标注的资源集合;r为用户ui和用户uj共同标注的资源;表示用户ui对资源r的偏好值,表示用户ui对所有标注过的资源的平均偏好值;表示用户uj对资源r的偏好值,表示用户uj对所有标注过的资源的平均偏好值;其中,T(ui)表示用户ui标注的Tag集合,T(uj)表示用户uj标注的Tag集合;t为用户ui和用户uj共同标注的Tag;表示用户ui对Tagt的偏好值,表示用户ui对所有标注过的Tag的平均偏好值;表示用户uj对Tagt的偏好值,表示用户uj对所有标注过的Tag的平均偏好值;其中,U(ri)表示标注资源ri的用户集合,U(rj)表示标注资源rj的用户集合;u为同时标注资源ri和资源rj的用户;表示用户u对资源ri的偏好值,表示所有标注过资源ri的用户对资源ri的平均偏好值;表示用户u对资源rj的偏好值,表示所有标注过资源rj的用户对资源rj的平均偏好值;其中,T(ri)表示资源ri被标注的Tag集合,T(rj)表示资源rj被标...

【专利技术属性】
技术研发人员:赵海燕郭娣
申请(专利权)人:上海理工大学
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1