当前位置: 首页 > 专利查询>彭博专利>正文

商品大数据并行云平台推荐精准推送系统技术方案

技术编号:35030296 阅读:35 留言:0更新日期:2022-09-24 23:04
本申请针对商品推荐方法涉及大量的迭代运算,在并行云平台上搭建并改进商品推荐系统,解决了分离云推荐在评分稀疏时推荐精度不高的问题,分阶段提出两个层级的改进方法,分别是基于n个近似用户近似度加权的分离云推荐和基于标签的近似度加权分离云推荐,深入挖掘用户历史行为记录,根据用户偏好向用户推荐其可能感兴趣的商品;另外,进一步改进云计算平台下推荐方法并行化,在分布式大数据云平台下实现推荐系统近似度并行化,并对并行云平台下推荐方法并行化解析优化,使其在处理商品大数据时执行效率和精确度更高。在当今电商平台数据量大的分布式环境中具有推荐精准、效率高、鲁棒性好、跨平台能力强、硬软件要求低的独特优势。优势。优势。

【技术实现步骤摘要】
商品大数据并行云平台推荐精准推送系统


[0001]本申请涉及一种网购商品大数据云平台推送系统,特别涉及一种商品大数据并行云平台推荐精准推送系统,属于电商云计算推送


技术介绍

[0002]随着互联网技术和信息技术的飞速发展,大数据时代已经来临。然而随着数据量的不断增大,从海量数据中获取对人们有价值的信息正在变的越来越困难,信息过载问题日趋严重。搜索引擎在一定程度上解决了这一问题。但当前的搜索引擎只能根据用户相对明确的需求进行搜索。但很多时候,人们并不能明确的描述自身的需求,甚至不知道如何描述自身需求,推荐系统根据用户历史行为,向用户主动推送用户想要的信息,并不需要用户描述自身需求。电商推荐系统是一种软件工具和技术方法,它可以向用户建议有用的商品。当前推荐系统的实际应用已随处可见,如淘宝、亚马逊、京东、优酷等都有自己的推荐系统,但推荐效果并不完全令人满意,推荐方法依然有很大的进步空间。此外随着数据量的急剧增大,推荐效率不高的问题日益凸显。能否将最新的大数据处理技术改进后运用到商品推荐系统中,成为解决网购推荐系统效率不高的一种可行方案。
[0003]推荐系统发展至今已有30多年的历史。早期推荐系统是基于内容的,通过提取商品自身特征信息进行推荐,随着推荐范围的不断扩大,这种推荐方法的局限性也逐渐显露出来,于是各种新的推荐方法相继出现,2007年ACM推荐系统会议正式成立。
[0004]自从2006年Netflix的电影推荐系统比赛举办以来,隐语义模型迅速成为热点,这当中比较有名的是基于SVD的模型,但SVD分解存在计算复杂,存储空间大的问题,无法用于实际的推荐系统,NetflixPrize大赛中FunkSVD方法的提出,才真正使基于SVD模型的推荐方法能用于实际的推荐系统中。
[0005]目前推荐系统广泛运用于音视频网站、社交网络、新闻网站、个性化广告、电子商务等。像阿里、腾讯、优酷等互联网大公司也早将自己的推荐业务迁移到云平台上。
[0006]但是,现有技术的商品大数据电商平台推荐推送系统仍然存在若干问题和缺陷,本申请解决的问题和关键技术难点包括:
[0007](1)当前电子商务领域信息过载问题越来越严峻,消费者面对海量的商品无法做出正确的选择,而电商平台又无法针对性个性化的进行商品推荐,导致推荐系统的商品推荐精准度较差,有时间甚至造成消费者的反感,而如果要提高推荐精度,需要综合大量的数据进行大量的计算,但受制于硬软件等各方面的限制,大数据复杂计算下的商品推荐性价比依旧不高,存在成本高、速度慢、准确度依然不够的缺陷,推荐系统依然无法有效解决商品信息过载问题,当前亟需一种高效的商品推荐系统作为联系用户与商品的桥梁,通过深入挖掘用户历史行为记录,获取用户偏好,根据用户偏好向用户推荐其可能感兴趣的商品,因此亟需提升推荐方法的推荐准确度,解决传统推荐系统面对海量数据工作效率低下的问题,将大数据处理技术改进后应用到推荐系统中,解决当前电商推荐系统工作效率低下的问题。
[0008](2)现有技术的商品推荐系统存在推荐速度慢且准确率不高的问题,面对海量商品数据,现有技术缺少基于并行云的大数据处理框架,针对商品推荐方法涉及大量的迭代运算没有很好的处理方法,缺少在并行云平台上搭建商品推荐系统的方法,无法解决分离云推荐在评分稀疏时推荐精度不高的问题,缺少基于n个近似用户近似度加权的分离云推荐,在计算商品评分偏差时,无法分离无关用户的评分,缺少以用户近似度作为加权权重。缺少基于标签的近似度加权分离云推荐方法,未考虑评分数据的稀疏性,采用商品评分计算的近似度不够准确,特别是在数据稀疏时,预测评分缺少以商品近似度为权重进行加权。现有技术缺少云计算平台下推荐方法并行化方法,无法在并行云分布式大数据处理平台下实现推荐系统近似度并行化,在处理商品大数据时执行效率和精确度不高,实际利用价值不高。
[0009](3)现有技术商品云平台推荐存在忽略用户近似的缺陷,缺少对近似用户按近似度大小排序,在计算商品评分偏差时,缺少按用户近似度加权,预测精度低。相邻用户的选择取决于用户之间的近似程度,不同用户对商品的偏好不同,导致评分差异较大,现有技术不能分离掉一些兴趣差别较大的用户,无法选取与目标用户近似度较高的用户评分预测,造成推荐准确率低,同时计算量还很大。另外,现有技术较多的是基于Hadoop大数据处理云平台的推荐系统,但Hadoop平台会将中间结果保存到外部存储器上,频繁的I/O访问,导致系统效率低下,并且Hadoop的MapReduce只提供了Map和Reduce两个操作,编码难度较高。
[0010](4)当评分数据集较为稀疏时,现有技术预测精度不高,当用户评分较少时,用户近似度的计算并不准确,某两个被认为近似度很高的用户,可能仅仅因为他们对某一商品有相同的评分,但其实他们并不近似,现有技术通过矩阵填充解决,但人工填充费时费力,自动填充误差较大,且矩阵填充完毕之后会导致计算量和存储量增大,对于像淘宝这样的大型电商平台,用户实际评分商品数相对于系统中的商品数来说微乎及微,采用矩阵填充成本太高,不切合实际,现有技术商品的近似度计算缺少通过商品内容计算,在评分较少时,通过内容计算的近似度更准确。缺少通过标签来表征其内容,利用标签的近似度替代商品内容的近似度。现有技术本身除去忽略用户的近似度之外,也忽略了商品的近似度,造成准确度低,计算量大,在大规模推广应用中存在很大的弊端。

技术实现思路

[0011]针对当前电商图片信息过载问题越来越严峻,本申请的商品大数据并行云平台精准推送系统提供一种有效解决方案,针对分离推荐方法存在的缺陷,本申请提出了两种改进方法,基于n个近似用户的近似度加权分离云推荐方法和基于标签的近似度加权分离云推荐方法,同时,进一步改进云计算平台下推荐方法并行化,并对并行云平台下推荐方法并行化解析优化,使其在处理商品大数据时执行效率和精确度更高。本申请专门针对电商大数据设计得准确推荐系统,通过深入挖掘用户历史行为记录,获取用户偏好,根据用户偏好向用户推荐其可能感兴趣的商品,准确度和大数据处理速度都有大幅提升,该商品推荐系统可作为联系用户与商品的桥梁,缺少了大数据时代,传统推荐系统面对海量数据工作效率低下的问题,将大数据处理技术改进后应用到推荐系统中,特别是在当今电商平台数据量大的分布式环境中具有推荐精准、效率高的独特优势。
[0012]为实现以上技术效果,本申请所采用的技术方案如下:
[0013]商品大数据并行云平台推荐精准推送系统,基于并行云的大数据处理框架,针对商品推荐方法涉及大量的迭代运算,在并行云平台上搭建商品推荐系统,解决分离云推荐在评分稀疏时推荐精度不高的问题,分阶段提出两个层级的改进方法,分别是基于n个近似用户近似度加权的分离云推荐和基于标签的近似度加权分离云推荐;
[0014]第一,基于n个近似用户的近似度加权分离云推荐:基于与目标用户近似度低的用户不参与评分预测,否则导致评分预测值不准,另外与目标用户越近似的用户在计算商品评分偏差时,其比重也越大,对近似用本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.商品大数据并行云平台推荐精准推送系统,其特征在于:基于并行云的大数据处理框架,针对商品推荐方法涉及大量的迭代运算,在并行云平台上搭建商品推荐系统,解决分离云推荐在评分稀疏时推荐精度不高的问题,分阶段提出两个层级的改进方法,分别是基于n个近似用户近似度加权的分离云推荐和基于标签的近似度加权分离云推荐;第一,基于n个近似用户的近似度加权分离云推荐:基于与目标用户近似度低的用户不参与评分预测,否则导致评分预测值不准,另外与目标用户越近似的用户在计算商品评分偏差时,其比重也越大,对近似用户按近似度大小排序,取近似度较大的前n个近似用户参与评分预测,另外,在计算商品评分偏差时,按用户近似度加权,进一步提高预测精度;第二,基于标签的近似度加权分离云推荐:基于在进行商品评分预测时,采用商品近似度加权比同时评分用户数加权更准确,另外对于稀疏的商品评分矩阵,通过商品标签计算的商品近似度比通过商品评分计算的商品近似度更可靠,在计算商品近似度时,考虑评分数据的稀疏性,采用商品标签计算的近似度替代采用商品评分计算的近似度,在数据稀疏时通过标签计算的商品近似度更加准确,在预测评分时以商品近似度为权重进行加权;另外,进一步改进云计算平台下推荐方法并行化:在并行云分布式大数据处理平台下实现推荐系统近似度并行化,基于n个近似用户的近似度加权分离云推荐并行化,基于标签的近似度加权分离云推荐方法并行化,并对并行云平台下推荐方法并行化解析优化,使其在处理商品大数据时执行效率和精确度更高。2.根据权利要求1所述商品大数据并行云平台推荐精准推送系统,其特征在于,基于n个近似用户的近似度加权分离云推荐:通过选取与目标用户近似度较大的前n个用户进行评分预测,且在计算商品评分偏差时,融入用户近似度,基于n个近似用户的近似度加权分离云推荐方法中商品j相对于商品i的评分偏差计算式为:其中,R为整个评分数据,r
vi
和r
vj
分别表示用户v对商品i和商品j的评分,S
ji
(R)表示同时对商品i和商品j有评分,且与用户u近似的前n个用户的集合,sim(u,v)表示用户u和用户v的近似度,采用皮尔逊关联因子计算用户之间的近似度,|sim(u,v)|表示sim(u,v)的绝对值,分母用|sim(u,v)|代替sim(u,v)避免负的权重会导致预测评分超出允许的范围;利用式1计算商品j与商品i的评分偏差之后,采用分离云推荐方法中的式2计算用户u对商品j的预测值:采用dev
ji
+r
ui
获得用户u对商品j的一个评分预测值,Relevant(u,j)表示用户u评过分的商品中与商品j被同时评过分的商品集合,得到基于n个近似用户的近似度加权分离云推荐方法的预测结果;从输入、输出、实现流程三个方面对基于n个近似用户的近似度加权分离云推荐方法描述包括:
(1)输入:用户

商品评分矩阵R(mxn),目标用户u,目标商品j,相邻用户个数n;(2)输出:用户u对商品j的pred(u,j)评分;(3)方法的详细实现步骤如下:第一步:获得目标用户u,已经评分商品的集合I
u
;第二步:获取对目标商品j和I中的商品都有评分的用户集合U
ji
;第三步:计算目标用户u与用户集合U
ji
中的每一个用户的皮尔逊关联因子,取皮尔逊关联因子较大的n个用户,构成集合S
ji
(R);第四步:利用式1计算目标商品j和I
u
中的每一个商品的评分偏差dev
ji
;第五步:由式2计算目标用户u对目标商品j的评分预测值pred(u,j)。3.根据权利要求1所述商品大数据并行云平台推荐精准推送系统,其特征在于,基于标签的近似度加权分离云推荐:首先通过商品标签计算商品近似度,在利用分离云推荐进行评分预测时融入商品近似度权重,通过临界值分离、权重校正来提高准确度;(1)临界值分离:通过设定标签近似度临界值,分离标签近似度小于等于近似度临界值的商品,定义sim(i,j)为计算的标签近似度,则标签近似度大于近似度临界值λ的集合,通过式3得出:S(u
j
)={u
j
|sim(i,j)>λ}
ꢀꢀ
式3(2)权重校正:采用商品标签近似度作为权重,加权的预测结果,通过式4计算得到:其中,r
ui
是用户u对商品i评分,sim(i,j)表示商品i和商品j的标签近似度,采用近似因子计算商品之间的标签近似度,S(u,j)表示用户u评过分的商品中与商品j被同时评过分,且与商品j的近似度大于近似度临界值λ的商品集合,S(i,j)={i|i∈S(u),i≠j,|S
j,i
(R)|>0,sim(i,j)>λ},其中S(u)为表示用户u评过分的商品集合,|S
j,i
(R)|表示对商品i和商品j同时评分的用户数,dev
ji
表示商品j与商品i的平均评分偏差,dev
ji
+r
ui
为用户u通过对商品i的评分对商品j的评分的预测值;其中r
ui
和r
uj
分别表示用户u对物品i和物品j的评分,R为整个评分数据矩阵,S
ji
(R)表示同时对物品i和物品j评分的用户集合,|S
ji
(R)|表示集合S
ji
(R)中用户的数量,采用式5计算商品j与商品i的平均偏差之后,采用式4计算用户u对商品j的预测值,即得到改进方法的预测结果。4.根据权利要求3所述商品大数据并行云平台推荐精准推送系统,其特征在于,基于标签的近似度加权分离云推荐方法:从输入、输出、实现流程三个方面对基于标签的近似度加权分离云推荐方法进行描述,包括:(1)输入:商品标签矩阵T(h
×
n),商品标签矩阵为预处理过的布尔型矩阵,用户

商品评分矩阵R(m
×
n),目标用户u,目标商品j,标签近似度临界值λ;(2)输出:目标用户u对目标商品j的预测评分pred(u,j);
(3)方法的详细实现步骤如下:第1步:采用近似因子公式计算标签之间的近似度;第2步:从目标用户u已评分的商品中选取与目标商品j有共同评分用户的商品,再从中选择与目标商品j的标签近似度大于λ的商品,构成商品集S(u,j);第3步:利用式5计算目标商品j与S(u,j)中的每一个商品的平均偏差dev
ji
;第4步:由式4计算目标用户u对目标商品j的预测值pred(u,j)。5.根据权利要求1所述商品大数据并行云平台推荐精准推送系统,其特征在于,基于n个近似用户的近似度加权分离云推荐方法时间复杂度解析分为四步:步骤一:计算目标用户的近似用户集合:该步需要遍历所有用户,用户总数为m,计算目标用户与每一个用户的近似度,而计算用户间的近似度时,需要遍历用户有过评分的所有商品,用户平均有过评分的商品数为a*n,这一步的时间复杂度为Θ(amn);步骤二:对目标用户近似用户集合排序:采用快速排序法,时间复杂度为Θ(m log2m);步骤三:计算商品间评分偏差的平均值:用户平均评过分的商品为a*n个,计算目标用户评过分的每一个商品与目标商品的评分偏差时,需要遍历近似用户集合从中选择对这两个商品同时评过分的n个用户,假设平均需要遍历g次,这一步的时间复杂度为Θ(agn);步骤四:预测目标商品评分:时间复杂度同分离云推荐最后一步,时间复杂度为Θ(an),基于n个近似用户的近似度加权分离云推荐方法的时间复杂度为Θ(amn+m log2m+agn)。6.根据权利要求1所述商品大数据并行云平台推荐精准推送系统,其特征在于,基于标签的近似度加权分离云推荐推荐方法时间复杂度解析分为四步:步骤1:计算同目标商品标签近似的商品集合:需要计算目标商品与所有商品,商品总数为n,的标签近似,而计算商品标签之间的近似度又需要遍历每一个标签,标签数为h,第一步时间复杂度为Θ(hn);步骤2:计算目标用户评过分的商品中近似度大于近似度临界值λ的商品集合,用户平均评过分的商品为a*n个,需要对每一个商品进行比较,第二步的时间复杂为Θ(an);步骤3:计算商品间评分偏差的平均值:假设目标用户评过分的商品中标签近似度大于近似度临界值入的商品的个数平均为d,则第三步的时间复杂度为Θ(dm),其中d≤an;步骤4:预测目标商品评分:遍历d个标签近似的商品,时间复杂度为Θ(d),基于标签的近似度加权分离云推荐推荐方法的时间复杂度为Θ(hn+an+dm)。7.根据权利要求1所述商品大数据并行云平台推荐精准推送系统,其特征在于,云计算平台下近似度并行化:第I步,计算一对商品共同的标签数:首先采用map函数对标签矩阵进行转换,标签矩阵的形式为(item,label),转换后rdd1的形式为(label,item),采用join函数对rddl自身进行笛卡尔乘积,生成的rdd2的形式为(label,(item1,item2));接着采用map函数将rdd2转换为rdd3,rdd3的形式为((item1,item2),1),再利用reduceByKey函数对商品1与商品2的共同标签数进行进行计算,生成rdd4,rdd4的形式为((item1,item2),count);紧接着利用filter函数,对rdd4进行不同的分离,生成的rdd5与rdd6,rdd5的形式与rdd4一致,是由rdd4的对角线元素组成的对角矩阵,rdd6的形式也与rdd4一致,由rdd4中去掉对角线元素以外的所有元素构成;最后对rdd5进行map转换生成rdd7,rdd7的形式为(item,count),对
rdd6进行map转换生成rdd8,rdd8的形式为(item1,(item2,count12));输入:商品标签矩阵:(item,label)输出:(item,count),(item1,(item2,count_12))其中,item_label_rdd为商品标签矩阵,rdd1的形式为(label,item),rdd2的形式为(label,(item1,item2)),rdd3的形式为((item1,item2),1),rdd4、rdd5、rdd6的形式为((item1,item2),count),rdd7的形式为(item,count),rdd8的形式为(item1,(item2,count12));第II步,计算近似因子:首先利用join函数连接rdd8与rdd7,生成的rdd9形式为(item1,((item2,count_12),count_1)),对rdd9进行m...

【专利技术属性】
技术研发人员:彭博
申请(专利权)人:彭博
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1