一种混合博文与用户关系的社交媒体好友推荐方法技术

技术编号:18783883 阅读:56 留言:0更新日期:2018-08-29 06:59
本发明专利技术公开一种混合博文与用户关系的社交媒体好友推荐方法,通过LDA主题模型在用户微博文本数据中挖掘用户偏好,计算用户博文相似度,同时考虑到微博社交关系的重要性,计算用户之间社交关系的相似度,最终得到用户之间的综合相似度,考虑到微博用户大部分普通用户博文少可挖掘的信息较少,但其社交关系简单可靠,少部分用户主页博文多,可挖掘的文本信息充足,但其社交关系复杂,粉丝数原大于关注数,该类用户社交关系包含较多无用的噪声数据,发明专利技术采用线性加权的方法衡量两种不同的属性信息对推荐结果的影响,并通过实验学习权重参数,最终得到用户推荐列表,提升了推荐结果的质量。

【技术实现步骤摘要】
一种混合博文与用户关系的社交媒体好友推荐方法
本专利技术涉及计算机推荐算法
,具体涉及一种混合博文与用户关系的社交媒体好友推荐方法。
技术介绍
个性化信息推荐现阶段已经广泛应用于各个领域。目前,主流方法包括协同过滤推荐以及基于内容推荐两项。基于内容推荐,即通过内容本身的属性,然后计算内容的相似性,找到与某物品属性相似的物品。协同过滤,所谓协同过滤,即不依赖于物品本身的物品属性,而是通过其他相关特征,例如人参与的行为数据,来达到推荐物品的目的。以微博,facebook,twitter等为代表的新型的社会网络,能够把众多的用户集合在一起,使其既实现了信息的传播,同时也满足了用户的社交需求。在社交媒体的使用中,用户会发布或者转发文本数据(博文),博文可以用来表示用户的兴趣偏好,但是由于博文为短文本特征,存在数据稀疏的问题,如何在海量用户博文中对用户兴趣进行表示,并计算用户博文之间的相似度,是研究人员的一个重要课题。此外,用户还会会形成各种关系,比如,用户之间的关注与粉丝关系、因共同转发或评论某条博文信息或因共同购买某件商品而形成的共有偏好性关系等。充分获取和剖析使用社交媒体过程中产生的复杂关系网可以切实、高效地挖掘用户的兴趣,进而可以有效地进行相关推荐。但是,社交媒体越是被用户认可,则会产生越多的用户量,进而用户间的关系会变得错综复杂。这使得一些事件更加变得不可预测、难以控制,从而给研究人员分析用户间关系以及准确挖掘用户兴趣带来了巨大的困难。如何在错综复杂的用户关系中准确的发现用户兴趣,并对其进行信息推荐,已经成为研究人员一项新的挑战。
技术实现思路
本专利技术所要解决的是现有社交媒体中文本信息丰富和用户关系复杂,以致于个性化信息获取困难的问题,提供一种混合博文与用户关系的社交媒体好友推荐方法。为解决上述问题,本专利技术是通过以下技术方案实现的:一种混合博文与用户关系的社交媒体好友推荐方法,具体包括如下步骤:步骤1、获取社交媒体中用户发布的博文,并采用人工标注的方法对博文所属领域进行分类标记;步骤2、对所获取的博文进行预处理;步骤3、对预处理后的博文采用潜在狄利克雷分配主题模型进行主题生成,构建用户主题矩阵,得到用户生成主题的概率分布;步骤4、对用户生成主题的概率分布采用KL散度计算用户之间的博文相似度;步骤5、获取社交媒体中用户的社交关系,并构建一个用户与用户社交关系的相似度矩阵;步骤6、对用户与用户社交关系的相似度矩阵采用余弦相似度计算用户之间的社交关系相似度;步骤7、对于步骤4所得到的用户之间的博文相似度和步骤6所得到的用户之间的社交关系相似度采用线性加权融合策略进行融合,最终得到目标用户与其他用户之间的综合相似度,最终在该综合相似度排行中取前K项作为最终的推荐列表推荐给目标客户,其中K为设定值。上述步骤2中,对博文进行预处理的过程为:首先删除博文中的噪声数据,然后对去噪后的博文进行分词,最后滤除分词结果中的停用词。上述步骤3中,潜在狄利克雷分配主题模型为一个层次贝叶斯模型,其主要包括单词层、主题层和文档层。上述步骤4中,用户ui和uj之间的博文相似度Sij为:其中,k表示主题个数,表示主题zq在用户ui中的生成概率,表示主题zq在用户uj中的生成概率,X表示主题zq的单词集。上述步骤5中,所获取用户的社交关系包括关注信息和粉丝信息。上述步骤6中,用户ui和用户uj的社交关系相似度SRij为:其中,Fe(ui)为关注向量,Fr(ui)为粉丝向量,上标NORM代表归一化表示,分母是两个向量的长度,分子是两个向量的内积。上述步骤7中,用户之间的综合相似度为:sim(uij)=αSij+(1-α)SRij其中,α为权重,SRij为用户ui和用户uj的社交关系相似度,Sij为用户ui和uj之间的博文相似度。上述步骤7中,还进一步包括通实验学习博文相似度与社交关系相似度之间的权重α的过程。与现有技术相比,本专利技术具有如下特点:(1)对与用户之间内容相似度即文本相似度,采用LDA主题模型和KL距离进行计算,与传统的文本挖掘方法TF-IDF方法和余弦相似度比较,LDA主题模型将用户兴趣用主题表示,而用户的偏好兴趣是隐含的,文本主题也是隐含的,而且由于短文本数据稀疏的原因会导致TF-IDF策略存在过拟合问题;(2)对于用户好友推荐,不仅仅是通过文本来挖掘用户兴趣,还融合了用户之间的社交关系相似度,与单一的基于内容的用户推荐方法,和基于用户的推荐方法比较,混合的推荐策略考虑了多元的相似度信息,在推荐结果上具有更高的准确率;(3)考虑到用户大部分普通用户博文少可挖掘的信息较少,但其社交关系简单可靠,少部分用户(如大V用户)主页博文多,可挖掘的文本信息充足,但其社交关系复杂,粉丝数原大于关注数,该类用户社交关系包含较多无用的噪声数据,在两种相似度融合的阶段采用加权融合策略最终得到用户间综合相似度,与现有的多源信息相似度融合推荐策略相比,并不是单纯的相似度累加,而是通过实验学习最终得到用户推荐列表,推荐结果更具说服力;(4)基于内容的推荐方法对于推荐结果具有很好的可解释性,但推荐结果的准确性往往不佳,基于用户的行为关系的协同过滤在推荐结果上有着一定的准确性,但是对于结果没有很好的解释性,即无法解释为什么给用户推荐的结果就跟用户具有相同兴趣爱好的结果,结合两种方法在提升推荐准确性的同时也让推荐结果具有很好的可解释性。附图说明图1为一种混合博文与用户关系的社交媒体好友推荐方法的流程图。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚明白,下面以微博这一社交媒体为例,对本专利技术进一步详细说明。研究表明,微博用户普遍存在的特征是,关注的人数大于粉丝人数,大多数用户的兴趣是浏览自己关注用户发布或者转发的微博,大部分用户很少发布或者转发微博数据,因此,用户发布或者转发的微博往往更能代表用户的兴趣爱好,由于微博文本存在140个字符的限制,微博文本数据短小,微博文本数据稀疏,如何在微博文本数据和复杂的微博社交关系中挖掘出有用的用户偏好信息并得到用户好友推荐排行序列,是一个研究热点。为此,本专利技术设计一种混合微博好友推荐算法,采用LDA主题模型对用户主页博文进行主题提取,构建用户主题矩阵,并采用KL散度计算计算用户主题分布之间的相似度。定义用户社交关系,构建用户社交关系矩阵,并再用余弦相似度计算用户之间的社交关系相似度。最终采用加权融合策略融合两种相似度信息,并通过实验得到用户好友推荐序列。参见图1,一种混合博文与用户关系的社交媒体好友推荐方法,其具体包括如下步骤:(1)实验数据获取阶段:获取社交网络中用户某一时间段微博原文、采用人工标注的方法将博文分为体育,科技,房地产,股票,情感,娱乐,政治,军事,育儿,环保,健康,旅游,医学,商品等17个领域;每个用户被标记为一个或者多个领域的爱好者,最终得到的推荐好友序列与该用户有同样的爱好领域即可表示推荐有效。在本实施例中,通过新浪微博提供的API,采用爬虫方式来获取本专利技术所需的微博原文,用户关注信息和用户粉丝信息三种实验数据,微博文本数据人工标注为17个类别,最终推荐结果将以分类是否正确的标准来计算准确度。(2)数据预处理阶段:对所有获取的微博文本数据进行预处理,即首先删除数据中的噪声数据,接着本文档来自技高网...

【技术保护点】
1.一种混合博文与用户关系的社交媒体好友推荐方法,其特征是,具体包括如下步骤:步骤1、获取社交媒体中用户发布的博文,并采用人工标注的方法对博文所属领域进行分类标记;步骤2、对所获取的博文进行预处理;步骤3、对预处理后的博文采用潜在狄利克雷分配主题模型进行主题生成,构建用户主题矩阵,得到用户生成主题的概率分布;步骤4、对用户生成主题的概率分布采用KL散度计算用户之间的博文相似度;步骤5、获取社交媒体中用户的社交关系,并构建一个用户与用户社交关系的相似度矩阵;步骤6、对用户与用户社交关系的相似度矩阵采用余弦相似度计算用户之间的社交关系相似度;步骤7、对于步骤4所得到的用户之间的博文相似度和步骤6所得到的用户之间的社交关系相似度采用线性加权融合策略进行融合,最终得到目标用户与其他用户之间的综合相似度,最终在该综合相似度排行中取前K项作为最终的推荐列表推荐给目标客户,其中K为设定值。

【技术特征摘要】
1.一种混合博文与用户关系的社交媒体好友推荐方法,其特征是,具体包括如下步骤:步骤1、获取社交媒体中用户发布的博文,并采用人工标注的方法对博文所属领域进行分类标记;步骤2、对所获取的博文进行预处理;步骤3、对预处理后的博文采用潜在狄利克雷分配主题模型进行主题生成,构建用户主题矩阵,得到用户生成主题的概率分布;步骤4、对用户生成主题的概率分布采用KL散度计算用户之间的博文相似度;步骤5、获取社交媒体中用户的社交关系,并构建一个用户与用户社交关系的相似度矩阵;步骤6、对用户与用户社交关系的相似度矩阵采用余弦相似度计算用户之间的社交关系相似度;步骤7、对于步骤4所得到的用户之间的博文相似度和步骤6所得到的用户之间的社交关系相似度采用线性加权融合策略进行融合,最终得到目标用户与其他用户之间的综合相似度,最终在该综合相似度排行中取前K项作为最终的推荐列表推荐给目标客户,其中K为设定值。2.根据权利要求1所述的一种混合博文与用户关系的社交媒体好友推荐方法,其特征是,步骤2中,对博文进行预处理的过程为:首先删除博文中的噪声数据,然后对去噪后的博文进行分词,最后滤除分词结果中的停用词。3.根据权利要求1或2所述的一种混合博文与用户关系的社交媒体好友推荐方法,其特征是,步骤3中,潜在狄利...

【专利技术属性】
技术研发人员:李志欣游锋生张灿龙
申请(专利权)人:广西师范大学
类型:发明
国别省市:广西,45

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1