当前位置: 首页 > 专利查询>四川大学专利>正文

基于跨平台标签融合的问答社区推荐方法技术

技术编号:16456207 阅读:93 留言:0更新日期:2017-10-25 20:41
本发明专利技术提出了一个跨平台利用标签融合进行兴趣建模的问答社区专家推荐方法。该方法利用跨平台共同用户,通过结合LDA主题模型与word2vec构建标签的词向量,对不同平台文本数据构建标签语义相似度矩阵,生成融合特征空间并得到用户的融合空间模型。相比单一网络的用户模型,跨平台用户模型能更全面覆盖用户不同特性,对用户特征有更清晰的描述。同时综合考虑用户用户的回答能力度及用户跨平台社区影响力,使用基于融合网络的PageRank算法对用户进行权威度评价,再考虑社区反馈对用户进行能力度评价。通过与基准兴趣模型、单一网络用户模型、协同过滤推荐模型等算法进行实验对比,显示出本文提出的算法具有更好的推荐效果。

Question and answer community recommendation method based on cross platform tag fusion

The invention proposes a cross platform expert recommendation method for community interest modeling using tag fusion. The method uses cross platform common users, through the word vector to construct a label with LDA topic model and word2vec, the text data of different platform tag semantic similarity matrix, the fusion feature space generation and fusion model of user space. Compared with the user model of a single network, cross platform user model can more fully cover the different characteristics of users, and have a clearer description of user characteristics. At the same time, considering the ability of answer user and user cross platform community influence, using the PageRank algorithm fusion network authoritative evaluation of the user based on, then consider the ability evaluation of the user community feedback. Compared with benchmark interest model, single network user model, collaborative filtering recommendation model and other algorithms, it shows that the proposed algorithm has better recommendation effect.

【技术实现步骤摘要】
基于跨平台标签融合的问答社区推荐方法
本专利技术涉及到问答社区的专家推荐研究,是基于跨平台标签融合的专家推荐方法。
技术介绍
伴随互联网及信息化的发展,社区问答系统成为用户在网络中获取信息的重要平台,用户可以通过自然语言对自己想了解的内容进行提问,由社区中其他用户进行解答。通过自然语言的交流,使得问答系统可以为用户之间提供很好的知识信息分享,更加方便地满足用户的信息需求。而随着社区问答系统中用户数量的增加,提问的数量也随之增多,社区中许多的问题长时间无法得到解答,或者得到的回答质量不高,根本无法满足问题需求。因此为了提高问答社区的工作效率,我们需要设计合适的推荐系统向社区中的问题推荐合适的回答者,增强用户的社区参与度,提高社区中的内容质量。目前问答社区中的专家推荐算法一般都是利用单一社区的用户文档或网络结构进行对用户进行建模并推荐,但单一平台的数据通常只包含用户的部分特征,并不能全面地构建用户模型。
技术实现思路
本专利技术针对现有推荐算法的不足,利用对跨平台用户数据进行研究,提出了一直基于标签融合的用户兴趣建模方法,并基于此实现问答社区中的专家推荐算法。首先通过对知乎和微博两个平台的数据进行分析,从微博的社交关系以及知乎社区的问答功能出发,结合LDA主题模型与word2vec对文本标签的语义进行深入挖掘,利用标签语义相似度矩阵设计跨平台的标签融合算法,构建融合的用户兴趣模型。相比单一网络的用户模型,跨平台用户模型能更全面覆盖用户不同特性,对用户特征有更清晰的描述。同时综合考虑了社区用户的兴趣偏好、回答能力度及影响力实现专家推荐。算法利用用户知乎和微博平台的历史数据,通过标签融合建模方法对知乎专家用户的兴趣进行分析;对跨平台的共同用户构建融合关注关系网络,结合PageRank算法对用户的综合影响力进行分析;同时通过知乎社区的问答反馈机制,分析用户的回答能力度。通过实验结果表明,本文提出的算法具有更好的推荐效果。本专利技术的有益效果是:通过跨平台的信息构建用户兴趣模型,能更全面获取用户的兴趣偏好。进而考虑用户在问答社区中的回答能力度及影响力,找出最适合对社区中待回答问题进行解答的用户,进行推荐。降低问答社区中问题的等待回答时间,提高社区运行效率。附图说明图1为本专利技术的主题词选取流程。图2为本专利技术的推荐算法流程图。图3为本专利技术的带权重关注网络示意图。具体实施方式本专利技术以知乎问答社区为例,研究知乎与微博平台之间的用户特征关系。通过前两节的分析及数据的处理,我们已经提取到共同用户在两个平台中的兴趣主题,为了得到一个综合的用户兴趣模型,我们需要将两个平台的主题标签进行融合。在对每个用户不同平台的标签向量进行分析时,由于主题提取算法是通过生成概率对主题进行建模,没有考虑词的语义特征,结果导致部分用户的标签中含有许多相似的词。因此如果直接将两个特征空间的词进行合并,将会使得用户的标签空间过大,同时用户在很多特征词上的值为0,导致数据稀疏问题,对用户的建模产生影响。于是我们引入语义相似度分析,通过标签映射的思想,对两个主题空间内的主题标签之间进行语义相似度计算,对于相似度高的两个主题标签,选择其中对用户兴趣指代性强,区分度高的词作为特征词,最终构建融合主题空间。对于每个用户,其知乎标签Rz与微博标签Rw的主题标签相似度矩阵TR定义如下:其中dij来自两个网络的特征词的相似度:dij=Sim(wzi,wwj)其中,wzi代表用户知乎标签中第i个词的词向量,wwj代表用户微博标签中第j个词的词向量,我们通过Word2vec模型进行计算。本专利技术将用户的历史问答及微博分词数据作为输入变量进行训练,设每个词的向量维度为n,对于每一个用户,通过训练好的模型对Rz及Rw中的每个词做词向量转化,得到每一个用户的单一平台主题矩阵:M=[w(t)]其中t属于Rz或Rw,矩阵中每一行w(t)表示用户的主题标签t的n维词向量。通过生成每个平台中的主题标签的词向量,便可以通过向量余弦计算两个平台中各标签之间的相似度,计算公式为:其中ik,jk分布为词向量中每个维度的值。在得到标签相似度矩阵后,对于相似度高的标签,我们需要在两个词中进行选择,挑出其中更具有代表性的词加入到用户的新主题向量。当两个词相似度并不高时,则将两个词同时加入新主题向量,最终得到的新主题向量即融合后的用户主题向量。算法描述流程如下:如果某个词在集合中出现的次数较多,则证明该词更加为被大众所接受,比如(爬山,登山),两者的语义相似度很高,假如大部分用户都是使用“爬山”来说明自己的爱好,则“爬山”一词的词频会较“登山”一词更高,因此文档集合中,“爬山”一次能能更好地表示用户的特征,应该给其赋予较高的权重,用来作为该文档的代表。对于在某个主题分布中的词ti,他的权值表示为该词在各个网络中的权重之和,由于TF值对标签的表示更直观、简洁。因此本文采用改进的TF值进行计算,公式如下:其中wij是该词ti在网络j中原有的权值,nij是该词在网络j中的词频数,nj表示网络j的所有词数量。本专利技术通过空间向量模型来构建用户最终的主题向量,将所有用户的主题分布中的词作为最终的融合主题空间:TS={tag1,tag2,...,tags}并将每个用户的标签映射到融合主题空间中,得到每个用户的主题向量:U={weight1,weight2,...,weights}s为融合主题空间的大小,weighti为第i个词的权值。1.对于一个新问题,需要筛选出曾经回答过相关类似问题的人来作为推荐列表,因此本专利技术通过用户历史回答中的话题标签数据进行筛选。每个问题的话题标签数量为1至5个,对于某个标签,用户在该话题标签下的回答次数多少能反映出用户对该话题相关问题的感兴趣程度。用户回答某个话题标签越多,则用户对该话题的兴趣度越高。2.对于通过筛选后的用户,需要计算其对新问题的兴趣度。对于用户来说,其回答过的问题一定程度上就是其对某个问题领域的兴趣体现,因此本专利技术通过用户在社区中的历史回答数据来构建用户的兴趣模型。本专利技术将知乎-微博的共同用户与非共同用户分别进行建模,得到各自的主题模型,步骤如下:1)对所有知乎用户的历史问答数据处理得到用户分词向量,构建每个用户主题标签向量Rz。2)提取其中关联微博的用户集合,使用3.3.2节的算法构建共同用户的微博主题标签向量Rw。3)通过3.4节提出的标签融合算法,对共同用户的知乎主题标签Rz和微博主题标签Rw进行融合,得到融合主题标签空间TS及共同用户的融合主题向量U。4)统一维度,将非共同用户的主题标签同样映射到标签空间TS中,得到主题向量U′。对于一个新问题q,用户对其进行回答的兴趣度可以通过该问题的内容特征与用户历史回答的主题特征匹配程度来表示,即该用户主题标签与问题标签的相似度,我们将其定义为sim(u,q)。3.对于用户回答问题的能力及专业程度我们通过用户历史回答得到的评价来进行评判。在知乎网络中,用户的回答会得到其他用户的“赞同”或“反对”,在同一问题下,用户得到的赞同数越多,通常能表示用户对该问题发表的观点更加受到认可,回答的质量更高。因此我们通过用户u历史回答的平均得赞数Iu来对用户进行能力度的评判:在问答网络中,热门问题通常会得到更多人的关注,部分回答质量不高的答案本文档来自技高网...
基于跨平台标签融合的问答社区推荐方法

【技术保护点】
一种跨平台利用标签融合进行兴趣建模的问答社区专家推荐方法,其特征在于利用两个平台中的文本数据,通过标签映射,利用Word2vec模型构建语义相似度矩阵,再对相似度高的两个主题标签,选择其中对用户兴趣指代性强,区分度高的词作为特征词,构建融合主题空间。

【技术特征摘要】
1.一种跨平台利用标签融合进行兴趣建模的问答社区专家推荐方法,其特征在于利用两个平台中的文本数据,通过标签映射,利用Word2vec模型构建语义相似度矩阵,再对相似度高的两个主题标签,选择其中对用户兴趣指代性强,区分度高的词作为特征词,构建融合主题空间。2.根...

【专利技术属性】
技术研发人员:彭舰冯勇领黄飞虎
申请(专利权)人:四川大学
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1