【技术实现步骤摘要】
本专利技术涉及网络舆情分析
,特别涉及一种应用于Web2.0环境下的社交关系驱动的微博主题情感分析方法。
技术介绍
微博是Web2.0时代兴起的一种集成化、开放化的互联网社交服务,它让用户能够向公众发布简短的文本消息。由于其简便的特点,日益受到互联网用户的青睐。目前新浪微博用户规模已经超过3亿,每天都有大量的微博消息发布。在这些海量的微博消息中,有许多饱含个人情感的资源,如何从这些微博消息中高效自动地提取主题与情感是一个很具有研究价值的热点。作为一个社交平台,微博用户与用户之间有关注、粉丝、互相关注等社交关系,其中互相关注的用户常常是熟识的朋友、拥有相似兴趣爱好或性格相近的用户。若某一用户关注了另一用户或两个用户间互相关注,我们通常可以看到一个用户的粉丝经常转载其所关注用户的微博并且表示赞同,并且用户们也会加入其所关注用户发表的话题中进行讨论,由此可知,微博用户所写微博的主题、情感极性与用户所关注的用户或用户的粉丝存在着联系。若两个用户互相关注,两个用户所写微博的总体情感极性(积极、消极)应该相似,若用户U1关注用户U2,则U1所写微博的总体情感极性应与U2所写微博的总体情感极性相似。现有的LDA主题情感模型如JST、S-LDA、DPLDA等可以对微博进行分析得到微博的情感极性,但这些模型都假设文本间是相互独立、没有联系的,这与微博用户关系不符。例如用户U1与用户U2性格相近、拥有共同兴趣,并且在微博上相互关注,用户U1发了一个微博:微博1:“库里的三分球真是太准了,库里太厉害了,很崇拜他!”可以看出,微博1的情感极性是积极的,而且现有的LDA主题 ...
【技术保护点】
一种社交关系驱动的微博主题情感分析方法,其特征在于,包括以下步骤:步骤1、对微博消息集进行微博文本分词、去停用词预处理,提取微博用户关系分布G,并设置情感词典;步骤2、利用情感词典对微博消息进行情感极性与主题归属先验处理:针对词语w,首先按以下方法为w分配主题:生成一个随机数rt,则w所对应的主题t即是第(rt+1)个主题,其中rt∈[0,T],T为微博消息集的主题数;然后按以下方法为w分配情感标签:从情感词典中查找词语w,若情感词典中有w,则将情感词典中w所对应的情感标签l分配给w,否则产生一个随机数rl,则w的情感标签l即是第(rl+1)个情感标签,其中rl∈[0,L],L为情感极性类别数;步骤3、初始化社交关系主题情感模型SRTSM的分布参数并将循环控制计数器C1与C2置0;步骤4:利用社交关系主题情感模型SRTSM不断对变量VarSet=(nm,t,l,nm,t,nm,nt,l,w,nt,l)、和进行如下迭代更新直到循环控制计数器C1达到最大迭代次数:步骤41:判断C1是否大于设定值X,是则转步骤5,否则转下一步骤;步骤42:对每条微博d中的每个词语w,首先从VarSet中除去 ...
【技术特征摘要】
1.一种社交关系驱动的微博主题情感分析方法,其特征在于,包括以下步骤:步骤1、对微博消息集进行微博文本分词、去停用词预处理,提取微博用户关系分布G,并设置情感词典;步骤2、利用情感词典对微博消息进行情感极性与主题归属先验处理:针对词语w,首先按以下方法为w分配主题:生成一个随机数rt,则w所对应的主题t即是第(rt+1)个主题,其中rt∈[0,T],T为微博消息集的主题数;然后按以下方法为w分配情感标签:从情感词典中查找词语w,若情感词典中有w,则将情感词典中w所对应的情感标签l分配给w,否则产生一个随机数rl,则w的情感标签l即是第(rl+1)个情感标签,其中rl∈[0,L],L为情感极性类别数;步骤3、初始化社交关系主题情感模型SRTSM的分布参数并将循环控制计数器C1与C2置0;步骤4:利用社交关系主题情感模型SRTSM不断对变量VarSet=(nm,t,l,nm,t,nm,nt,l,w,nt,l)、和进行如下迭代更新直到循环控制计数器C1达到最大迭代次数:步骤41:判断C1是否大于设定值X,是则转步骤5,否则转下一步骤;步骤42:对每条微博d中的每个词语w,首先从VarSet中除去当前词语w所属的情感标签与主题,再通过用户关系分布G查找与当前微博...
【专利技术属性】
技术研发人员:黄发良,何万莉,潘传迪,元昌安,李超雄,
申请(专利权)人:福建师范大学,
类型:发明
国别省市:福建;35
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。