一种社交关系驱动的微博主题情感分析方法技术

技术编号:14113705 阅读:152 留言:0更新日期:2016-12-07 11:08
本发明专利技术涉及一种社交关系驱动的微博主题情感分析方法,包括以下步骤:步骤1、对微博消息集进行微博文本分词、去停用词预处理,提取微博用户关系分布G,并设置情感词典;步骤2、利用情感词典对微博消息进行情感极性与主题归属先验处理;步骤3、初始化社交关系主题情感模型SRTSM的分布参数并将循环控制计数器C1与C2置0;步骤4:利用社交关系主题情感模型SRTSM不断对变量VarSet=(nm,t,l,nm,t,nm,nt,l,w,nt,l)、和进行迭代更新;步骤5、判断微博m的情感极性并输出。该方法能够有效发现隐藏于微博消息中的主题情感模式,提高微博情感分类的正确率。

【技术实现步骤摘要】

本专利技术涉及网络舆情分析
,特别涉及一种应用于Web2.0环境下的社交关系驱动的微博主题情感分析方法
技术介绍
微博是Web2.0时代兴起的一种集成化、开放化的互联网社交服务,它让用户能够向公众发布简短的文本消息。由于其简便的特点,日益受到互联网用户的青睐。目前新浪微博用户规模已经超过3亿,每天都有大量的微博消息发布。在这些海量的微博消息中,有许多饱含个人情感的资源,如何从这些微博消息中高效自动地提取主题与情感是一个很具有研究价值的热点。作为一个社交平台,微博用户与用户之间有关注、粉丝、互相关注等社交关系,其中互相关注的用户常常是熟识的朋友、拥有相似兴趣爱好或性格相近的用户。若某一用户关注了另一用户或两个用户间互相关注,我们通常可以看到一个用户的粉丝经常转载其所关注用户的微博并且表示赞同,并且用户们也会加入其所关注用户发表的话题中进行讨论,由此可知,微博用户所写微博的主题、情感极性与用户所关注的用户或用户的粉丝存在着联系。若两个用户互相关注,两个用户所写微博的总体情感极性(积极、消极)应该相似,若用户U1关注用户U2,则U1所写微博的总体情感极性应与U2所写微博的总体情感极性相似。现有的LDA主题情感模型如JST、S-LDA、DPLDA等可以对微博进行分析得到微博的情感极性,但这些模型都假设文本间是相互独立、没有联系的,这与微博用户关系不符。例如用户U1与用户U2性格相近、拥有共同兴趣,并且在微博上相互关注,用户U1发了一个微博:微博1:“库里的三分球真是太准了,库里太厉害了,很崇拜他!”可以看出,微博1的情感极性是积极的,而且现有的LDA主题情感模型也可以正确地分析出微博1的情感极性。然后,用户U2也发了一个微博:微博2:“库里太变态了,简直不是人,太厉害了!”我们可以看出,微博2的情感极性也是积极的,但是现有LDA主题情感模型也许会把微博2的情感极性分类为消极情感极性,这是由于没有考虑用户U1与用户U2之间的关系,因为U1与U2互相关注,一定程度上可以表明他们的性格相似、兴趣相投,用户U1的微博总 体情感极性为积极,那在判断用户U2所发微博的时候,应该认为用户U2的微博为积极情感极性的概率更大,积极情感极性参数就应该比消极情感极性参数大,但是现有LDA主题情感模型假设文本间互相独立,所以无法达到这个效果。从上述分析可知,现有具有代表性的LDA主题情感模型没有很好地考虑微博用户关系,这可能导致微博情感分析准确率降低。
技术实现思路
本专利技术的目的在于提供一种社交关系驱动的微博主题情感分析方法,该方法能够有效发现隐藏于微博消息中的主题情感模式,提高微博情感分类的正确率。为实现上述目的,本专利技术的技术方案是:一种社交关系驱动的微博主题情感分析方法,包括以下步骤:步骤1、对微博消息集进行微博文本分词、去停用词预处理,提取微博用户关系分布G,并设置情感词典;步骤2、利用情感词典对微博消息进行情感极性与主题归属先验处理:针对词语w,首先按以下方法为w分配主题:生成一个随机数rt,则w所对应的主题t即是第(rt+1)个主题,其中rt∈[0,T],T为微博消息集的主题数;然后按以下方法为w分配情感标签:从情感词典中查找词语w,若情感词典中有w,则将情感词典中w所对应的情感标签l分配给w,否则产生一个随机数rl,则w的情感标签l即是第(rl+1)个情感标签,其中rl∈[0,L],L为情感极性类别数;步骤3、初始化社交关系主题情感模型SRTSM的分布参数并将循环控制计数器C1与C2置0;步骤4:利用社交关系主题情感模型SRTSM不断对变量VarSet=(nm,t,l,nm,t,nm,nt,l,w,nt,l)、 和进行如下迭代更新直到循环控制计数器C1达到最大迭代次数:步骤41:判断C1是否大于设定值X,是则转步骤5,否则转下一步骤;步骤42:对每条微博d中的每个词语w,首先从VarSet中除去当前词语w所属的情感标签与主题,再通过用户关系分布G查找与当前微博作者相互关注的用户并利用这些用户微博的情感极性确定用户关系参数λ的值,然后利用吉布斯采样的联合概率p(ti=t,li=l|t-i,l-i,w)重新给w赋一个基于用户关系参数λ的情感标签和主题,同时更新变量VarSet;步骤43:令C2=C2+1,以更新C2;步骤44:判断C2是否大于设定值Y,是则转下一步骤,否则返回步骤42;步骤45:更新和并置C2=0,然后转步骤41;其中nm,t,l表示微博dm中情感极性为l的词语属于主题t的频数,nm,t表示微博dm中属于主题t的词语总频数,nm表示微博dm总词语数,nt,l,w表示词语w同时属于主题t、情感极性l的频数,nt,l表示所有同时属于主题t、情感极性l的词语总频数,表示微博dm中主题t出现的概率,表示所有微博中词语w同时属于主题t和情感标签l的概率,表示微博dm中情感标签l属于主题t的概率;步骤5、判断微博m的情感极性并输出:若其中l1为积极情感,l2为消极情感,则判定微博dm的情感极性为积极情感,反之为消极情感。进一步的,所述社交关系主题情感模型SRTSM的建立方法为:(1)初始化社交关系主题情感模型SRTSM的分布参数Π={A,B,H本文档来自技高网
...
一种社交关系驱动的微博主题情感分析方法

【技术保护点】
一种社交关系驱动的微博主题情感分析方法,其特征在于,包括以下步骤:步骤1、对微博消息集进行微博文本分词、去停用词预处理,提取微博用户关系分布G,并设置情感词典;步骤2、利用情感词典对微博消息进行情感极性与主题归属先验处理:针对词语w,首先按以下方法为w分配主题:生成一个随机数rt,则w所对应的主题t即是第(rt+1)个主题,其中rt∈[0,T],T为微博消息集的主题数;然后按以下方法为w分配情感标签:从情感词典中查找词语w,若情感词典中有w,则将情感词典中w所对应的情感标签l分配给w,否则产生一个随机数rl,则w的情感标签l即是第(rl+1)个情感标签,其中rl∈[0,L],L为情感极性类别数;步骤3、初始化社交关系主题情感模型SRTSM的分布参数并将循环控制计数器C1与C2置0;步骤4:利用社交关系主题情感模型SRTSM不断对变量VarSet=(nm,t,l,nm,t,nm,nt,l,w,nt,l)、和进行如下迭代更新直到循环控制计数器C1达到最大迭代次数:步骤41:判断C1是否大于设定值X,是则转步骤5,否则转下一步骤;步骤42:对每条微博d中的每个词语w,首先从VarSet中除去当前词语w所属的情感标签与主题,再通过用户关系分布G查找与当前微博作者相互关注的用户并利用这些用户微博的情感极性确定用户关系参数λ的值,然后利用吉布斯采样的联合概率p(ti=t,li=l|t‑i,l‑i,w)重新给w赋一个基于用户关系参数λ的情感标签和主题,同时更新变量VarSet;步骤43:令C2=C2+1,以更新C2;步骤44:判断C2是否大于设定值Y,是则转下一步骤,否则返回步骤42;步骤45:更新和并置C2=0,然后转步骤41;其中nm,t,l表示微博dm中情感极性为l的词语属于主题t的频数,nm,t表示微博dm中属于主题t的词语总频数,nm表示微博dm总词语数,nt,l,w表示词语w同时属于主题t、情感极性l的频数,nt,l表示所有同时属于主题t、情感极性l的词语总频数,表示微博dm中主题t出现的概率,表示所有微博中词语w同时属于主题t和情感标签l的概率,表示微博dm中情感标签l属于主题t的概率;步骤5、判断微博m的情感极性并输出:若其中l1为积极情感,l2为消极情感,则判定微博dm的情感极性为积极情感,反之为消极情感。...

【技术特征摘要】
1.一种社交关系驱动的微博主题情感分析方法,其特征在于,包括以下步骤:步骤1、对微博消息集进行微博文本分词、去停用词预处理,提取微博用户关系分布G,并设置情感词典;步骤2、利用情感词典对微博消息进行情感极性与主题归属先验处理:针对词语w,首先按以下方法为w分配主题:生成一个随机数rt,则w所对应的主题t即是第(rt+1)个主题,其中rt∈[0,T],T为微博消息集的主题数;然后按以下方法为w分配情感标签:从情感词典中查找词语w,若情感词典中有w,则将情感词典中w所对应的情感标签l分配给w,否则产生一个随机数rl,则w的情感标签l即是第(rl+1)个情感标签,其中rl∈[0,L],L为情感极性类别数;步骤3、初始化社交关系主题情感模型SRTSM的分布参数并将循环控制计数器C1与C2置0;步骤4:利用社交关系主题情感模型SRTSM不断对变量VarSet=(nm,t,l,nm,t,nm,nt,l,w,nt,l)、和进行如下迭代更新直到循环控制计数器C1达到最大迭代次数:步骤41:判断C1是否大于设定值X,是则转步骤5,否则转下一步骤;步骤42:对每条微博d中的每个词语w,首先从VarSet中除去当前词语w所属的情感标签与主题,再通过用户关系分布G查找与当前微博...

【专利技术属性】
技术研发人员:黄发良何万莉潘传迪元昌安李超雄
申请(专利权)人:福建师范大学
类型:发明
国别省市:福建;35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1