一种网络个体或群体情绪认知能力预测与可视化方法技术

技术编号:11471811 阅读:114 留言:0更新日期:2015-05-20 01:32
本发明专利技术涉及一种网络个体或群体情绪认知能力预测与可视化方法,属于互联网舆情信息挖掘与分析领域。本发明专利技术对现有情感词典中收录的常用情感词做了整合,同时考虑了网络环境中具有情感倾向的网络情感新词及表情字符,最大限度地包含了社交媒体平台上的情感元素,并在此基础上构建了情感词本体库;确定网络个体情绪分叉点位置,用情绪认知能力指数描述网络个体的情绪认知能力水平,并以可视化的方式对多个网络个体之间的情绪分叉点差异进行展示。通过本发明专利技术可揭示网络个体或群体情绪认知能力水平的演化规律,尤其是对典型网络个体或群体的情绪动态变化过程及其情绪突变的临界点进行预测,帮助相关管理者对网络舆论进行合理引导,营造和谐网络环境。

【技术实现步骤摘要】
一种网络个体或群体情绪认知能力预测与可视化方法
本专利技术涉及一种网络个体或群体情绪认知能力预测与可视化方法,属于互联网舆情信息挖掘与分析领域。
技术介绍
随着社交网络技术和应用的快速发展,人们越来越习惯于通过互联网分享自己的情感、态度、意见和观点,其中情感是主导后三者的决定力量,因为情感是人们内在的心理反应及感受,例如喜、怒、哀、乐等,它会显著地影响人们的决策行为。与此同时,拥有一定意见引导能力和话题响应度的网络个体更是通过网络平台对其跟随者的观点态度造成影响。例如,在电影营销活动中,知名艺人往往通过网络平台(包括微博、博客等)对其粉丝的情感观点甚至意见表达造成很大影响。同样,微博“大V”、名人博客等作为一种典型网络个体往往拥有千万级数量的粉丝跟随者,在网络事件中拥有较高话语权且在较高程度上影响着公众情绪和决策行为的方向,扮演“意见领袖”的角色。因此,对网络个体或群体情绪动态变化过程及其情绪分叉点的预测可视化工具的研制具有十分重要的意义。从商业角度而言,可通过监测网络个体情绪动态变化过程的规律制定有效的营销推广方案,并根据产品销售后网络群体情绪动态变化的情况及时完善产品和进行口碑维护。从社会治理角度而言,可通过分析网络个体或群体、尤其是典型网络个体或群体的情绪动态变化过程及其情绪突变的分叉点预测,帮助管理者对网络用户进行有效管理,并对网络舆论进行合理引导,营造和谐网络环境。LiY等提出复杂理论与情绪结构在组织环境中的动态变化建模方法(LiY,AshkanasyNM,AhlstromD.Complexitytheoryandaffectstructure:Adynamicapproachtomodelingemotionalchangesinorganizations[J].Researchonemotioninorganizations,2010,6:139-165.),该方法基于企业组织内部情感事件案例,定性地提出了情绪结构分叉点模型,揭示了企业员工情绪动态变化的本质及规律,符合如图1所示的情绪认知能力范围划分(0,1],(1,3],(3,3.57],(3.57,4),分别对应个体情绪的“消逝态”、“均衡态”、“近似均衡态”、“紊乱态”。所述分叉点理论是1976年May基于混沌学理论提出的描述复杂动态系统性现象的数学建模(May,R.M.Simplemathematicalmodelswithverycomplicateddynamics.Nature,1976,261(5560):459-467.),如图2所示,描述了一般自然系统状态的分叉突变性特征,即现实环境条件下的复杂系统状态的跳变现象。WeissHM等提出情感事件理论(WeissHM,CropanzanoR.Affectiveeventstheory:Atheoreticaldiscussionofthestructure,causesandconsequencesofaffectiveexperiencesatwork[J].Researchinorganizationalbehavior:Anannualseriesofanalyticalessaysandcriticalreviews,1996,18:1-74.),对工作环境中员工情绪体验的因果结构进行了系统性研究,该理论揭示了企业组织内部环境中的情感事件与人们对其认知评价、情感反应以及态度行为之间的关系。LiY等和WeissHM等对情绪结构动态变化模型的分析只是定性的,并没有足够的实验和调查数据做基础,更没有从网络文本角度通过自然语言对人们的情绪变化过程及其情绪认知能力进行分析,而只是从情绪认知心理学角度定性的结合混沌学分叉点理论分析了人类微观情感状态的动态变化机理及外部情感事件与情绪状态之间的因果关系。上述研究及后来的相关研究均没有提出如何对互联网社交媒体的网络个体或群体进行情感分析与预测可视化模型,例如本文提出的根据网络文本来计算情绪结构分叉点和情绪认知能力指数的方法。本专利技术不同之处将情感事件理论和情绪结构分叉点模型引入舆情分析和网络数据挖掘领域,应用文本情感分析技术,提供了一种对社交网络媒体环境下网络个体或群体的情绪认知能力和情感发生紊乱态之前的分叉点进行预测与可视化的方法。
技术实现思路
本专利技术的目的在于提供一种有效的,直观的对网络个体情绪分叉点和情绪认知能力指数水平进行预测与可视化的方法,帮助用户了解和监测网络个体或群体情绪动态变化的突变分叉点进而预测其情绪演化状态(“消逝态”、“均衡态”,“近似均衡态”、“紊乱态”)和发展趋势,可用于网络群体性事件舆情动态分析及预警、以及与网络情感演化状态有关的众多相关领域。本专利技术的思想是在社交网络环境下通过对网络个体或组织发布的网络文本进行收集和分析,提出一种网络个体情绪分叉点计算方法,建立了网络情绪结构分叉点模型,对其情绪突变分叉点位置及其情感认知能力水平进行描述、预测和可视化。本专利技术的目的是通过以下技术方案实现的:一种网络个体或群体情绪认知能力预测与可视化方法,包括一下步骤:步骤1)构建情感词本体库为了计算网络个体情绪分叉点的位置,需要构建一个较全面的情感词本体库,具体步骤包括:1-1)对现有中文情感词典进行整合,以较全面地包含常用情感词。1-2)从大规模语料集的基础上,训练出网民频繁使用的网络新词,并对其中不具有明显情感色彩的词语进行剔除。1-3)从大规模语料集的基础上,训练出网民使用较频繁的表情字符。1-4)常用情感词、网络情感新词和表情符号词共同构成了网络文本情感分析的情感元素集。基于上述情感元素集构建情感词本体库E,包括情感词本身、极性倾向、情感强度值,E可表示为:E=<(W1,P1,I1),(W2,P2,I2),...,,(Wi,Pi,Ii),...,(Wn,Pn,In)>其中,Wi表示情感词,Pi表示Wi的极性(Pi>0表示其是正情感词;Pi<0表示其是负情感词),Ii表示Wi的情感强度值,其绝对值越大表示具有越高的情感强度值,1≤i≤n,n为E中情感词的个数。a.极性整合方法。常用情感词的极性Pi与情感词典中的极性一致,如发生同一情感词在不同情感词典中的标注不一致的情形,使用多人投票方式修正;网络情感新词与表情符号由于数量有限,其极性均采用多人投票方式确定。b.情感强度确定方法。首先获取大规模社交网络文本集U,计算情感词中每个字在该集合中的分布,然后根据情感字的分布计算候选情感词的情感权重,超过阈值的为情感词,最后计算出常用情感词情感强度值,如下文所述。网络情感新词与表情符号由于数量有限,其情感强度均在参考常用情感词强度基础上采用多人投票方式确定。下面以U表示社交网络文本集,S正和S负分别表示在U中的正情感词和负情感词集合,统一用S*表示情感词集。假设S*集合中一个情感词w可表示为字符串C1C2…Ci…Ck,其中Ci表示该情感词中的一个字;情感词中的字有正情感字和负情感字之分,而且每个情感字的正负极性与所在情感词极性一致。计算所述文本集中“字”的分布,以P(Ci|S*)表示来自情感词集S*中字Ci在网络文本集合U中的概率,其计算公式如下:其中,P(S*,Ci)表示属于情感词集S*的本文档来自技高网
...
一种网络个体或群体情绪认知能力预测与可视化方法

【技术保护点】
一种网络个体或群体情绪认知能力预测与可视化方法,其特征在于:包括以下步骤:步骤1)构建可整合多来源情感词的本体库;步骤2)确定网络个体情绪分叉点位置,根据按时间序列采集的网络个体发表的文本信息集计算其情绪认知能力指数序列;步骤3)对步骤2)得到的情绪认知能力指数序列进行可视化;步骤4)对多个网络个体的情绪认知能力指数水平进行对比分析。

【技术特征摘要】
1.一种网络个体或群体情绪认知能力预测与可视化方法,其特征在于:包括以下步骤:步骤1)构建可整合多来源情感词的本体库;步骤2)确定网络个体情绪分叉点位置,根据按时间序列采集的网络个体发表的文本信息集计算其情绪认知能力指数序列;步骤3)对步骤2)得到的情绪认知能力指数序列进行可视化;步骤4)对多个网络个体的情绪认知能力指数水平进行对比分析;所述步骤1)构建情感词本体库,进一步包括以下步骤:步骤1-1)将现有中文情感词典中的常用情感词以及从语料集中筛选出的网络情感新词和表情符号合并得到情感元素集;步骤1-2)对所述情感元素集中的每个词Wi确定情感强度Ii并进行情感极性标注Pi;步骤1-3)筛选出情感强度Ii超过阈值的词Wi,将词Wi与其情感极性Pi和情感强度Ii作为三元组加入情感词本体库E,得到E为:E=<(W1,P1,I1),(W2,P2,I2),...,(Wi,Pi,Ii),...,(Wn,Pn,In)>;所述步骤1-2)进一步包括以下步骤:步骤1-2-1)情感极性标注:常用情感词的极性Pi与情感词典中的极性一致,如发生同一情感词在不同情感词典中的标注不一致的情形,使用多人投票方式修正;网络情感新词与表情符号由于数量有限,其极性均采用多人投票方式确定;步骤1-2-2)情感强度确定:(1)常用情感词的情感强度确定:首先获取大规模社交网络文本集U,然后根据下式计算常用情感词w*的情感强度:I(w*)=r(w*|S负)-r(w*|S正)其中S正和S负分别表示在社交网络文本集U中的正情感词和负情感词集合,r(w*|S正)表示w*的正向情感权重,r(w*|S负)表示w*的负向情感权重,情感权重通过下式计算;其中S*表示S正或者S负,α、β∈[0,1]是组合调整参数,Ci是w*的第i个字,w*中共有k个字,P(Ci|S*)及P(w*)则可通过下式计算:其中Freq(S*,Ci)表示属于S*的词的组成字Ci在U中出现的频率,Freq(S*)表示属于S*的所有组成字在U中出现的频率之和;δ为一个较小的数值;其中Freq(w*)表示w*在U中出现的频率,|U|表示U中词的个数,表示U中所有的词wi在U中出现的频率之和;(2)常用情感词的情感极性修正:当情感强度I大于0,表示正情感,情感极性P=+1;当情感强度I小于0,表示负情感,情感极性P=-1;(3)网络情感新词与表情符号由于数量有限,其情感强度均在参考常用情感词强度基础上采用多人投票方式确定;所述δ为S*总字数的倒数。2.根据权利要求1所述的一种网络个体或群体情绪认知能力预测与可视化方法,其特征在于:所述步骤2)进一步包括以下步骤:步骤2-1)按时间序列采集网络个体发表的文本信息集合U:其中T为时间序列,S为与T对应的文本信息向量集,t时刻发表的微博信息为St;步骤2-2)对所述文本信息集U进行分词和词性标注预处理,得到1~T时刻发表的所有微博信息S1~ST的词汇集W1~WT,其中t时刻发表的微博信息St的词汇集记为Wt;步骤2-3)通过对每一条微博信息的词汇集Wt(1≤t≤T)中的词逐一与情感词本体库E匹配,抽取其中的情感词及其情感极性和情感强度值,此时Wti表示St中包含的第i个情感词,Numt表示Wt中包含的情感词的个数;步骤2-4)构建网络个体情感分叉点位置计算模型并计算网络个体按时序变化的网络情绪认知能力指数值,具体如下:步骤2-4-1)通过下式分别计算St中包含的对应于“均衡态”,“...

【专利技术属性】
技术研发人员:周建栋赵燕平张华平李想
申请(专利权)人:北京理工大学北京化工大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1