当前位置: 首页 > 专利查询>武汉大学专利>正文

一种基于词项主客观偏向性的中文微博情感分析方法技术

技术编号:17970569 阅读:89 留言:0更新日期:2018-05-16 11:24
本发明专利技术涉及一种基于词项主客观偏向性的中文微博情感分析方法。步骤如下:(1)获取待分析的目标微博数据集;(2)对每篇微博进行分词、词性标注、停用词过滤等预操作,并对前接否定词的情感词进行组合操作;(3)对预处理后的微博数据,引入情感先验知识和偏向性先验知识;(4)利用Gibbs采样算法采样每个词项的偏向性、情感和主题标号;(5)计算每篇微博的偏向性和情感联合分布变量;(6)计算每篇微博最终的情感极性概率分布,进而确定微博的情感极性。该方法针对微博数据提出词项的主客观偏向性(简称偏向性)的概念,使用Gibbs算法对偏向性、情感和主题的关系联合建模。该方法简单实用,能显著提高微博情感分类性能。

【技术实现步骤摘要】
一种基于词项主客观偏向性的中文微博情感分析方法
本专利技术涉及一种对中文微博的情感分析方法,具体是涉及针对微博数据集,提出词项的偏向性的概念,同时引入情感先验知识和偏向性先验知识,基于偏向性、情感和主题的关系使用Gibbs采样算法对这三者联合采样,然后计算每篇微博的偏向性和情感联合分布变量,再计算每篇微博最终的情感概率分布,进而确定微博的情感极性,是一种基于词项主客观偏向性的中文微博情感分析方法。
技术介绍
近年来,随着互联网技术的飞速发展,各种社交媒体平台迅速崛起,人们越来越多的利用微博等社交媒体表达自己的情感或观点,每天都有海量的微博不断地在产生和传播。和传统长文本相比,微博短文本具有简短、口语化、不规范和特征稀疏等特点,如何从中有效地挖掘情感或意见知识,已经成为一个重要的研究方向。目前对微博情感分析主要有两大类方法:基于情感词典的方法和基于机器学习的方法。基于情感词典的方法主要利用情感词典中的情感词,通过关键词匹配,进而决定一篇文本的情感极性或强度,这类方法的主要缺陷是过分依赖于表面特征。基于机器学习的方法还分为全监督、弱监督和无监督方法。全监督方法首先在人工标注的大规模数据集上训练情感分类器,再将训练好的分类器用于进一步的情感分类中,其中的人工标注尤其耗时耗力。弱监督方法主要利用社交网络文本中的表情符号等噪声标记作为文本的情感标记,再使用全监督方法训练分类器,但是标记中存在的噪声也会影响分类器的性能。无监督方法不需要训练集,大多以情感词作为情感先验来引导情感分析。近期研究表明,文本的情感与主题具有依赖关系,在这一思想基础上,出现了很多情感和主题的联合模型。这类无监督方法首先基于情感和主题的关系构建出合理的词项生成模型,然后利用Gibbs采样方法对词项的情感和主题进行联合采样,进而计算文本的情感分布,并以概率最大的情感类别作为文本所属的情感类别。上述基于情感和主题关系来分析微博情感的方法存在以下不足:(1)它们只认为情感和主题有依赖关系,没有考虑偏向性对情感的影响;(2)当用于微博领域时,它们不能很好地利用表情符号这一最典型的情感特征;(3)由于没有考虑偏向性,它们无法利用表情符号和词项的词性所包含的偏向性先验知识。
技术实现思路
本专利技术的目的在于针对目前中文微博情感分析方面的不足,提供一种基于词项主客观偏向性的中文微博情感分析方法,该方法提出词项的偏向性的概念,同时引入情感先验知识和偏向性先验知识,基于偏向性、情感和主题的关系使用Gibbs采样算法对这三者联合采样,然后计算每篇微博的偏向性和情感联合分布变量,再计算每篇微博最终的情感概率分布,进而确定微博的情感极性。为了达到上述的目的,本专利技术的构思如下:获取待分析的目标微博数据集并进行预处理;引入情感先验知识和偏向性先验知识,并利用Gibbs采样算法采样每个词项的偏向性、情感和主题标号;计算每篇微博的偏向性和情感联合分布变量;计算每篇微博最终的情感极性概率分布,进而确定微博的情感极性。根据上述的专利技术思想,本专利技术采用下述技术方案:一种基于词项主客观偏向性的中文微博情感分析方法,其特征在于:包括以下步骤:步骤1、获取待分析的目标微博数据集;步骤2、对每篇微博进行分词、词性标注、停用词过滤等预操作,并对前接否定词的情感词进行组合操作;步骤3、对预处理后的微博数据,引入情感先验知识和偏向性先验知识,情感先验知识包括情感词和表情符号;词项的偏向性包括主观偏向性和客观偏向性,前者指的是偏向于表达主观情感,后者指的是偏向于描述客观事物;本方法使用表情符号作为主观偏向性先验知识,时间词、地点词和代词作为客观偏向性先验知识;引入情感和偏向性先验知识的过程具体为:步骤3a、构建空的S×V的情感转移矩阵λ、K×V的偏向性转移矩阵η、K×S×T×V的β矩阵和最终先验矩阵F(β,η,λ);其中S、T、K、V分别表示情感个数、主题个数、偏向性个数和数据集中不同词项个数;步骤3b、ηK×V和λS×V的元素初始化为1;步骤3c、对于每个词项w∈{1,...,V}、每种偏向性标记c∈{1,...,K}和每种情感标记l∈{1,...,S},如果w为偏向性先验知识,ηK×V中的元素ηcw更新如下:如果w为情感先验知识,λS×V中的元素λlw更新如下:其中,K(w)为w对应的偏向性标号,S(w)为w对应的情感标号;步骤3d、对于每个词项w∈{1,...,V}、每种情感标记l∈{1,...,S}、每种偏向性标记c∈{1,...,K}和每个主题z∈{1,...,T},最终先验Fc,l,z,w(β,η,λ)为:Fc,l,z,w(β,η,λ)=ηc,w·βc,l,z,w·λl,w步骤4、根据预处理后的微博数据以及先验知识,利用Gibbs采样算法采样每个词项的偏向性、情感和主题标号,对数据集中每个位置i的词项wi的偏向性标号ci、情感标号li和主题标号zi采样如下:P(ci=k,li=s,zi=t|w,c-i,l-i,z-i,ε,γ,α,β,η,λ)∝其中,Nd表示wi所在文本d的词项数,Nd,k表示文本d中属于偏向性k的词项数,Nd,k,s表示文本d中属于偏向性k和情感s的词项数,Nd,k,s,t表示文本d中属于偏向性k、情感s和主题t的词项数,Nk,s,t表示数据集中属于偏向性k、情感s和主题t的词项个数,Nk,s,t,w表示数据集中属于偏向性k、情感s和主题t的词项w的个数;此外,ε、γ为偏向性和情感标记的先验计数,为经验值,α为主题的先验计数,由最大似然估计学习得到,-i表示不包括当前词项;步骤5、经过一定迭代次数的采样,计算每篇微博的偏向性和情感联合分布变量,微博d的偏向性和情感联合分布变量计算如下:步骤6、计算每篇微博最终的情感概率分布,选择概率最大的情感极性作为微博的情感极性,微博d的最终情感概率分布计算如下:本专利技术的一种基于词项主客观偏向性的中文微博情感分析方法与现有的技术相比较,具有如下突出特点和优点:第一,认为微博文本中情感、偏向性和主题相互关联,对文本语义进行了更深入的分析;第二,同时引入情感先验知识和偏向性先验知识,不仅充分利用了表情符号,而且结合了词项的词性标注,更大限度地使用了文本的情感相关特征;第三,利用偏向性对情感的影响,对情感、偏向性和主题联合采样,使得最终的情感分类更加准确。附图说明图1是本专利技术的一种基于词项主客观偏向性的中文微博情感分析方法的流程图。具体实施方式以下结合附图对本专利技术的实施例作进一步的说明。首先介绍本专利技术的方法原理:一种基于词项主客观偏向性的中文微博情感分析方法,其特征在于,其具体步骤如下:(1)获取待分析的目标微博数据集;(2)对每篇微博进行分词、词性标注、停用词过滤等预操作,并对前接否定词的情感词进行组合操作;(3)对预处理后的微博数据,引入情感先验知识和偏向性先验知识;(4)根据预处理后的微博数据以及先验知识,利用Gibbs采样算法采样每个词项的偏向性、情感和主题标号;(5)经过一定迭代次数的采样,计算每篇微博的偏向性和情感联合分布变量;(6)计算每篇微博最终的情感概率分布,选择概率最大的情感极性作为微博的情感极性。第(2)步中,情感词与否定词组合成新词后,不再拥有之前的情感属性;第(3)步中,情感先验知识包括情感词和表情符号。词本文档来自技高网
...
一种基于词项主客观偏向性的中文微博情感分析方法

【技术保护点】
一种基于词项主客观偏向性的中文微博情感分析方法,其特征在于:包括以下步骤:步骤1、获取待分析的目标微博数据集;步骤2、对每篇微博进行分词、词性标注、停用词过滤等预操作,并对前接否定词的情感词进行组合操作;步骤3、对预处理后的微博数据,引入情感先验知识和偏向性先验知识,情感先验知识包括情感词和表情符号;词项的偏向性包括主观偏向性和客观偏向性,前者指的是偏向于表达主观情感,后者指的是偏向于描述客观事物;本方法使用表情符号作为主观偏向性先验知识,时间词、地点词和代词作为客观偏向性先验知识;引入情感和偏向性先验知识的过程具体为:步骤3a、构建空的S×V的情感转移矩阵λ、K×V的偏向性转移矩阵η、K×S×T×V的β矩阵和最终先验矩阵F(β,η,λ);其中S、T、K、V分别表示情感个数、主题个数、偏向性个数和数据集中不同词项个数;步骤3b、ηK×V和λS×V的元素初始化为1;步骤3c、对于每个词项w∈{1,...,V}、每种偏向性标记c∈{1,...,K}和每种情感标记l∈{1,...,S},如果w为偏向性先验知识,ηK×V中的元素ηcw更新如下:

【技术特征摘要】
1.一种基于词项主客观偏向性的中文微博情感分析方法,其特征在于:包括以下步骤:步骤1、获取待分析的目标微博数据集;步骤2、对每篇微博进行分词、词性标注、停用词过滤等预操作,并对前接否定词的情感词进行组合操作;步骤3、对预处理后的微博数据,引入情感先验知识和偏向性先验知识,情感先验知识包括情感词和表情符号;词项的偏向性包括主观偏向性和客观偏向性,前者指的是偏向于表达主观情感,后者指的是偏向于描述客观事物;本方法使用表情符号作为主观偏向性先验知识,时间词、地点词和代词作为客观偏向性先验知识;引入情感和偏向性先验知识的过程具体为:步骤3a、构建空的S×V的情感转移矩阵λ、K×V的偏向性转移矩阵η、K×S×T×V的β矩阵和最终先验矩阵F(β,η,λ);其中S、T、K、V分别表示情感个数、主题个数、偏向性个数和数据集中不同词项个数;步骤3b、ηK×V和λS×V的元素初始化为1;步骤3c、对于每个词项w∈{1,...,V}、每种偏向性标记c∈{1,...,K}和每种情感标记l∈{1,...,S},如果w为偏向性先验知识,ηK×V中的元素ηcw更新如下:如果w为情感先验知识,λS×V中的元素λlw更新如下:其中,K(w)为w对应的偏向性标号,S(w)为w对应的情感标号;步骤3d、对于每个词项w∈{1,...,V}、每种情感标记l∈{1,...,S}、每种偏向性标记c∈{1,...,K}和每个主题z∈{1,...,T},最终先验Fc,l,z,w(β,η,λ)为:Fc,l,z,w(β,η,λ)=ηc,w·βc,l,z,w·λl,w步骤4、根据预处理后的微博数据以及先验知识,利用Gibbs采样算法采样每个词项的偏向性、情感和主题标号,对数据集中每个位置i的词项wi的偏向性标号ci、情感标号li和主题标号zi采样如下:

【专利技术属性】
技术研发人员:刘进郭峻材陈雪崔晓晖
申请(专利权)人:武汉大学
类型:发明
国别省市:湖北,42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1