基于上下文语义的微博短文本的情感分析方法技术

技术编号:29489507 阅读:27 留言:0更新日期:2021-07-30 19:01
本发明专利技术公开了一种基于上下文语义的微博短文本的情感分析方法,本发明专利技术提出基于情感圈的情感分析方法,对微博文本集中的每个词语构建情感圈,运用情感圈从词语所处语境的共现模式中捕获词语的潜在语义,并提出了情感圈的语义表示和情感值计算方法,通过本发明专利技术的方法使得情感检测的结果准确率更高。

【技术实现步骤摘要】
基于上下文语义的微博短文本的情感分析方法
本专利技术涉及网络社会媒体情感分类领域,具体涉及一种基于上下文语义的微博短文本的情感分析方法。
技术介绍
目前,微博成为了人们表达对各种话题的看法和态度提供了一种平民平台,因此微博情感分析方法受到广泛关注。微博中的信息主要是以短文本的形式存在,微博短文本情感分析的方法主要集中于个体微博情感的识别(即单条微博级情感检测),而当前的微博级情感检测工作主要采用两种方法:基于机器学习的方法和基于词典的方法。机器学习方法需要为情感分类器学习训练数据。在微博中,训练数据有些通过情感符号假设微博的极性(正面、负面和中立),有些则从情感检测网站返回的结果中获得共识。而且监督方法是领域依赖的,需要对新的数据进行重新训练。鉴于微博中不断涌现的不同的主题,领域依赖限制了这种方法的应用;反之,基于词典的方法则不需要训练数据,而是使用所有情感词汇加权来确定给定文本的整体情感倾向,这类方法通常在常规文本中能取得较准确的分析结果。然而,因为微博文本里包含大量的畸形词和口语表达(例如“ky”、“ssfd”、“猴腮雷”)WeiShietal(2015)构建了一种基于情感本体和语义的社交化短文本情感分析方法,叫EOSentiMiner。虽然构建的EOSentiMiner和情感本体在相应的数据集中取得了良好的情感分析效果,但是和其它基于词典的方法类似,其中的情感本体同样面临两个主要的问题。首先EOSentiMiner的准确性召回率受限于情感本体中的固定词集,如果情感本体中没有的词语在情感分析中就很难被考虑,这在处理微博文本时会成为一个问题,因为微博中新的表达和隐语不断涌现。其次更为重要的是,EOSentiMiner提供的是固定的、上下文语境无关的情感词的极性和强度。但是在实际的很多微博文本中不同的词语在不同的上下文语境中确表现出不同的情感极性和强度。为此,如何获取情感词极性和强度在上下文语境中的变化,并以此构建更为准确和高效的微博情感分析方法,从而得到理想的情感分类结果,是目前亟待解决的问题。
技术实现思路
针对上述存在的问题,本专利技术旨在提供一种基于上下文语义的微博短文本的情感分析方法,其采用情感圈(SentiCircles)方法,捕捉词汇上下文语义(比如文本中词语的语义共现模式)建立词语的动态表示,适时调整已构建的情感本体中情感词的情感极性和强度。为了实现上述目的,本专利技术所采用的技术方案如下:一种基于上下文语义的微博短文本的情感分析方法,其特征在于,包括以下步骤:步骤1:获取微博短文本数据,基于该文本数据,获取上下文语境信息,并根据所述上下文语境信息构建一组微博文本集T;步骤2:采用分词方法对每组微博文本集T中的文本进行分词处理,根据分词结果为每个词语创建词语索引,并通过多种文本处理方法对词语进行预处理操作;步骤3:针对所述的一组微博文本集T,生成词语m的上下文语境向量;步骤4:通过为每个词语m计算其与语境中其它词语的相关度来得到上下文语境特征,同时使用外部情感本体为所述语境中的语境词ci分配初始情感值,即ci的先验情感值;步骤5:将词语m的词语语境向量转换为2D几何圆,以此表示情感极性和情感强度值,该几何圆即为构建的情感圈;步骤6:基于情感圈进行实体级和微博级的情感识别,得到识别结果。进一步地,步骤2中所述的预处理操作包括:S21:对在空白边界上的个别词进行分离;S22:从词语中去除所有非文字的数字字符;S23:去除1208个标准停用词;S24:从微博中过滤掉连接符号和用户名字;S25:移除“回复”、“转发微博”等词和转发的内容;S26:基本词性标注;S27:对出现的否定词和程度词分别进行处理。进一步地,所述步骤27的具体步骤包括:S21:为情感词上下文设置一个大小为5的检测窗口;S22:在检测窗口内检测,如果在词语t周边出现否定词时,则对词语情感极性取反,即:SOτ=(-1)n×SOt′(5),其中,SOt′为词语t在在情感本体中的原始情感值;n为满足否定规则时对于词语t而言否定词的出现次数;S23:在检测窗口内检测,如果在词语t周边出现程度词时,则按程度词的等级差别相应地增加情感词的情感强度,最终词语t结合程度词得到的情感值的计算公式为:SOt=valyedeg×SOt′(6),其中,SOt′为词语t的原始情感值;valuedeg表示程度词deg的强度值。进一步地,步骤3所述上下文语境向量的生成步骤为:对于一组微博文本集T,将词语m表示为与词语m同时出现在相同的语境中的一个向量,即:其中c是在T的任何一条微博文本中与词语m共同出现的语境词语。进一步地,步骤4中所述上下文语境特征生成的步骤为:计算词语m和它的语境词语的相关度CDOT,以得到的相关度为上下文语境特征,且CDOT的计算公式为:其中,f(ci,m)为ci和m共同出现在微博文本中的次数,N是微博文本中所有词语的总数,Nc是微博文本中所有ci的总数。进一步地,步骤5的具体操作步骤包括:步骤51:以词语m为圆心,词语m的上下文语境特征为半径,得到一个几何圆,圆上的每个点为语境词ci,该几何圆即为得到的情感圈,则情感圈在极坐标系中可表示为:其中,a是圆的半径,(r0,φ)是圆中心的极坐标,(r,θ)是一个语境词语在圆上的极坐标;且语境词语ci的半径ri以及语境词语ci的角度θi的计算公式分别为:ri=CDOT(m,ci)(3)θi=PS(ci)*π;步骤52:在情感圈中将所有词语的半径都标准化为0-1之间,故任何一个情感圈的半径a都为1,所有的角度值为弧度;步骤53:使用三角函数正弦和余弦定理将极坐标系转换为笛卡尔坐标系,转换公式为:xi=rjcosθtyt=risinθi(4);步骤54:利用圆的三角形属性对词语的上下文语义进行编码,并以此作为情感极性和情感强度值,在笛卡尔坐标系中用Y轴表示词语的情感极性,y为正值则表示正面情感,反之则表示负面情感;X轴表示词语的强度,x值越小则情感越强。进一步地,步骤6的具体操作步骤包括:步骤61:对于实体级情感识别:对于实体ei∈ε和它相应的情感圈,该实体的情感由其情感圈的情感中值g表示,根据情感中值g所处的位置来判断该实体的情感类型,即该情感实体的情感函数γ为:其中,σ是定义“中性域”Y轴边界的阀值;步骤62:对于单条微博级情感识别:对于每条微博ti∈T采用中值法或关键词法或混合法进行处理,最终得到微博ti的整体情感值。进一步地,步骤61中所述的情感中值g的计算公式为:其中,Pi为给定的情感圈中的n个点,几何中值为点g=(xk,yk),该点到所有其它点pi的欧式距离是最小的。本专利技术的有益效果是:第一,本专利技术提出的本文档来自技高网
...

【技术保护点】
1.基于上下文语义的微博短文本的情感分析方法,其特征在于,包括以下步骤:/n步骤1:获取微博短文本数据,基于该文本数据,获取上下文语境信息,并根据所述上下文语境信息构建一组微博文本集T;/n步骤2:采用分词方法对每组微博文本集T中的文本进行分词处理,根据分词结果为每个词语创建词语索引,并通过多种文本处理方法对词语进行预处理操作;/n步骤3:针对所述的一组微博文本集T,生成词语m的上下文语境向量;/n步骤4:通过为每个词语m计算其与语境中其它词语的相关度来得到上下文语境特征,同时使用现有的外部情感本体为所述语境中的语境词c

【技术特征摘要】
1.基于上下文语义的微博短文本的情感分析方法,其特征在于,包括以下步骤:
步骤1:获取微博短文本数据,基于该文本数据,获取上下文语境信息,并根据所述上下文语境信息构建一组微博文本集T;
步骤2:采用分词方法对每组微博文本集T中的文本进行分词处理,根据分词结果为每个词语创建词语索引,并通过多种文本处理方法对词语进行预处理操作;
步骤3:针对所述的一组微博文本集T,生成词语m的上下文语境向量;
步骤4:通过为每个词语m计算其与语境中其它词语的相关度来得到上下文语境特征,同时使用现有的外部情感本体为所述语境中的语境词ci分配初始情感值,即ci的先验情感值;
步骤5:将词语m的词语语境向量转换为2D几何圆,以此表示情感极性和情感强度值,该几何圆即为构建的情感圈;
步骤6:基于情感圈进行实体级和微博级的情感识别,得到识别结果。


2.根据权利要求1所述的基于上下文语义的微博短文本的情感分析方法,其特征在于,步骤2中所述的预处理操作包括:
S21:对在空白边界上的个别词进行分离;
S22:从词语中去除所有非文字的数字字符;
S23:去除1208个标准停用词;
S24:从微博中过滤掉连接符号和用户名字;
S25:移除“回复”、“转发微博”等词和转发的内容;
S26:基本词性标注;
S27:对出现的否定词和程度词分别进行处理。


3.根据权利要求2所述的基于上下文语义的微博短文本的情感分析方法,其特征在于,所述步骤27的具体步骤包括:
S21:为情感词上下文设置一个大小为5的检测窗口;
S22:在检测窗口内检测,如果在词语t周边出现否定词时,则对词语情感极性取反,即:
SOt=(-1)n×SOt′(5),
其中,SOt′为词语t在在情感本体中的原始情感值;n为满足否定规则时对于词语t而言否定词的出现次数;
S23:在检测窗口内检测,如果在词语t周边出现程度词时,则按程度词的等级差别相应地增加情感词的情感强度,最终词语t结合程度词得到的情感值的计算公式为:
SOt=valuedeg×SOt′(6),
其中,SOt′为词语t的原始情感值;valuedeg表示程度词deg的强度值。


4.根据权利要求1所述的基于上下文语义的微博短文本的情感分析方法,其特征在于,步骤3所述上下文语境向量的生成步骤为:对于一组微博文本集T,将词语m表示为与词语m同时出现在相同的语境中的一个向量,即:其中c是在T的任何一条微博文本中与词语m共同出现的语境词语...

【专利技术属性】
技术研发人员:史伟付月史麦可
申请(专利权)人:湖州师范学院
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1