【技术实现步骤摘要】
基于上下文语义的微博短文本的情感分析方法
本专利技术涉及网络社会媒体情感分类领域,具体涉及一种基于上下文语义的微博短文本的情感分析方法。
技术介绍
目前,微博成为了人们表达对各种话题的看法和态度提供了一种平民平台,因此微博情感分析方法受到广泛关注。微博中的信息主要是以短文本的形式存在,微博短文本情感分析的方法主要集中于个体微博情感的识别(即单条微博级情感检测),而当前的微博级情感检测工作主要采用两种方法:基于机器学习的方法和基于词典的方法。机器学习方法需要为情感分类器学习训练数据。在微博中,训练数据有些通过情感符号假设微博的极性(正面、负面和中立),有些则从情感检测网站返回的结果中获得共识。而且监督方法是领域依赖的,需要对新的数据进行重新训练。鉴于微博中不断涌现的不同的主题,领域依赖限制了这种方法的应用;反之,基于词典的方法则不需要训练数据,而是使用所有情感词汇加权来确定给定文本的整体情感倾向,这类方法通常在常规文本中能取得较准确的分析结果。然而,因为微博文本里包含大量的畸形词和口语表达(例如“ky”、“ssfd”、“猴腮雷”)WeiShietal(2015)构建了一种基于情感本体和语义的社交化短文本情感分析方法,叫EOSentiMiner。虽然构建的EOSentiMiner和情感本体在相应的数据集中取得了良好的情感分析效果,但是和其它基于词典的方法类似,其中的情感本体同样面临两个主要的问题。首先EOSentiMiner的准确性召回率受限于情感本体中的固定词集,如果情感本体中没有的词语在情感分 ...
【技术保护点】
1.基于上下文语义的微博短文本的情感分析方法,其特征在于,包括以下步骤:/n步骤1:获取微博短文本数据,基于该文本数据,获取上下文语境信息,并根据所述上下文语境信息构建一组微博文本集T;/n步骤2:采用分词方法对每组微博文本集T中的文本进行分词处理,根据分词结果为每个词语创建词语索引,并通过多种文本处理方法对词语进行预处理操作;/n步骤3:针对所述的一组微博文本集T,生成词语m的上下文语境向量;/n步骤4:通过为每个词语m计算其与语境中其它词语的相关度来得到上下文语境特征,同时使用现有的外部情感本体为所述语境中的语境词c
【技术特征摘要】
1.基于上下文语义的微博短文本的情感分析方法,其特征在于,包括以下步骤:
步骤1:获取微博短文本数据,基于该文本数据,获取上下文语境信息,并根据所述上下文语境信息构建一组微博文本集T;
步骤2:采用分词方法对每组微博文本集T中的文本进行分词处理,根据分词结果为每个词语创建词语索引,并通过多种文本处理方法对词语进行预处理操作;
步骤3:针对所述的一组微博文本集T,生成词语m的上下文语境向量;
步骤4:通过为每个词语m计算其与语境中其它词语的相关度来得到上下文语境特征,同时使用现有的外部情感本体为所述语境中的语境词ci分配初始情感值,即ci的先验情感值;
步骤5:将词语m的词语语境向量转换为2D几何圆,以此表示情感极性和情感强度值,该几何圆即为构建的情感圈;
步骤6:基于情感圈进行实体级和微博级的情感识别,得到识别结果。
2.根据权利要求1所述的基于上下文语义的微博短文本的情感分析方法,其特征在于,步骤2中所述的预处理操作包括:
S21:对在空白边界上的个别词进行分离;
S22:从词语中去除所有非文字的数字字符;
S23:去除1208个标准停用词;
S24:从微博中过滤掉连接符号和用户名字;
S25:移除“回复”、“转发微博”等词和转发的内容;
S26:基本词性标注;
S27:对出现的否定词和程度词分别进行处理。
3.根据权利要求2所述的基于上下文语义的微博短文本的情感分析方法,其特征在于,所述步骤27的具体步骤包括:
S21:为情感词上下文设置一个大小为5的检测窗口;
S22:在检测窗口内检测,如果在词语t周边出现否定词时,则对词语情感极性取反,即:
SOt=(-1)n×SOt′(5),
其中,SOt′为词语t在在情感本体中的原始情感值;n为满足否定规则时对于词语t而言否定词的出现次数;
S23:在检测窗口内检测,如果在词语t周边出现程度词时,则按程度词的等级差别相应地增加情感词的情感强度,最终词语t结合程度词得到的情感值的计算公式为:
SOt=valuedeg×SOt′(6),
其中,SOt′为词语t的原始情感值;valuedeg表示程度词deg的强度值。
4.根据权利要求1所述的基于上下文语义的微博短文本的情感分析方法,其特征在于,步骤3所述上下文语境向量的生成步骤为:对于一组微博文本集T,将词语m表示为与词语m同时出现在相同的语境中的一个向量,即:其中c是在T的任何一条微博文本中与词语m共同出现的语境词语...
【专利技术属性】
技术研发人员:史伟,付月,史麦可,
申请(专利权)人:湖州师范学院,
类型:发明
国别省市:浙江;33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。