基于上下文语义的微博短文本的情感分析方法技术

技术编号：29489507 阅读：27 留言：0更新日期：2021-07-30 19:01

本发明专利技术公开了一种基于上下文语义的微博短文本的情感分析方法，本发明专利技术提出基于情感圈的情感分析方法，对微博文本集中的每个词语构建情感圈，运用情感圈从词语所处语境的共现模式中捕获词语的潜在语义，并提出了情感圈的语义表示和情感值计算方法，通过本发明专利技术的方法使得情感检测的结果准确率更高。

全部详细技术资料下载

【技术实现步骤摘要】
基于上下文语义的微博短文本的情感分析方法
本专利技术涉及网络社会媒体情感分类领域，具体涉及一种基于上下文语义的微博短文本的情感分析方法。
技术介绍
目前，微博成为了人们表达对各种话题的看法和态度提供了一种平民平台，因此微博情感分析方法受到广泛关注。微博中的信息主要是以短文本的形式存在，微博短文本情感分析的方法主要集中于个体微博情感的识别(即单条微博级情感检测)，而当前的微博级情感检测工作主要采用两种方法：基于机器学习的方法和基于词典的方法。机器学习方法需要为情感分类器学习训练数据。在微博中，训练数据有些通过情感符号假设微博的极性(正面、负面和中立)，有些则从情感检测网站返回的结果中获得共识。而且监督方法是领域依赖的，需要对新的数据进行重新训练。鉴于微博中不断涌现的不同的主题，领域依赖限制了这种方法的应用；反之，基于词典的方法则不需要训练数据，而是使用所有情感词汇加权来确定给定文本的整体情感倾向，这类方法通常在常规文本中能取得较准确的分析结果。然而，因为微博文本里包含大量的畸形词和口语表达(例如“ky”、“ssfd”、“猴腮雷”)WeiShietal(2015)构建了一种基于情感本体和语义的社交化短文本情感分析方法，叫EOSentiMiner。虽然构建的EOSentiMiner和情感本体在相应的数据集中取得了良好的情感分析效果，但是和其它基于词典的方法类似，其中的情感本体同样面临两个主要的问题。首先EOSentiMiner的准确性召回率受限于情感本体中的固定词集，如果情感本体中没有的词语在情感分...

【技术保护点】
1.基于上下文语义的微博短文本的情感分析方法，其特征在于，包括以下步骤：/n步骤1：获取微博短文本数据，基于该文本数据，获取上下文语境信息，并根据所述上下文语境信息构建一组微博文本集T；/n步骤2：采用分词方法对每组微博文本集T中的文本进行分词处理，根据分词结果为每个词语创建词语索引，并通过多种文本处理方法对词语进行预处理操作；/n步骤3：针对所述的一组微博文本集T，生成词语m的上下文语境向量；/n步骤4：通过为每个词语m计算其与语境中其它词语的相关度来得到上下文语境特征，同时使用现有的外部情感本体为所述语境中的语境词c

【技术特征摘要】
1.基于上下文语义的微博短文本的情感分析方法，其特征在于，包括以下步骤：
步骤1：获取微博短文本数据，基于该文本数据，获取上下文语境信息，并根据所述上下文语境信息构建一组微博文本集T；
步骤2：采用分词方法对每组微博文本集T中的文本进行分词处理，根据分词结果为每个词语创建词语索引，并通过多种文本处理方法对词语进行预处理操作；
步骤3：针对所述的一组微博文本集T，生成词语m的上下文语境向量；
步骤4：通过为每个词语m计算其与语境中其它词语的相关度来得到上下文语境特征，同时使用现有的外部情感本体为所述语境中的语境词ci分配初始情感值，即ci的先验情感值；
步骤5：将词语m的词语语境向量转换为2D几何圆，以此表示情感极性和情感强度值，该几何圆即为构建的情感圈；
步骤6：基于情感圈进行实体级和微博级的情感识别，得到识别结果。

2.根据权利要求1所述的基于上下文语义的微博短文本的情感分析方法，其特征在于，步骤2中所述的预处理操作包括：
S21：对在空白边界上的个别词进行分离；
S22：从词语中去除所有非文字的数字字符；
S23：去除1208个标准停用词；
S24：从微博中过滤掉连接符号和用户名字；
S25：移除“回复”、“转发微博”等词和转发的内容；
S26：基本词性标注；
S27：对出现的否定词和程度词分别进行处理。

3.根据权利要求2所述的基于上下文语义的微博短文本的情感分析方法，其特征在于，所述步骤27的具体步骤包括：
S21：为情感词上下文设置一个大小为5的检测窗口；
S22：在检测窗口内检测，如果在词语t周边出现否定词时，则对词语情感极性取反，即：
SOt＝(-1)n×SOt′(5)，
其中，SOt′为词语t在在情感本体中的原始情感值；n为满足否定规则时对于词语t而言否定词的出现次数；
S23：在检测窗口内检测，如果在词语t周边出现程度词时，则按程度词的等级差别相应地增加情感词的情感强度，最终词语t结合程度词得到的情感值的计算公式为：
SOt＝valuedeg×SOt′(6)，
其中，SOt′为词语t的原始情感值；valuedeg表示程度词deg的强度值。

4.根据权利要求1所述的基于上下文语义的微博短文本的情感分析方法，其特征在于，步骤3所述上下文语境向量的生成步骤为：对于一组微博文本集T，将词语m表示为与词语m同时出现在相同的语境中的一个向量，即：其中c是在T的任何一条微博文本中与词语m共同出现的语境词语...

【专利技术属性】
技术研发人员：史伟，付月，史麦可，
申请(专利权)人：湖州师范学院，
类型：发明
国别省市：浙江;33

全部详细技术资料下载我是这个专利的主人