一种面向中文微博的情感倾向分析方法技术

技术编号:15187124 阅读:124 留言:0更新日期:2017-04-19 04:29
本发明专利技术公布了一种面向中文微博的情感倾向分析方法。包括如下模块:欠采样技术模块,微博文本预处理模块,利用Word2vec扩展微博模块,特征提取模块,情感分析模型训练模块,情感倾向性判别模块。最终利用训练好的AWCRF模型对待预测的微博进行情感倾向判别。本发明专利技术的优势是能够有效地解决中文微博数据集在情感倾向分布不平衡时的情感倾向分类问题,实施简单,识别率高,具有很强的实际价值和现实意义。

【技术实现步骤摘要】

本专利技术属于网络信息处理
,具体涉及一种面向中文微博的情感倾向分析方法
技术介绍
微博作为一个新的社交平台,受到很多用户的喜爱。越来越多人喜欢通过微博来发表他们的观点,所以充分分析和挖掘用户微博中的情感是非常有意义的。情感分析的目的是从微博文本中挖掘用户的观点和识别它的情感倾向。例如,企业可以通过微博来获取用户对他们产品和服务的评价。与传统的情感分析工作一样,对微博的情感分析方法可以分为两类。一类是基于情感词典和规则的方法,它们根据句子中正面情感词和负面情感词的个数来识别情感倾向。另一类是基于机器学习的方法,它们通过挑选合适的特征来训练分类器。然而,以上方法都忽略了中文微博数据集中的情感倾向分布不平衡性对情感分类的影响,也就是说当数据集中负面情感的句子和正面情感的句子的数量相差很大时,会影响分类器的判别准确性。在实际生活中,微博中讨论的话题或者事件的本身往往带有很强的情感倾向性,这导致很多话题的情感倾向分布不平衡,例如“#食用油涨价#”、“#皮鞋果冻#”等话题本身具有明显的贬义情感,而“#屠呦呦获奖#”这个话题具有明显的褒义情感。数据情感倾向分布的不平衡性恰恰是导致很多机器学习算法表现不好的重要因素,尤其是在情感倾向中占少数的类别的识别效果上。另外,与传统的文本相比,微博的长度一般很短,这导致传统方法很难从其中抽取出有助于情感分类的信息,而且目前还没有一个足够大的情感词典可以覆盖所有情感词。
技术实现思路
为了解决上述问题,本专利技术提出了一种面向中文微博的情感倾向分析方法,其主要步骤包括如下:(1)欠采样技术模块。利用AffinityPropagation算法来减少训练集中多数类样本的数量从而平衡训练集,以降低数据集情感倾向分布的不平衡性对分类效果的影响。(2)微博文本预处理模块。对微博文本进行清洗,并进行分词、词性标注和停用词处理等操作。(3)利用Word2vec扩展微博模块。通过利用Word2vec来求微博中每个词的前K个相似词从而扩展微博。(4)特征提取模块。加载相关词典,对前面预处理过的微博进行特征提取。(5)情感分析模型训练模块。在上面已经平衡和扩展后的训练集上训练AWCRF模型;(6)情感倾向性判别模块。利用训练好的AWCRF模型对待预测的微博进行情感倾向判别。附图说明图1为本专利技术的分析流程图。具体实施方式下面结合附图对本专利技术做进一步的说明。本专利技术针对情感倾向分布不平衡的中文微博数据集的情感倾向分类问题。图1为本专利技术的整体算法流程。下面分别叙述各步骤的具体内容:1、欠采样技术模块本专利技术利用AffinityPropagation算法来减少训练集中多数类样本的数量从而平衡训练集。本专利技术的欠采样技术分为如下几步:(1)给定一个训练集t1,将它分为多数类maj1和少数类min1;(2)对于多数类maj1,利用AffinityPropagation聚类算法将它聚成几个类,可以表示为C={c1,c2,...cn本文档来自技高网...
一种面向中文微博的情感倾向分析方法

【技术保护点】
一种面向中文微博的情感倾向分析方法,其特征在于包括如下模块:(1)欠采样技术模块,利用Affinity Propagation算法来减少训练集中多数类样本的数量从而平衡训练集,以降低数据集情感倾向分布的不平衡性对分类效果的影响;(2)微博文本预处理模块,对微博文本进行清洗,并进行分词、词性标注和停用词处理等操作;(3)利用Word2vec扩展微博模块,通过利用Word2vec来求微博中每个词的前K个相似词从而扩展微博;(4)特征提取模块;加载相关词典,对前面预处理过的微博进行特征提取;(5)情感分析模型训练模块,在上面已经平衡和扩展后的训练集上训练AWCRF模型;(6)情感倾向性判别模块,利用训练好的AWCRF模型对待预测的微博进行情感倾向判别。

【技术特征摘要】
2016.03.30 CN 20161019268681.一种面向中文微博的情感倾向分析方法,其特征在于包括如下模块:(1)欠采样技术模块,利用AffinityPropagation算法来减少训练集中多数类样本的数量从而平衡训练集,以降低数据集情感倾向分布的不平衡性对分类效果的影响;(2)微博文本预处理模块,对微博文本进行清洗,并进行分词、词性标注和停用词处理等操作;(3)利用Word2vec扩展微博模块,通过利用Word2vec来求微博中每个词的前K个相似词从而扩...

【专利技术属性】
技术研发人员:郝志峰梁礼欣蔡瑞初温雯
申请(专利权)人:广东工业大学
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1