一种基于微博的新词情感倾向判定方法技术

技术编号：12478535 阅读：169 留言：0更新日期：2015-12-10 15:01

本发明专利技术涉及一种基于微博的新词情感倾向判定方法，属于自然语言处理领域。本发明专利技术通过中文分词工具对微博语料进行分词，以分词结果中的停用词为分割点对分词后的语料进行分块，将每个块内相邻的字串两两组合，对组合后的字串频率进行统计，将频率高于阈值的词串作为新词候选串；根据汉语言学的成词规则以及邻接变化数的规则对新词候选串进行过滤取得新词；利用知网的情感词典，计算共现词与知网情感词的词语相似度；计算新词与共现词的相关度；构建图模型；利用标签传播算法得到新词的情感极性分布，通过构建线性分类器得到新词的情感倾向性。本发明专利技术对新词的情感倾向性的判定不仅能使博主很好的表达自己的观点，且能让用户准确的把握博主情感倾向。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及，属于自然语言处理领域。
技术介绍
大量的情感新词在微博中涌现，这些新词的出现在人们的日常交流中起着重要的作用，能够更丰富全面的表达人们的观点及情感，同时也是社会趋势与新闻事件的折射。在自然语言处理过程中，情感新词识别一直是一个难点问题，其在中文分词、信息检索、问答系统等方面都有着非常重要的应用。目前的词汇情感极性识别方法，首先选取具有强烈情感倾向的词语作为基准词，然后通过计算与基准词之间的关联强度来确定目标词的情感极性。Turney P D.等人使用 PMI-IR方法，利用点互信息表示目标词与基准词之间的关联强度，求出目标词的情感极性；王素格等人使用PMI方法，分别计算词语及其同义词与褒贬基准词集的关联强度，然后根据关联强度的不同判断词语的情感极性。李钝等人认为共现的词汇具有相同的情感极性。利用HowNet中的"良"、"莠"极性义原，计算词语与基准词意项之间的极性相似度，从而计算出词语极性值。姚天昉，万常选等在计算词语关联强度时引入了链接词（而且、但是等），并利用词语在上下文中的词性和句法结构信息，计算了词语的动态（修饰）极性。提高了情感极性计算的准确性。对于新词的情感极性识别，一方面新词缺乏词性、语义方面的先验知识，无法直接利用知网等外部资源对新词的情感极性做出判断；另一方面由于新词和基准词的数量都相对有限，仅仅计算与基准词的相关度，会出现严重的数据稀疏问题。本专利技术提出的基于微博语料的情感新词极性识别方法在计算新词情感极性时，不仅考虑了与新词相关联的基准词，而且考虑了具有情感倾向的非基准词...
一种<a href="http://www.xjishu.com/zhuanli/55/CN105138510.html" title="一种基于微博的新词情感倾向判定方法原文来自X技术">基于微博的新词情感倾向判定方法</a>

【技术保护点】
一种基于微博的新词情感倾向判定方法，其特征在于：通过中文分词工具对微博语料进行分词，并以分词结果中的停用词为分割点对分词后的语料进行分块，将每个块内相邻的字串两两组合，对组合后的字串频率进行统计，将频率高于阈值的词串作为新词候选串；根据汉语言学的成词规则以及邻接变化数的规则对新词候选串进行过滤取得新词；再利用知网的情感词典，计算共现词与知网情感词的词语相似度；计算新词与共现词的相关度；以新词和该新词的共现词为节点，在新词和它的共现词之间建立边，以新词与共现词的相关度为边的权重，构建图模型；利用标签传播算法得到新词的情感极性分布，最后通过构建线性分类器得到新词的情感倾向性。

【技术特征摘要】

【专利技术属性】
技术研发人员：严馨，周超，余正涛，洪旭东，伏云发，
申请(专利权)人：昆明理工大学，
类型：发明
国别省市：云南;53

全部详细技术资料下载我是这个专利的主人