一种文本情感指数计算方法和系统技术方案

技术编号:8323424 阅读:318 留言:0更新日期:2013-02-14 00:46
一种文本情感指数计算方法和系统,方法包括有:步骤A、构建非领域限定的情感词库,选择多个非领域限定的情感词,并将所述非领域限定的情感词及其对应的情感分数保存在非领域限定的情感词库中;步骤B、根据标点符号将待计算文本划分为多个子句,并对每个子句进行分词,然后依次寻找每个子句中包含的非领域限定的情感词,使用情感指数计算规则对子句中所包含的每个非领域限定的情感词的情感分数进行调整,最后根据调整后的非领域限定的情感词的情感分数,统计每个子句的情感分数,从而计算待计算文本的情感指数值。本发明专利技术属于自然语言处理技术及模式识别领域,能有效提高文本情感分析的准确率和用户满意度。?

【技术实现步骤摘要】

本专利技术涉及一种文本情感指数计算方法和系统,属于自然语言处理技术及模式识别领域。
技术介绍
随着互联网技术的逐步发展,越来越多的网民通过博客,微博客,论坛,新闻在线评论等渠道来表达他们对商业产品,突发事件,政府工作等的意见。一些特定领域的商业产品公司,如数码产品业,食品业,酒店行业等,需要及时了解客户对他们产品的评价,了解客户对其产品的满意度,然后再做出适当的产品调整来适应目前激烈的企业竞争;另外,政府相关部门也需要及时了解网民对政府工作的态度或是对焦点新闻事件的态度,及时掌握人民的情绪,做出正确的抉择,防止恶性事件的发生。由于网络信息量大,同时增长也非常迅速,因此我们将通过计算机,来完成自动化的情感分析工作。从目前国内外的研究情况来看,情感分析的目的是把评估文本归到正面评价 (Positive)或者是负面(Negative)评价。比如给定一个产品评审,系统需要判定该评审所表达的是评阅者的正面意见还是负面意见(在某些情况下还引入中立评审)。情感分析主要用于快速判定大众对一个对象的普遍观点。该任务与传统基于主题的文本分类 (text classification)相似,因此从当前研究使用的技术上看大都使用相同的技术来解决该问题,如监督学习算法(supervised learning),半监督学习算法(semi-supervised learning)和无监督学习算法(unsupervised learning)。但两者又有所区别,基于主题的文本分类将文档分到预先定义好的不同主题类别中,比如政治、科学、体育等。在基于主题的分类中,主题相关词汇是重要的。而在意见分类中,主题相关词汇是不重要的。相反,表征了正面或者负面观点的意见词汇是重要的,比如,“好”,“优秀”,“伤心”,“差”等等。同时, 这些观点词所处的领域也很重要,同样的词在不同的领域会表达不同的意见倾向。因此,根据情感分析的领域特性,我们可以分为单领域情感分析技术和跨领域情感分析技术。I、单领域情感分析技术单领域情感分析,即通过一个标注好的某个领域的情感语料库,在此基础上训练一个分类模型,然后通过该模型继续完成后续该领域的情感分析任务。在该类别中,监督学习算法的应用占主导地位,如K-近邻算法(kNN)、朴素贝叶斯算法(NaiveBayes),支持向量机算法(SVM)。由于语料库标注的繁琐性,半监督学习算法,如期望最大化算法(EM)和无监督学习算法,评分函数方法也都被广泛应用于情感分析研究中。但是,实验证明在单领域意见分类中,监督学习方法要优于半监督和无监督的算法。2、跨领域情感分析技术在情感分析应用中,领域迁移(domain-transfer)问题更加多见。如给一个情感词 “高”。如果说“房价高”,那么这个词就是负面的;如果说“收入高”,那么这个词就是正面的。如果在这种情况下我们采用单领域中常用的监督学习算法,就会造成分类器准确率的下降。在目前的研究中,解决情感分析领域迁移问题主要有三种方案。第一种就是使用无监督学习(unsupervised learning)方法,即在英文情感分析中应用中的语义指向 (semantic orientation)方法,该方法首先对各个分词进行词性标注,然后安装指定的词性序列进行过滤,将满足条件的序列保留下来,然后使用点对互信息(PointWise Mutual Information)算法并AltaVista搜索引擎完成对每个保留下来的词组进行情感极性打分。 最后综合这些词组的打分,完成对一句或者一段话的情感极性打分。第二种方案是找到训练集领域(也称为源领域)与测试集领域(也称为目标领域)的公共特征(generalizable features),然后借助半监督学习(semi-supervised learning)算法完成迁移任务。最后一种解决方案是使用语料库迁移算法,该算法通过计算找到目标领域语料库与源领域语料库的相似部分,然后重新训练分类器得到分类模型。这种方案是基于监督学习算法完成的。 后面的两种解决方案虽然避免了第一种方案的弊端,但是都需要重新训练分类器,因此整个算法的运行效率也不高。目前,对于文本的自动化情感分析也提出了一些解决方案例如专利申请CN 201210154332. 6 (申请名称一种文本情感分类方法及系统,申请时间=2012-05-17,申请人苏州大学)公开了一种文本情感分类方法,包括对照预置的情感词表,在待分类文本中找出情感词,并依据情感词表获取与情感词对应的情感极性;使用两个极性转变规则判断情感词是否发生极性转变,依据情感词的情感极性及情感词的极性转变结果,计算待分类文本中各个词出现在每一种极性的文本中的概率;依据待分类文本中各个词出现在每一种极性的文本中的概率,利用贝叶斯分类器模型对待分类文本进行分类。这些技术方案主要用于对文本情感极性进行判断,如正面、中性、或负面。由于情感分类不同于文本分类,对同一段评论,不同的人可能认为其表达了不同的情感倾向,例如文本“这部手机运行程序运行速度很快,屏幕也很好,就是在待机时间方面有所欠缺。”有的人可能认为是中性的,有的人可能认为是负面的,甚至还有一部分人可能认为是正面的。通过上述技术方案对文本给出的情感极性过于绝对化,很难符合所有人的情感倾向,分析结果准确率不高。因此,如何有效提高文本情感分析的准确率?仍是一个急需要解决的技术难题。
技术实现思路
有鉴于此,本专利技术的目的是提供一种文本情感指数计算方法和系统,能有效提高文本情感分析的准确率。为了达到上述目的,本专利技术提供了一种文本情感指数计算方法,所述方法包括有步骤A、构建非领域限定的情感词库,选择多个非领域限定的情感词,并将所述非领域限定的情感词及其对应的情感分数保存在非领域限定的情感词库中;步骤B、根据标点符号将待计算文本划分为多个子句,并对每个子句进行分词,然后依次寻找每个子句中包含的非领域限定的情感词,使用情感指数计算规则对子句中所包含的每个非领域限定的情感词的情感分数进行调整,最后根据调整后的非领域限定的情感词的情感分数,统计每个子句的情感分数,从而计算待计算文本的情感指数值。为了达到上述目的,本专利技术还提供了一种文本情感指数计算系统,包括有非领域情感词库构建装置,用于构建非领域限定的情感词库,选择多个非领域限定的CN 102929861 A书明说3/10 页情感词,并将所述非领域限定的情感词及其对应的情感分数保存在非领域限定的情感词库中;文本情感指数计算装置,用于根据标点符号将输入的待计算文本划分为多个子句,并对每个子句进行分词,然后依次寻找每个子句中包含的非领域限定的情感词,使用情感指数计算规则对子句中所包含的每个非领域限定的情感词的情感分数进行调整,最后根据调整后的非领域限定的情感词的情感分数,统计每个子句的情感分数,从而计算待计算文本的情感指数值。与现有技术相比,本专利技术的有益效果是本专利技术在实际应用中不需要重新训练分类器,执行效率比较高;充分考虑了情感词的领域迁移性,并且考虑了中文表达的特点;情感分类不同于文本分类,对同一段评论,不同的人可能认为其表达了不同的情感倾向,因此本专利技术通过文本情感指数来表示文本情感分析的结果而不是具体的一个情感极性,并给定一个情感指数区间[文本情感指数本文档来自技高网
...

【技术保护点】
一种文本情感指数计算方法,其特征在于,所述方法包括有:步骤A、构建非领域限定的情感词库,选择多个非领域限定的情感词,并将所述非领域限定的情感词及其对应的情感分数保存在非领域限定的情感词库中;步骤B、根据标点符号将待计算文本划分为多个子句,并对每个子句进行分词,然后依次寻找每个子句中包含的非领域限定的情感词,使用情感指数计算规则对子句中所包含的每个非领域限定的情感词的情感分数进行调整,最后根据调整后的非领域限定的情感词的情感分数,统计每个子句的情感分数,从而计算待计算文本的情感指数值。

【技术特征摘要】
1.一种文本情感指数计算方法,其特征在于,所述方法包括有 步骤A、构建非领域限定的情感词库,选择多个非领域限定的情感词,并将所述非领域限定的情感词及其对应的情感分数保存在非领域限定的情感词库中; 步骤B、根据标点符号将待计算文本划分为多个子句,并对每个子句进行分词,然后依次寻找每个子句中包含的非领域限定的情感词,使用情感指数计算规则对子句中所包含的每个非领域限定的情感词的情感分数进行调整,最后根据调整后的非领域限定的情感词的情感分数,统计每个子句的情感分数,从而计算待计算文本的情感指数值。2.根据权利要求I所述的方法,其特征在于,所述步骤A进一步包括有 步骤Al、获取多个情感词,并根据情感分数计算语料库中包含有情感词的正面/或负面文档数量、情感词和正面/或负面文档共同出现的概率、正面/或负面文档出现的概率、以及正面/或负面文档中情感词出现的概率,分别计算每个情感词与正面情感/或负面情感的共现分数,所述情感分数计算语料库选用一个包含有多个领域数据的情感语料库;步骤A2、使用最大-最小归一化方法,分别对每个情感词与正面情感/或负面情感的共现分数进行归一化处理; 步骤A3、根据情感词与正面情感、负面情感的共现分数的差值,计算每个情感词的正面极性差; 步骤A4、设置极性差阈值T,所述T是一个大于O的实数,并判断每个情感词的正面极性差是否大于T、或小于-T,如果是,则将所述情感词的正面极性差作为其情感分数,并将所述情感词及其情感分数保存在非领域限定的情感词库中。3.根据权利要求2所述的方法,其特征在于,还包括有所述步骤Al中,情感词W与w I e )正面情感的共现分数的计算公式是€P(*WW■7________f;_____..上;,H:中,j .是在情感分数计算语料库中包含有情感卩彳胃的ιΚι ιι义Ti数V:圮估感分数计算 c(e w)语料库中情感词和正面文档共同出观的概中.,Mi=PCepsWjeli) ; __-是情感分数计算语料库中正面文档的数量是情感分数计算语料库中正面文档出现的概率, c(ee)其值为Ρ(ερ)_=φ )是情感分数计算语料库中正面文档的数量,%是情感分数计算语料库中所有文們的数.4圮估感分数计算语料库的正面文档中情感词胃出现 £(爾| €,)的概率,其值为斤(叫^) = ··;^^······,,,)是情感分数计算语料库的正面文档中情感 F ' * f ^词胃出现的次数是情感分数计算语料库的正面文档中的总词频数; 情感词W 1J负面情感的共现分数的计算公式是 Pfc W I £!、CNfes^w______,其中,j 、是在情感分数计算语料库中包含有情感词胃的负面文档数W {(eyWjed圮怙感分数计算语料库中情感词胃和负面文档共4.根据权利要求2所述的方法,其特征在于,所述步骤Α2中,对情感词冒与正面情感5.根据权利要求2所述的方法,其特征在于,所述步骤A3中,情感词冒的正面极性差的计算公式是6.根据权利要求I所述的方法,其特征在于,所述步骤B中,依次寻找每个子句中包含的非领域限定的情感词,使用情感指数计算规则对子句中所包含的每个非领域限定的情感词的情感分数进行调整,进一步包括有 步骤BI、判断每个子句的分词中是否有非领域限定的情感词,如果是,则从非领域限定的情感词库中提取所述非领域限定的情感词对应的情感分数F,继续下一步;如果否,则本流程结束; 步骤B2、判断所述子句中位于非领域限定的情感词之前的分词是否存在有转折词,如果是,则将所述非领域限定的情感词的情感分数F调整为2*F,继续下一步;如果否,则继续下一步;所述转折词包括但不仅限于可是、但是、然而、偏偏、只是、不过、至于、以至、不料、岂知; 步骤B3、判断所述子句中非领域限定的情感词之前的分词是否存在有否定词、且否定词与非领域限定的情感词的文字距离小于或等于2,如果是,则将所述非领域限定的情感词的情感分数F调整为-F,继续下一步;如果否,则继续下一步;所述否定词包括但不仅限于不、没;步骤B4、判断所述子句中是否存在有副词、且副词与非领域限定的情感词的文字距离小于或等于2,如果是,则将所述非领域限定的情感词的情感分数F调整为2*F,继续下一步;如果否,则继续下一步;所述副词包括但不仅限于非常、特别; 步骤B5、判断非领域限定的情感词是否处于子句的句末,如果是,则将所述非领域限定的情感词的情感分数F调整为2*F。7.根据权利要求I所述的方法,其特征在于,所述步骤B中,根据调整后的非领域限定的情感词的情感分数,统计每个...

【专利技术属性】
技术研发人员:廖建新范文张雷赵贝尔
申请(专利权)人:杭州东信北邮信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1