【技术实现步骤摘要】
本专利技术涉及一种文本情感指数计算方法和系统,属于自然语言处理技术及模式识别领域。
技术介绍
随着互联网技术的逐步发展,越来越多的网民通过博客,微博客,论坛,新闻在线评论等渠道来表达他们对商业产品,突发事件,政府工作等的意见。一些特定领域的商业产品公司,如数码产品业,食品业,酒店行业等,需要及时了解客户对他们产品的评价,了解客户对其产品的满意度,然后再做出适当的产品调整来适应目前激烈的企业竞争;另外,政府相关部门也需要及时了解网民对政府工作的态度或是对焦点新闻事件的态度,及时掌握人民的情绪,做出正确的抉择,防止恶性事件的发生。由于网络信息量大,同时增长也非常迅速,因此我们将通过计算机,来完成自动化的情感分析工作。从目前国内外的研究情况来看,情感分析的目的是把评估文本归到正面评价 (Positive)或者是负面(Negative)评价。比如给定一个产品评审,系统需要判定该评审所表达的是评阅者的正面意见还是负面意见(在某些情况下还引入中立评审)。情感分析主要用于快速判定大众对一个对象的普遍观点。该任务与传统基于主题的文本分类 (text classification)相似,因此从当前研究使用的技术上看大都使用相同的技术来解决该问题,如监督学习算法(supervised learning),半监督学习算法(semi-supervised learning)和无监督学习算法(unsupervised learning)。但两者又有所区别,基于主题的文本分类将文档分到预先定义好的不同主题类别中,比如政治、科学、体育等。在基于主题的分类中,主题相关词汇是重要的。而在 ...
【技术保护点】
一种文本情感指数计算方法,其特征在于,所述方法包括有:步骤A、构建非领域限定的情感词库,选择多个非领域限定的情感词,并将所述非领域限定的情感词及其对应的情感分数保存在非领域限定的情感词库中;步骤B、根据标点符号将待计算文本划分为多个子句,并对每个子句进行分词,然后依次寻找每个子句中包含的非领域限定的情感词,使用情感指数计算规则对子句中所包含的每个非领域限定的情感词的情感分数进行调整,最后根据调整后的非领域限定的情感词的情感分数,统计每个子句的情感分数,从而计算待计算文本的情感指数值。
【技术特征摘要】
1.一种文本情感指数计算方法,其特征在于,所述方法包括有 步骤A、构建非领域限定的情感词库,选择多个非领域限定的情感词,并将所述非领域限定的情感词及其对应的情感分数保存在非领域限定的情感词库中; 步骤B、根据标点符号将待计算文本划分为多个子句,并对每个子句进行分词,然后依次寻找每个子句中包含的非领域限定的情感词,使用情感指数计算规则对子句中所包含的每个非领域限定的情感词的情感分数进行调整,最后根据调整后的非领域限定的情感词的情感分数,统计每个子句的情感分数,从而计算待计算文本的情感指数值。2.根据权利要求I所述的方法,其特征在于,所述步骤A进一步包括有 步骤Al、获取多个情感词,并根据情感分数计算语料库中包含有情感词的正面/或负面文档数量、情感词和正面/或负面文档共同出现的概率、正面/或负面文档出现的概率、以及正面/或负面文档中情感词出现的概率,分别计算每个情感词与正面情感/或负面情感的共现分数,所述情感分数计算语料库选用一个包含有多个领域数据的情感语料库;步骤A2、使用最大-最小归一化方法,分别对每个情感词与正面情感/或负面情感的共现分数进行归一化处理; 步骤A3、根据情感词与正面情感、负面情感的共现分数的差值,计算每个情感词的正面极性差; 步骤A4、设置极性差阈值T,所述T是一个大于O的实数,并判断每个情感词的正面极性差是否大于T、或小于-T,如果是,则将所述情感词的正面极性差作为其情感分数,并将所述情感词及其情感分数保存在非领域限定的情感词库中。3.根据权利要求2所述的方法,其特征在于,还包括有所述步骤Al中,情感词W与w I e )正面情感的共现分数的计算公式是€P(*WW■7________f;_____..上;,H:中,j .是在情感分数计算语料库中包含有情感卩彳胃的ιΚι ιι义Ti数V:圮估感分数计算 c(e w)语料库中情感词和正面文档共同出观的概中.,Mi=PCepsWjeli) ; __-是情感分数计算语料库中正面文档的数量是情感分数计算语料库中正面文档出现的概率, c(ee)其值为Ρ(ερ)_=φ )是情感分数计算语料库中正面文档的数量,%是情感分数计算语料库中所有文們的数.4圮估感分数计算语料库的正面文档中情感词胃出现 £(爾| €,)的概率,其值为斤(叫^) = ··;^^······,,,)是情感分数计算语料库的正面文档中情感 F ' * f ^词胃出现的次数是情感分数计算语料库的正面文档中的总词频数; 情感词W 1J负面情感的共现分数的计算公式是 Pfc W I £!、CNfes^w______,其中,j 、是在情感分数计算语料库中包含有情感词胃的负面文档数W {(eyWjed圮怙感分数计算语料库中情感词胃和负面文档共4.根据权利要求2所述的方法,其特征在于,所述步骤Α2中,对情感词冒与正面情感5.根据权利要求2所述的方法,其特征在于,所述步骤A3中,情感词冒的正面极性差的计算公式是6.根据权利要求I所述的方法,其特征在于,所述步骤B中,依次寻找每个子句中包含的非领域限定的情感词,使用情感指数计算规则对子句中所包含的每个非领域限定的情感词的情感分数进行调整,进一步包括有 步骤BI、判断每个子句的分词中是否有非领域限定的情感词,如果是,则从非领域限定的情感词库中提取所述非领域限定的情感词对应的情感分数F,继续下一步;如果否,则本流程结束; 步骤B2、判断所述子句中位于非领域限定的情感词之前的分词是否存在有转折词,如果是,则将所述非领域限定的情感词的情感分数F调整为2*F,继续下一步;如果否,则继续下一步;所述转折词包括但不仅限于可是、但是、然而、偏偏、只是、不过、至于、以至、不料、岂知; 步骤B3、判断所述子句中非领域限定的情感词之前的分词是否存在有否定词、且否定词与非领域限定的情感词的文字距离小于或等于2,如果是,则将所述非领域限定的情感词的情感分数F调整为-F,继续下一步;如果否,则继续下一步;所述否定词包括但不仅限于不、没;步骤B4、判断所述子句中是否存在有副词、且副词与非领域限定的情感词的文字距离小于或等于2,如果是,则将所述非领域限定的情感词的情感分数F调整为2*F,继续下一步;如果否,则继续下一步;所述副词包括但不仅限于非常、特别; 步骤B5、判断非领域限定的情感词是否处于子句的句末,如果是,则将所述非领域限定的情感词的情感分数F调整为2*F。7.根据权利要求I所述的方法,其特征在于,所述步骤B中,根据调整后的非领域限定的情感词的情感分数,统计每个...
【专利技术属性】
技术研发人员:廖建新,范文,张雷,赵贝尔,
申请(专利权)人:杭州东信北邮信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。