一种基于词典的文本情感分析方法技术

技术编号：14337460 阅读：3589 留言：0更新日期：2017-01-04 10:40

本发明专利技术涉及一种基于词典的文本情感分析方法，其是通过(1)构建基础情感词典，(2)语料处理，(3)分词，(4)提取特征值，(5)计算每个语句的权重，(6)计算文本的权重，从而确定待分析文本的情感，本发明专利技术的分析方法取得了良好的效果，正确率高，处理速度快，而且不需要对语料进行训练，所需人工成分较少，而且通用性较强，适于大范围推广应用。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于文本分析
，具体涉及一种基于词典的文本情感分析方法。
技术介绍
随着互联网的飞速发展，尤其是Web2.0技术出现后，越来越多的互联网用户从单纯地获取互联网信息向创造互联网信息转变。互联网中的博客、论坛、讨论组出现了大量的由用户发布的主观性文本。这些主观性文本可以是用户对某个产品或服务的评论，或者是公众对某个新闻事件或国家政策的观点等。潜在的消费者在购买某个产品或服务时获取相关的评论可以提供决策参考，政府部门也可以浏览公众对新闻事件或国家政策的看法来了解舆情。这些主观性文本每天以指数级的速度增长，仅靠人工进行分析需要消耗大量的人力和时间。因此采用计算机来自动地分析这些主观性文本表达的情感，成为目前学术界研究的一个热点，这个热点的研究方向就是文本情感分析或称为意见挖掘。判别词语的情感极性是文本情感分析的基础。为了定量地判别词语的情感极性，通常用位于区间[－1，1]的某个实数作为情感权重表示词语的褒贬程度。通常如果情感权重大于0，则词语为褒义词；情感权重小于0，则词语为贬义词。情感权重的绝对值越大则意味着词语的褒贬程度越大。目前词语的情感极性判别主要有基于语料库和基于词典两种方法。(1)基于语料库的方法主要是利用词语之间的连词以及统计特征来判别词语的情感极性。由连词连接的词语的情感极性存在某种关联，比如由连词“和”连接的词语的情感极性相同，由连词“但是”连接的词语的情感极性相反。Yuen等人利用Turney的点互信息，用小规模的语料库来判别词语的情感极性。具体算法是将情感极性已确定且情感色彩强烈的词语作为种子词，通过计算需要判断情感极性的词...
一种基于词典的文本情感分析方法

【技术保护点】
一种基于词典的文本情感分析方法，其特征在于由以下步骤组成：(1)构建基础情感词典搜集哈工大信息检索研究中心同义词词林扩展版、台湾中文情感极性词典以及知网的情感分析用词语集，将这些词典合并后去重，对每个词语标等级后计算该词语的权重，将每个词语及其对应的极性、词性、等级、权重值组合构建成基础情感词典；(2)语料处理对待分析的文本进行判断，若文本长度大于等于200字，则认定为由多个句子组成，采用hanlp提取中心思想法或ICTCLAS提取中心思想法提取该待分析文本的中心思想；若文本长度小于200字，进行下一步处理；(3)分词提取步骤(2)长度小于200字的待分析文本或待分析文本的中心思想中所包含的每个语句，通过HanLp分词处理法或ICTCLAS分词处理法对每个语句进行分词处理，去掉分词语句中的停词，得到去停词语句；(4)提取特征值将步骤(3)所得的去停词语句中每个词语与步骤(1)的基础情感词典进行匹配，提取去停词语句中每个词语所对应的等级和权重，并计算每个词语的等级与权重的乘积，得到该语句中每个词语对应的特征值；(5)计算每个语句的权重判断步骤(3)的每个去停词语句中的每个词语的极性，利用...

【技术特征摘要】
1.一种基于词典的文本情感分析方法，其特征在于由以下步骤组成：(1)构建基础情感词典搜集哈工大信息检索研究中心同义词词林扩展版、台湾中文情感极性词典以及知网的情感分析用词语集，将这些词典合并后去重，对每个词语标等级后计算该词语的权重，将每个词语及其对应的极性、词性、等级、权重值组合构建成基础情感词典；(2)语料处理对待分析的文本进行判断，若文本长度大于等于200字，则认定为由多个句子组成，采用hanlp提取中心思想法或ICTCLAS提取中心思想法提取该待分析文本的中心思想；若文本长度小于200字，进行下一步处理；(3)分词提取步骤(2)长度小于200字的待分析文本或待分析文本的中心思想中所包含的每个语句，通过HanLp分词处理法或ICTCLAS分词处理法对每个语句进行分词处理，去掉分词语句中的停词，得到去停词语句；(4)提取特征值将步骤(3)所得的去停词语句中每个词语与步骤(1)的基础情感词典进行匹配，提取去停词语句中每个词语所对应的等级和权重，并计算每个词语的等级与权重的乘积，得到该语句中每个词语对应的特征值；(5)计算每个语句...

【专利技术属性】
技术研发人员：袁柳，姚文杰，王静，
申请(专利权)人：陕西师范大学，
类型：发明
国别省市：陕西;61

全部详细技术资料下载我是这个专利的主人