本发明专利技术涉及一种基于词典的文本情感分析方法,其是通过(1)构建基础情感词典,(2)语料处理,(3)分词,(4)提取特征值,(5)计算每个语句的权重,(6)计算文本的权重,从而确定待分析文本的情感,本发明专利技术的分析方法取得了良好的效果,正确率高,处理速度快,而且不需要对语料进行训练,所需人工成分较少,而且通用性较强,适于大范围推广应用。
【技术实现步骤摘要】
本专利技术属于文本分析
,具体涉及一种基于词典的文本情感分析方法。
技术介绍
随着互联网的飞速发展,尤其是Web2.0技术出现后,越来越多的互联网用户从单纯地获取互联网信息向创造互联网信息转变。互联网中的博客、论坛、讨论组出现了大量的由用户发布的主观性文本。这些主观性文本可以是用户对某个产品或服务的评论,或者是公众对某个新闻事件或国家政策的观点等。潜在的消费者在购买某个产品或服务时获取相关的评论可以提供决策参考,政府部门也可以浏览公众对新闻事件或国家政策的看法来了解舆情。这些主观性文本每天以指数级的速度增长,仅靠人工进行分析需要消耗大量的人力和时间。因此采用计算机来自动地分析这些主观性文本表达的情感,成为目前学术界研究的一个热点,这个热点的研究方向就是文本情感分析或称为意见挖掘。判别词语的情感极性是文本情感分析的基础。为了定量地判别词语的情感极性,通常用位于区间[-1,1]的某个实数作为情感权重表示词语的褒贬程度。通常如果情感权重大于0,则词语为褒义词;情感权重小于0,则词语为贬义词。情感权重的绝对值越大则意味着词语的褒贬程度越大。目前词语的情感极性判别主要有基于语料库和基于词典两种方法。(1)基于语料库的方法主要是利用词语之间的连词以及统计特征来判别词语的情感极性。由连词连接的词语的情感极性存在某种关联,比如由连词“和”连接的词语的情感极性相同,由连词“但是”连接的词语的情感极性相反。Yuen等人利用Turney的点互信息,用小规模的语料库来判别词语的情感极性。具体算法是将情感极性已确定且情感色彩强烈的词语作为种子词,通过计算需要判断情感极性的词语与这些种子词的互信息。张靖等人在文章“汉语词语情感倾向自动判断研究”建立基于二元语法依赖关系的情感倾向互信息特征模型,利用特征集合描述情感极性,通过机器学习方法训练分类器,自动判别词语的情感极性。(2)基于词典的方法是利用中文词典HowNet提供的语义相似度或者层次结构来判别词语的情感极性。朱嫣岚等人在文章“基于HowNet的词汇语义倾向计算”提出了基于HowNet的两种词语情感极性判别方法:分别是基于语义相似度和语义相关场的方法。实验表明,基于HowNet语义相似度的方法比基于语义相关场的方法准确率更高,词频加权后的判别准确率可达80%以上。李纯等人在文章“基于语义分析的词汇倾向识别研究”利用HowNet中的对词语的定义与描述,建立褒贬倾向比较强烈的词语组成种子词,并结合上下文的影响,采用一种计算方法来计算普通词与种子词之间的语义相似度来判别普通词的褒贬极性。柳位平等人在文章“中文基础情感词词典构建方法”挑选常用的情感词构成一个基础情感词语集,并采用词语相似度方法计算出每个词的情感倾向权值,研究提出的情感词权值计算方法不要求种子词数量相等。对于目前常用的基于语料库或基于词典的分析方法均存在以下不足:(1)应用情感词典及与其关联信息分析文本情感,但是受到自然语言处理技术及相应的信息抽取技术的限制,该类对文本统计特性的发现能力不强,不易发现特有的计算模式。(2)应用机器学习方法分析文本情感,但缺点也很明显,对训练语料依赖性过高,训练周期相对较长。
技术实现思路
为了克服现有的应用机器学习方法分析文本情感的不足,本专利技术创造提供一种基于词典的文本情感计算系统,能够快速分辨出文本情感倾向并且分析结果准确。本专利技术所采用的技术方案是由以下步骤组成:(1)构建基础情感词典搜集哈工大信息检索研究中心同义词词林扩展版、台湾中文情感极性词典以及知网的情感分析用词语集,将这些词典合并后去重,对每个词语标等级后计算该词语的权重,将每个词语及其对应的极性、词性、等级、权重值组合构建成基础情感词典;(2)语料处理对待分析的文本进行判断,若文本长度大于等于200字,则认定为由多个句子组成,采用hanlp提取中心思想法或ICTCLAS提取中心思想法提取该待分析文本的中心思想;若文本长度小于200字,进行下一步处理;(3)分词提取步骤(2)长度小于200字的待分析文本或待分析文本的中心思想中所包含的每个语句,通过HanLp分词处理法或ICTCLAS分词处理法对每个语句进行分词处理,去掉分词语句中的停词,得到去停词语句;(4)提取特征值将步骤(3)所得的去停词语句中每个词语与步骤(1)的基础情感词典进行匹配,提取去停词语句中每个词语所对应的等级和权重,并计算每个词语的等级与权重的乘积,得到该语句中每个词语对应的特征值;(5)计算每个语句的权重判断步骤(3)的每个去停词语句中的每个词语的极性,利用步骤(4)所得语句中每个词语对应的特征值按照下述方法计算每个语句的权重,计算方法如下:若语句中是相邻的形容词、动词、名词或副词词性,则语句的权重等于各词语的特征值之和;若语句中是否定词与否定词的组合或者是副词与其修饰的形容词的组合或者是副词与其修饰的动词的组合或者是形容词与其修饰的名词或者是否定词与副词的组合,则该语句的权重为各词语的特征值之积;(6)计算文本的权重对步骤(5)所得的每个语句的权重求和,得到该待分析文本的权重值,若待分析文本的权重大于0,则该文本是褒义;否则是贬义。上述步骤(1)中每个词语的权重计算采用TF*IDF方法:Wt,d=TFt,d×ln(N/DFt)Σt=1m[TFt,d×ln(N/DFt)]2]]>其中,Wt,d表示词语t在语句d中的权重;DFt表示出现词语t的语句个数;N表示总语句数;TFt,d表示词语t在语句d中出现的次数。本专利技术提供的基于词典的文本情感分析方法,是通过对情感词典标注原始等级并利用tf-idf方法计算权重建立情感词典,具有词库量大,综合情感分析领域多个词库的优势,之后对文本拆解成以词语、句子、段落为粒度进行情感极性计算,使分辨文本情感极性的准确率较高,同时为舆情系统提供了简单的调用接口,本专利技术的分析方法取得了良好的效果,正确率高,处理速度快,而且不需要对语料进行训练,所需人工成分较少,而且通用性较强,适于大范围推广应用。附图说明图1为本专利技术构建基础情感词典的操作流程图。具体实施方式现结合附图和实施例对本专利技术的技术方案进行进一步说明。(1)构建基础情感词典在图1中,搜集哈工大信息检索研究中心同义词词林扩展版、台湾中文情感极性词典以及知网的情感分析用词语集,将这些词典合并后去重,得到褒义词8741个,贬义词18414个,对其中每个词语标等级后计算该词语的权重,将每个词语及其对应的极性、词性、等级、权重值组合构建成基础情感词典,具体包括:1)褒义词典2)贬义词典3)程度副词词典4)否定词典5)领域词典6)网络词典表1等级标定规则词性等级名词n副词d动词v形容词a否定词褒义1234--贬义24684每个词语的权重计算采用TF*IDF方法:Wt,d=TFt,d×ln(N/DFt)Σt=1m[TFt,d×ln(N/DFt)]2]]>其中,Wt,d表示词语t在语句d中的权重;DFt表示出现词语t的语句个数;N表示总语句数;TFt,d表示词语t在语句d中出现的次数。褒贬义词典每个词语的权重为1;(即每个词在语料中的TF-IDF值);程度副本文档来自技高网...
【技术保护点】
一种基于词典的文本情感分析方法,其特征在于由以下步骤组成:(1)构建基础情感词典搜集哈工大信息检索研究中心同义词词林扩展版、台湾中文情感极性词典以及知网的情感分析用词语集,将这些词典合并后去重,对每个词语标等级后计算该词语的权重,将每个词语及其对应的极性、词性、等级、权重值组合构建成基础情感词典;(2)语料处理对待分析的文本进行判断,若文本长度大于等于200字,则认定为由多个句子组成,采用hanlp提取中心思想法或ICTCLAS提取中心思想法提取该待分析文本的中心思想;若文本长度小于200字,进行下一步处理;(3)分词提取步骤(2)长度小于200字的待分析文本或待分析文本的中心思想中所包含的每个语句,通过HanLp分词处理法或ICTCLAS分词处理法对每个语句进行分词处理,去掉分词语句中的停词,得到去停词语句;(4)提取特征值将步骤(3)所得的去停词语句中每个词语与步骤(1)的基础情感词典进行匹配,提取去停词语句中每个词语所对应的等级和权重,并计算每个词语的等级与权重的乘积,得到该语句中每个词语对应的特征值;(5)计算每个语句的权重判断步骤(3)的每个去停词语句中的每个词语的极性,利用步骤(4)所得语句中每个词语对应的特征值按照下述方法计算每个语句的权重,计算方法如下:若语句中是相邻的形容词、动词、名词或副词词性,则语句的权重等于各词语的特征值之和;若语句中是否定词与否定词的组合或者是副词与其修饰的形容词的组合或者是副词与其修饰的动词的组合或者是形容词与其修饰的名词或者是否定词与副词的组合,则该语句的权重为各词语的特征值之积;(6)计算文本的权重对步骤(5)所得的每个语句的权重求和,得到该待分析文本的权重值,若待分析文本的权重大于0,则该文本是褒义;否则是贬义。...
【技术特征摘要】
1.一种基于词典的文本情感分析方法,其特征在于由以下步骤组成:(1)构建基础情感词典搜集哈工大信息检索研究中心同义词词林扩展版、台湾中文情感极性词典以及知网的情感分析用词语集,将这些词典合并后去重,对每个词语标等级后计算该词语的权重,将每个词语及其对应的极性、词性、等级、权重值组合构建成基础情感词典;(2)语料处理对待分析的文本进行判断,若文本长度大于等于200字,则认定为由多个句子组成,采用hanlp提取中心思想法或ICTCLAS提取中心思想法提取该待分析文本的中心思想;若文本长度小于200字,进行下一步处理;(3)分词提取步骤(2)长度小于200字的待分析文本或待分析文本的中心思想中所包含的每个语句,通过HanLp分词处理法或ICTCLAS分词处理法对每个语句进行分词处理,去掉分词语句中的停词,得到去停词语句;(4)提取特征值将步骤(3)所得的去停词语句中每个词语与步骤(1)的基础情感词典进行匹配,提取去停词语句中每个词语所对应的等级和权重,并计算每个词语的等级与权重的乘积,得到该语句中每个词语对应的特征值;(5)计算每个语句...
【专利技术属性】
技术研发人员:袁柳,姚文杰,王静,
申请(专利权)人:陕西师范大学,
类型:发明
国别省市:陕西;61
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。