一种文本情绪分类方法及系统技术方案

技术编号:21629148 阅读:28 留言:0更新日期:2019-07-17 11:09
本发明专利技术提供一种文本情绪分类方法,包括:S1、基于限制递归神经张量网络模型中预设的权重矩阵集,在文本中提取权重大于预设阈值的词项作为语义实词;S2、基于训练后的限制递归神经张量网络模型,提取所述语义实词的情绪特征;S3、基于所述语义实词的情绪特征,对所述文本进行情绪分类。本发明专利技术提供的文本情绪分类方法及系统,通过在递归神经张量网络模型的基础上,添加权重矩阵集使得模型训练对于虚词权重降低,使得文本情绪特征检测能更专注于实词,减少信息冗余干扰,提高文本情绪分类准确率。

A Text Emotion Classification Method and System

【技术实现步骤摘要】
一种文本情绪分类方法及系统
本专利技术涉及文本信息处理领域,更具体地,涉及一种文本情绪分类方法及系统。
技术介绍
据《中国互联网络发展状况统计报告》调查结果显示,截至2016年12月,中国网民规模达7.31亿,相当于欧洲人口总量,互联网普及率达到53.2%。互联网在整体环境、应用普及和热点行业发展等领域都取得了令人瞩目的成绩。随着网络技术的发展和普及,网络不仅给网民提供了信息传播的新途径,并且为用户提供了快捷、方便的交互方式,作为读者与作者,读者与读者之间架起了沟通的桥梁。互联网在信息传播领域越来越突出的作用不仅引起了学术界对网络舆情的关注,许多对信息敏感的行业如证券、金融以及政府机构也逐渐将目光投向这一研究领域。在网上,越来越多的用户利用互联网来发表自己的观点,由此产生了大量数文本数据。这些数据不仅包含权威的官方信息,也包含可信度较差的非官方信息,甚至是虚假信息。并且由于网络的开放性和共享性,用户参与进来发表自己的观点,免不了会产生“情绪化”的内容。其中的一些信息广泛传播必然会在社会上造成舆论效应,或积极或消极。因此,把握互联网用户的“情绪化”信息逐渐成为大众舆情监测的重要组成部分。而目前对情绪倾向性分析缺乏有效的分析工具,很难捕捉相关文章的主流情绪。目前,现有的文本情绪分类方法一般采用传统的词袋模型和人工标注法和回溯神经网络(RNN)模型分类法。传统的词袋模型和人工标注法首先人工构建情绪匹配知识库,将待分类文本与情绪匹配知识库进行匹配,得到待分类文本的情绪特征,将所述待分类文本的情绪特征进行分类,得到文本的情绪分类结果。RNN模型可用来预测句子级的情绪分布的深度学习算法,不需要词典和极性转换。算法使用空间向量表示句子结构,解决了词袋模型无法表示符合语义的缺陷,同时使用情绪分布来替代传统的一维情绪评价方式。进一步的,在RNN模型的基础上,有人提出了递归神经张量网络(RNTN)模型,该模型加强了词的表示形式,除了词向量外,还往其中加入一个词矩阵,通过这么做新的模型将不仅仅拥有表达嵌入词含义的能力,它还拥有学习一个单词是如何修饰其他单词的能力,即给词语赋予了两种表达方式,使得词语能够尽可能的符合语义环境。但是,现有技术使用的RNTN模型虽然通过构建词向量和词矩阵来对词语进行两重标定,但是在这个过程中会出现大量的信息冗余,例如一些冠词如:the、a等也会被以相同的重要程度纳入到语义信息中,但在进行文本分类时,文本中所包含的语义实词情绪特征才是分类过程中所需要的判别特征,那么在使用该模型进行文本情绪分类时,分类精确度将会受到冗余干扰,导致分类精度不高。
技术实现思路
本专利技术提供一种克服上述问题或者至少部分地解决上述问题的一种文本情绪分类方法及系统。根据本专利技术的一个方面,提供一种文本情绪分类方法,其特征在于,包括:S1、基于限制递归神经张量网络模型中预设的权重矩阵集,在文本中提取权重大于预设阈值的词项作为语义实词;S2、基于训练后的限制递归神经张量网络模型,提取所述语义实词的情绪特征;S3、基于所述语义实词的情绪特征,对所述文本进行情绪分类。其中,步骤S1之前所述方法还包括:在递归神经张量网络模型中添加权重矩阵集,并基于预设的限制函数,缩小所述递归神经张量网络模型中的循环检测器大小,从而构建所述限制递归神经张量网络模型。其中,所述限制递归神经张量网络模型为:其中,h为情绪特征,σ为激活函数,x为词项,f(i(xt))为限制函数,b为偏置量,t为状态量,w为矩阵,ht为当前状态的情绪特征,为权重矩阵,为循环检测器。其中,步骤S1包括:获取所述文本中的所有词项;基于所述限制递归神经张量网络模型中预设的权重矩阵集,对所述所有词项中的每一个词项分配一个预设的权重矩阵,得到各个词项的权重表达式;对所述各个词项的权重表达式训练后,提取权重大于预设阈值的词项作为语义实词。其中,步骤S1之后,步骤S2之前,所述方法还包括:构建斯坦福情绪树;将所述斯坦福情绪树作为所述限制递归神经张量网络模型的训练样本,对所述限制递归神经张量网络模型进行训练。其中,所述构建斯坦福情绪树,包括:基于斯坦福句法分析器,对所述文本的句法进行分析,得到斯坦福二叉树;基于非线性函数,对所述斯坦福二叉树的节点进行情绪特征标注,得到斯坦福情绪树。其中,所述方法还包括:所述对所述限制递归神经张量网络模型进行训练时,在所述斯坦福情绪树的每个节点用张量复合函数替换所述非线性函数。根据本专利技术的第二方面,提供一种文本情绪分类系统,包括:第一提取模块,用于基于限制递归神经张量网络模型中预设的权重矩阵集,在文本中提取权重大于预设阈值的词项作为语义实词;第二提取模块,用于基于训练后的限制递归神经张量网络模型,提取所述语义实词的情绪特征;分类模块,用于基于所述语义实词的情绪特征,对所述文本进行情绪分类。根据本专利技术的第三方面,提供一种计算机程序产品,包括程序代码,所述程序代码用于执行上述所述的文本情绪分类方法。根据本专利技术的第四方面,提供一种非暂态计算机可读存储介质,用于存储如前所述的计算机程序。本专利技术提供的文本情绪分类方法及系统,通过在递归神经张量网络模型的基础上,添加权重矩阵集使得模型训练对于虚词权重降低,使得文本情绪特征检测能更专注于实词,减少信息冗余干扰,提高文本情绪分类准确率。附图说明图1是本专利技术实施例提供的一种文本情绪分类方法流程图;图2是本专利技术实施例提供的一种斯坦福情绪树句子拆分示意图;图3是本专利技术实施例提供的一种文本情绪分类系统结构图。具体实施方式下面结合附图和实施例,对本专利技术的具体实施方式作进一步详细描述。以下实施例用于说明本专利技术,但不用来限制本专利技术的范围。图1是本专利技术实施例提供的一种文本情绪分类方法流程图,如图1所示,所述方法包括:S1、基于限制递归神经张量网络模型中预设的权重矩阵集,在文本中提取权重大于预设阈值的词项作为语义实词;S2、基于训练后的限制递归神经张量网络模型,提取所述语义实词的情绪特征;S3、基于所述语义实词的情绪特征,对所述文本进行情绪分类。可以理解的是,现有技术中,无论是传统的词袋模型表示文本特征,或者是回溯神经网络(RNN)模型分类,还是递归神经张量网络(RNTN)模型分类,都只是对传统的文本整体特征进行提取,而忽视了语义不同带给分类的精度下降问题。也许在短文本处理中,这些不重要的介词、冠词语义不会对文本分析造成太大影响,但是在长文本环境中,这些介词、冠词造成的冗余积累,将会给实际应用造成极大的干扰,使得文本情绪分类效果不佳。针对上述现有技术中存在的问题,本专利技术实施例提供的文本情绪分类方法在RNTN模型的基础上,对词项的表达形式进一步做出限制,从而优化RNTN模型,使得文本的情绪分类精度更佳。具体的,S1中,所述预设的权重矩阵集是针对不同文本或者是同一文本中的不同词项设立的不同权重矩阵,两个权重矩阵之间不共享,从而在训练过程中不必寻找模型的最优权重矩阵,使得模型的表现力更高。可以理解的是,本专利技术实施例提供的步骤S1的目的是需要在文本中提取本专利技术实施例判定的语义实词,所述判定的条件为预设的权重阈值,所述预设的权重阈值是根据模型训练的结果得到的,本专利技术实施例不对预设阈值的具体数值做限定。S2中,所述限制递归神经张量网络模型即为本专利技术实施本文档来自技高网
...

【技术保护点】
1.一种文本情绪分类方法,其特征在于,包括:S1、基于限制递归神经张量网络模型中预设的权重矩阵集,在文本中提取权重大于预设阈值的词项作为语义实词;S2、基于训练后的限制递归神经张量网络模型,提取所述语义实词的情绪特征;S3、基于所述语义实词的情绪特征,对所述文本进行情绪分类。

【技术特征摘要】
1.一种文本情绪分类方法,其特征在于,包括:S1、基于限制递归神经张量网络模型中预设的权重矩阵集,在文本中提取权重大于预设阈值的词项作为语义实词;S2、基于训练后的限制递归神经张量网络模型,提取所述语义实词的情绪特征;S3、基于所述语义实词的情绪特征,对所述文本进行情绪分类。2.根据权利要求1所述的方法,其特征在于,步骤S1之前所述方法还包括:在递归神经张量网络模型中添加权重矩阵集,并基于预设的限制函数,缩小所述递归神经张量网络模型中的循环检测器大小,从而构建所述限制递归神经张量网络模型。3.根据权利要求2所述的方法,其特征在于,所述限制递归神经张量网络模型为:其中,h为情绪特征,σ为激活函数,x为词项,f(i(xt))为限制函数,b为偏置量,t为状态量,w为矩阵,ht为当前状态的情绪特征,为权重矩阵,为循环检测器。4.根据权利要求2所述的方法,其特征在于,步骤S1包括:获取所述文本中的所有词项;基于所述限制递归神经张量网络模型中预设的权重矩阵集,对所述所有词项中的每一个词项分配一个预设的权重矩阵,得到各个词项的权重表达式;对所述各个词项的权重表达式训练后,提取权重大于预设阈值的词项作为语义实词。5.根据权利要求2所述的方法,其特征在于,步骤S1之后,步骤S2之前,所述方法还包括:构建斯坦福情绪树;将所述斯坦福情绪树...

【专利技术属性】
技术研发人员:王宁君张春荣赵琦
申请(专利权)人:普天信息技术有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1