本发明专利技术公开了一种基于GRU神经网络的中文评论情感分析法,属于自然语言处理及深度学习领域。该方法包括如下步骤:(1)先将语料数据载入,利用jieba分词工具进行分词;(2)去除一些无用的暂停词并将语料按比例分割为训练集和测试集;(3)利用word2vec训练语料的词语向量,对每个句子的所有词向量取均值,来生成对应句子的向量,然后利用word2vec模型网络进行反向传播训练最终计算生成相应的词向量;(4)将word2vec生成的带有句子情感的词向量输入GRU神经网络模型进行训练;(5)测试集按照训练集方法构建,输入GRU神经网络进行情感分类。本发明专利技术利用基于GRU神经网络的分类模型来进行情感分类,在获得不错效果的同时模型速度上也有显著提升。
【技术实现步骤摘要】
一种基于GRU神经网络的中文评论情感分析法
本专利技术涉及一种基于GRU(循环单元)神经网络的中文评论情感分析法,属于自然语言处理及深度学习领域。
技术介绍
情感分类技术是指将用户在评论文本中表达的情感信息进行识别分类,在一般情况下将其分为正类和负类。对于赞美和肯定的情感分为正类,对于批评和否定的情感分为负类。情感分类技术主要有两种方式:第一种是利用情感词典的无监督分类方法,第二种是基于机器学习的有监督分类方法。因为基于机器学习方法的情感分类能够得到更加出色的分类效果,所以成为了主流方法。2002年,Pang等科研人员首次将机器学习的方法应用于情感分类领域。他们尝试使用N-grame模型提取出特征,并且分别利用机器学习领域的3种分类模型(NB(朴素贝叶斯分类模型)、ME(模幂运算分类模型)和SVM(支持向量机分类模型))进行了测试。发现利用unigrams(一元模型)作为特征集合,使用SVM进行最终分类,可以获得较好的分类效果。而2006年通过Cui等实验表明,当语料较少时unigrams可以获得较好效果。但语料库增长,n-grams(n>3)确表现出了更好分类性能。随着n-grams(n元模型)的n取值不断增大造成了数据量的爆炸增长,使得正常情况下n取在3左右,不能更多的提炼中间词与周边词的联系。怎样抽取出复杂特征而非简单特征以及识别出哪种类型的特征是有价值的,是目前研究的两个主要问题。近些年来出现了许多方法,主要有Single-CharaxterN-grams(多特征n元模型)模型,Multi-WordN-grams(多特征词n元模型)模型和词汇-句法模型等。Ahmed等在2011年提出了基于规则的多元文本特征选择方法FRN(FeatureRelationNetwork特征关系网)。Yao等用统计的机器学习的方法来选择特征,降低了特征向量的维度。其他还有采用DF(DocumentFrequency文档频率法)、IG(InformationGain信息增益)、CHI(ChiSquaredStatistic卡方统计法)和MI(MutualInformation互信息法)来选取特征。Mikolov等人于2011年提出了一种RNNLM(递归神经网络的语言模型),从而解决了变长序列的问题。但是即便是在百万量级的数据集上,即便是借助了40个CPU进行训练,耗时数周才能给出一个很好的解来。训练一个NNLM(神经网络语言模型)几乎是一个不可能的事情。2013年Mikolov对NNLM进行了改进,2013年于Google开源了一款用于词向量计算的工具——word2vec。GRU神经网络单元是2014年由Cho等人基于LSTM(长短期记忆网络)变形而来,GRU与LSTM的区别在于使用同一个门限来代替输入门限和遗忘门限,该做法的好处是计算得以简化,同时表达能力也得到提升,所以GRU也因此越来越流行。传统方法都限于挖掘句子中词与词之间的词汇特征及句法特征,而在语言中往往蕴含词语之间的隐含信息及语义特征,会对感情信息的识别起到很大作用。对于感情表示准确的语句来说大多方法可以精准识别,但对于一些带有反讽(过度赞扬达到批评目的)色彩的评论却无法准确识别。因为这类方法只能对不同词特征进行分类无法提取出句子中隐含的情感表达。对于现在更加个性化的年轻人而言,评论也越来越多样化。这是未来分类与处理的难题。
技术实现思路
本专利技术提出了一种基于GRU神经网络的中文评论情感分析法,利用word2vec(词向量生成模型)先训练语料的词语向量,计算词语间的余弦距离进行聚类,通过相似特征的聚类方法将高相似度领域词汇扩充到词典。利用扩充词典作为评论语句词向量生成器将评论语句转化为语句向量,然后word2vec进行训练生成相应的特征向量。本专利技术为解决其技术问题采用如下技术方案:一种基于GRU神经网络的中文评论情感分析法,包括如下步骤:(1)先将语料数据载入,利用jieba分词工具进行分词;(2)去除一些无用的暂停词并将语料按比例分割为训练集和测试集;(3)利用word2vec训练语料的词语向量,对每个句子的所有词向量取均值,来生成对应句子的向量,然后利用word2vec模型网络进行反向传播训练最终计算生成相应的词向量;(4)将word2vec生成的带有句子情感的词向量输入GRU神经网络模型进行训练;(5)测试集按照训练集方法构建,输入GRU神经网络进行情感分类。步骤(1)中所述语料数据为国内知名网站京东上的用户评论,训练语料集11w条电子、生活类评论语句。所述语料数据分为正类和负类。所述语料数据分割成训练集和测试集。所述训练集和测试集比例为5:1。本专利技术的有益效果如下:1、本专利技术利用基于GRU神经网络的分类模型来进行情感分类,在获得不错效果的同时模型速度上也有显著提升。2、word2vec和GRU可以很好地完成中文文本感情分类的任务。虽然GRU模型训练的准确信不能完全超过其他深度学习方法。但是在训练测试所耗时间上有着一定的提升。所以基于GRU神经网络的中文评论情感模型的方法表现出了足够优越的性能。附图说明图1为一种基于GRU神经网络的中文评论情感分析法流程图。图2为GRU单元内部结构图。具体实施方式下面结合附图对本专利技术创造做进一步详细说明。如图1所示方法先将语料数据载入,利用jieba(中文分词工具)分词工具进行分词,然后去除一些无用的暂停词并将语料按一定比例分割为训练集和测试集。为了提取词与词之间的语义特征,对词句分类判断能力的加强。本专利利用Word2Vec训练语料的词语向量,对每个句子的所有词向量取均值,来生成对应句子中词的词向量,然后利用Word2Vec模型网络进行反向传播训练最终计算生成相应的低维词向量。将Word2Vec生成的带有句子情感的词向量输入GRU神经网络模型进行训练。将测试集按照上述方法构建,输入GRU神经网络进行情感分类。一种基于GRU神经网络的中文评论情感分析方法。方法采用word2vec训练出每个词的词向量,计算向量之间的余弦来判断向量的相似度从而获得文本语义上的相似度。将这些相似度高的词做聚类处理。通过对训练语料集进行相似特征词处理,再将其添加进情感词典之中达到扩充情感词典的效果。再利用word2vec对训练语料集训练得到单词的向量表示,使用这个表示作为词向量特征数学化表示。这种表示揭示出特征值之间的隐性语义。通过这种方式将特征词匹配转换为向量形式的值。通过GRU神经网络模型进行训练测试从而完成一个模型的设计。其具体步骤如下:第一步:word2vec训练需要文本语料做支撑,训练语料库越丰富,其训练效果就会越好不过目前国内并没有一个相对完备的公开实验数据集给研究者做测试,因此在进行实验之前,需要从互联网上获取大量的用户评论。将训练集数据进行了分类,按星级划分4、5星评论为正类,1、2星评论为负类。本申请利用的是国内知名网站京东上的用户评论,训练语料集11w条电子、生活类评论语句,进行分类操作后,训练集大概正负比例为5:2(经过人为压缩筛选),数据相对平衡。同时将语料库分割成训练集和测试集,比例为5:1。第二步:利用jieba分词程序对所收集的电子类、生活类商品评论语料进行分词和词性标注,去除语料中的标点本文档来自技高网...
【技术保护点】
1.一种基于GRU神经网络的中文评论情感分析法,其特征在于,包括如下步骤:(1)先将语料数据载入,利用jieba分词工具进行分词;(2)去除一些无用的暂停词并将语料按比例分割为训练集和测试集;(3)利用word2vec训练语料的词语向量,对每个句子的所有词向量取均值,来生成对应句子的向量,然后利用word2vec模型网络进行反向传播训练最终计算生成相应的词向量;(4)将word2vec生成的带有句子情感的词向量输入GRU神经网络模型进行训练;(5)测试集按照训练集方法构建,输入GRU神经网络进行情感分类。
【技术特征摘要】
1.一种基于GRU神经网络的中文评论情感分析法,其特征在于,包括如下步骤:(1)先将语料数据载入,利用jieba分词工具进行分词;(2)去除一些无用的暂停词并将语料按比例分割为训练集和测试集;(3)利用word2vec训练语料的词语向量,对每个句子的所有词向量取均值,来生成对应句子的向量,然后利用word2vec模型网络进行反向传播训练最终计算生成相应的词向量;(4)将word2vec生成的带有句子情感的词向量输入GRU神经网络模型进行训练;(5)测试集按照训练集方法构建,输入GRU神经网络进行情感分类。...
【专利技术属性】
技术研发人员:行鸿彦,余培,
申请(专利权)人:南京信息工程大学,
类型:发明
国别省市:江苏,32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。