一种基于深度学习的文本情感分析方法技术

技术编号:23513094 阅读:36 留言:0更新日期:2020-03-18 00:17
本发明专利技术提供了一种基于深度学习的文本情感分析方法。(1)输入文本数据,去除停用词,提取关键字,形成关键字集合。(2)通过构建关键字共现图,形成稠密的子图;获取子图和文档中句子的向量表示,进而将句子分配给子图;设计子图与子图之间的边缘连接和边缘权重,形成文档的拓扑交互图表达;(3)将拓扑交互图作为Emo‑GCN模型的输入,进行抽取节点特征变换,然后融合局部结构信息,获得节点聚合矩阵。将聚合的信息做非线性变换。Emo‑GCN模型采用层级结构,逐层抽取特征。本发明专利技术采用新颖的拓扑交互图表达文本信息进而使用图卷积神经网络进行文本情感分析,并且仍然具备强大的适应性。该方法应用于产品推荐、市场预测、决策调整,具有极高的商业价值。

A text sentiment analysis method based on deep learning

【技术实现步骤摘要】
一种基于深度学习的文本情感分析方法
本专利技术涉及的是一种自然语言处理方法,也涉及一种图像分类方法,具体地说是一种文本情感分析方法。
技术介绍
文本分类是自然语言处理领域的经典问题,而情感识别是文本分类中比较有挑战性的工作,当前处理情感分析问题的方法主要有以下三种:一是构造情感词典来进行情感分析,将情感词汇构建成情感词典对于情感分析来说是一个必要而不充分条件,情感词典内容无论如何拓展都无法包含全部情感表达形式,另外有些词汇情感极性并不明确,有些语句可能没有用到情感词汇,但是也表达了某种情感,再有就是在一些语境下有些情感词汇表达了恰恰相反的意思,这些问题就会导致该方法的局限性;二是传统的机器学习方法如逻辑回归(LogisticRegression)、朴素贝叶斯(NaiveBayes)等,其中逻辑回归只能用于线性二分类问题,朴素贝叶斯的结论基于特征的先验概率,而特征之间假设完全独立,这些要求在现实情况中往往是不满足的,分类效果有时差强人意,因此也有很大的局限性;三是目前比较热门的深度学习方法如卷积神经网络(ConvolutionalNeuralNetwork,CNN),循环神经网络(RecurrentNeuralNetwork,RNN)等,它们采用的都是基于欧式空间的数据,最大特点就是具有规则的空间结构,特征可以用一维或者二维矩阵来表示,处理起来比较高效。但是在现实生活中,大部分数据都是不规则的结构,这种数据会用拓扑交互图来表达,不具备平移不变性,很难选去一个固定的卷积核来适应整个图的不规则性,这种结构的数据就会令CNN或RNN瞬间失效。由于文本情感的本质具有复杂性,一段文本并不是词语的简单线性组合,我们在描述一个句子时,都是将句子作为一个整体而不是词语的集合来看待的,词语的不同组合、不同顺序、不同数量都会表达不同的含义和情感,这导致了文本情感分析工作的困难,因此,文本情感分析工作实际上是对人脑思维的模拟。真正的情感判断并不是简单的规则罗列,而是一个复杂的网络。因此,采用文本情感分析的图神经网络算法(EmotionGraphConvolutionalNetwork,Emo-GCN),将文本信息抽象成一张拓扑交互图表达,Emo-GCN可以在图中提取特征,从而对图中的节点进行分类,进而对图数据进行分类。图数据在空间上具有以下两个特征:一是节点特征,每个节点都具有自己的特征,该特征体现在点上;二是结构特征,节点与节点之间存在一定的联系,该特征体现在边上。总的来说,图数据既要考虑节点信息,也要考虑结构信息,图卷积神经网络就可以既学习节点特征,又能学习节点与节点之间的关联信息,最终达到情感分析的目的。
技术实现思路
本专利技术的目的在于提供一种具有较好精确度的基于深度学习的文本情感分析方法。本专利技术的目的是这样实现的:(1)文本数据预处理:去除停用词,提取关键字,所述的提取关键字是采用TextRank关键字提取算法形成关键字集合;(2)构建文档拓扑交互图:通过构建关键字共现图,形成稠密的子图;获取子图和文档中句子的向量表示,进而将句子分配给子图;设计子图与子图之间的边缘连接和边缘权重,形成文档的拓扑交互图表达;(3)执行Emo-GCN训练模型:将步骤(2)中形成的拓扑交互图作为Emo-GCN模型的输入,在Emo-GCN训练模型中,首先进行抽取节点特征变换:每一个节点将自身的特征信息经过变换后发送给邻居节点,通过邻接矩阵A和特征矩阵H(l)得到每个顶点邻居特征的汇总;其次融合局部结构信息:每个节点都将邻居节点的特征信息聚合起来,获得节点聚合矩阵;将聚合的信息做非线性变换,增强模型的表达能力,所述的非线性变换采用非线性激活函数。本专利技术还可以包括:1.在步骤(2)中,通过判断两个单词是否同时出现在一个句子中来决定是否共现。2.步骤(3)中所述的执行Emo-GCN训练模型,具体步骤如下:(3-1)初始输入为一个特征矩阵H(0)=N×F(0),其中N为节点数量,F(0)为每个节点输入特征的数量,卷积层的传播规则如下:其中邻接矩阵是对邻接矩阵进行归一化操作,为了在信息传递过程中保持特征矩阵H(l)的原有分布;(3-2)抽取节点特征变换:每一个节点将自身的特征信息经过变化后发送给邻居节点,通过邻接矩阵A和特征矩阵H(l)相乘得到每个顶点邻居特征的汇总信息;(3-3)融合局部结构信息:每个节点都将邻居节点的特征信息聚合起来,即上一步得到的特征汇总矩阵再乘权值矩阵W(l)获得聚合矩阵;(3-4)非线性变换:将步骤(3-3)中聚合的信息做非线性变换,传播规则公式中的σ即为非线性激活函数,所述非线性激活函数为ReLU函数或Sigmoid函数;(3-5)在卷积层后加一个池化层。本专利技术提供了一种基于深度学习的具有较好精确度的文本情感分析方法。其中的深度学习方法采用Emo-GCN算法。与现有技术相比,本专利技术具有以下优点:Emo-GCN模型采用层级结构,逐层抽取特征,能够使分析结果更加准确;采用端到端的训练方式,只需要给图中的节点一个标记,就可以让模型自己学习融合节点的特征信息和结构信息;另外,可以处理NonEuclideanStructure(非结构化)的数据,突破了CNN只能处理平移不变性数据的局限性。本专利技术突破了已有文本情感分析方法的固有模式,采用新颖的拓扑交互图表达进而使用图卷积神经网络进行文本情感分析,并且仍然具备强大的适应性。附图说明图1是本专利技术方法的流程图;图2是Emo-GCN算法的结构图;图3是Emo-GCN算法与其他主流方法LSTM、CNN、TextCNN在文本情感分析结果准确率上的对比折线图。具体实施方式本专利技术的基于深度学习的文本情感分析方法,主要包括以下步骤:(1)文本数据预处理:去除停用词,提取关键字,在提取关键字时采用TextRank关键字提取算法,从而形成关键字集合。(2)构建文档拓扑交互图:通过构建关键字共现图(KeyGraph),形成稠密的子图;获取子图和文档中句子的向量表示,进而将句子分配给子图;设计子图与子图之间的边缘连接和边缘权重,形成文档的拓扑交互图表达。(3)执行Emo-GCN训练模型:将步骤(2)中形成的拓扑交互图作为Emo-GCN模型的输入,该模型是谱图卷积的一阶局部近似,是一个具有多个层的图卷积神经网络,每一个卷积层处理一阶的邻域信息,叠加多个卷积层即可以实现层与层之间的信息传递,在该模型中,首先进行抽取节点特征变换:每一个节点将自身的特征信息经过变换后发送给邻居节点,通过邻接矩阵A和特征矩阵H(l)得到每个顶点邻居特征的汇总;融合局部结构信息:每个节点都将邻居节点的特征信息聚合起来,获得节点聚合矩阵。将聚合的信息做非线性变换,增强模型的表达能力,非线性变换采用非线性激活函数,如ReLU函数、Sigmoid函数等。在步骤(2)中所述通过判断两个单词是否同时出现在一个句子中来决定是否共现;将句子分配给子图时,既可以获得句子和本文档来自技高网
...

【技术保护点】
1.一种基于深度学习的文本情感分析方法,其特征是:/n(1)文本数据预处理:去除停用词,提取关键字,所述的提取关键字是采用TextRank关键字提取算法形成关键字集合;/n(2)构建文档拓扑交互图:通过构建关键字共现图,形成稠密的子图;获取子图和文档中句子的向量表示,进而将句子分配给子图;设计子图与子图之间的边缘连接和边缘权重,形成文档的拓扑交互图表达;/n(3)执行Emo-GCN训练模型:将步骤(2)中形成的拓扑交互图作为Emo-GCN模型的输入,在Emo-GCN训练模型中,首先进行抽取节点特征变换:每一个节点将自身的特征信息经过变换后发送给邻居节点,通过邻接矩阵A和特征矩阵H

【技术特征摘要】
1.一种基于深度学习的文本情感分析方法,其特征是:
(1)文本数据预处理:去除停用词,提取关键字,所述的提取关键字是采用TextRank关键字提取算法形成关键字集合;
(2)构建文档拓扑交互图:通过构建关键字共现图,形成稠密的子图;获取子图和文档中句子的向量表示,进而将句子分配给子图;设计子图与子图之间的边缘连接和边缘权重,形成文档的拓扑交互图表达;
(3)执行Emo-GCN训练模型:将步骤(2)中形成的拓扑交互图作为Emo-GCN模型的输入,在Emo-GCN训练模型中,首先进行抽取节点特征变换:每一个节点将自身的特征信息经过变换后发送给邻居节点,通过邻接矩阵A和特征矩阵H(l)得到每个顶点邻居特征的汇总;其次融合局部结构信息:每个节点都将邻居节点的特征信息聚合起来,获得节点聚合矩阵;将聚合的信息做非线性变换,增强模型的表达能力,所述的非线性变换采用非线性激活函数。


2.根据权利要求1所述的基于深度学习的文本情感分析方法,其特征是:在步骤(2)中,通过判断两个单词是否同时出现在一个句子中来决定是否共现。

【专利技术属性】
技术研发人员:张健沛黄乐乐杨静王勇
申请(专利权)人:哈尔滨工程大学
类型:发明
国别省市:黑龙;23

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1