一种基于深度学习的文本情感分析方法技术

技术编号：23513094 阅读：36 留言：0更新日期：2020-03-18 00:17

本发明专利技术提供了一种基于深度学习的文本情感分析方法。(1)输入文本数据，去除停用词，提取关键字，形成关键字集合。(2)通过构建关键字共现图，形成稠密的子图；获取子图和文档中句子的向量表示，进而将句子分配给子图；设计子图与子图之间的边缘连接和边缘权重，形成文档的拓扑交互图表达；(3)将拓扑交互图作为Emo‑GCN模型的输入，进行抽取节点特征变换，然后融合局部结构信息，获得节点聚合矩阵。将聚合的信息做非线性变换。Emo‑GCN模型采用层级结构，逐层抽取特征。本发明专利技术采用新颖的拓扑交互图表达文本信息进而使用图卷积神经网络进行文本情感分析，并且仍然具备强大的适应性。该方法应用于产品推荐、市场预测、决策调整，具有极高的商业价值。

A text sentiment analysis method based on deep learning

全部详细技术资料下载

【技术实现步骤摘要】
一种基于深度学习的文本情感分析方法
本专利技术涉及的是一种自然语言处理方法，也涉及一种图像分类方法，具体地说是一种文本情感分析方法。
技术介绍
文本分类是自然语言处理领域的经典问题，而情感识别是文本分类中比较有挑战性的工作，当前处理情感分析问题的方法主要有以下三种：一是构造情感词典来进行情感分析，将情感词汇构建成情感词典对于情感分析来说是一个必要而不充分条件，情感词典内容无论如何拓展都无法包含全部情感表达形式，另外有些词汇情感极性并不明确，有些语句可能没有用到情感词汇，但是也表达了某种情感，再有就是在一些语境下有些情感词汇表达了恰恰相反的意思，这些问题就会导致该方法的局限性；二是传统的机器学习方法如逻辑回归(LogisticRegression)、朴素贝叶斯(NaiveBayes)等，其中逻辑回归只能用于线性二分类问题，朴素贝叶斯的结论基于特征的先验概率，而特征之间假设完全独立，这些要求在现实情况中往往是不满足的，分类效果有时差强人意，因此也有很大的局限性；三是目前比较热门的深度学习方法如卷积神经网络(ConvolutionalNeuralNetwork，CNN)，循环神经网络(RecurrentNeuralNetwork，RNN)等，它们采用的都是基于欧式空间的数据，最大特点就是具有规则的空间结构，特征可以用一维或者二维矩阵来表示，处理起来比较高效。但是在现实生活中，大部分数据都是不规则的结构，这种数据会用拓扑交互图来表达，不具备平移不变性，很难选去一个固定的卷积核来适应整个图的不规则性，这种结构的数据就会令CNN...

【技术保护点】
1.一种基于深度学习的文本情感分析方法，其特征是：/n(1)文本数据预处理：去除停用词，提取关键字，所述的提取关键字是采用TextRank关键字提取算法形成关键字集合；/n(2)构建文档拓扑交互图：通过构建关键字共现图，形成稠密的子图；获取子图和文档中句子的向量表示，进而将句子分配给子图；设计子图与子图之间的边缘连接和边缘权重，形成文档的拓扑交互图表达；/n(3)执行Emo-GCN训练模型：将步骤(2)中形成的拓扑交互图作为Emo-GCN模型的输入，在Emo-GCN训练模型中，首先进行抽取节点特征变换：每一个节点将自身的特征信息经过变换后发送给邻居节点，通过邻接矩阵A和特征矩阵H

【技术特征摘要】
1.一种基于深度学习的文本情感分析方法，其特征是：
(1)文本数据预处理：去除停用词，提取关键字，所述的提取关键字是采用TextRank关键字提取算法形成关键字集合；
(2)构建文档拓扑交互图：通过构建关键字共现图，形成稠密的子图；获取子图和文档中句子的向量表示，进而将句子分配给子图；设计子图与子图之间的边缘连接和边缘权重，形成文档的拓扑交互图表达；
(3)执行Emo-GCN训练模型：将步骤(2)中形成的拓扑交互图作为Emo-GCN模型的输入，在Emo-GCN训练模型中，首先进行抽取节点特征变换：每一个节点将自身的特征信息经过变换后发送给邻居节点，通过邻接矩阵A和特征矩阵H(l)得到每个顶点邻居特征的汇总；其次融合局部结构信息：每个节点都将邻居节点的特征信息聚合起来，获得节点聚合矩阵；将聚合的信息做非线性变换，增强模型的表达能力，所述的非线性变换采用非线性激活函数。

2.根据权利要求1所述的基于深度学习的文本情感分析方法，其特征是：在步骤(2)中，通过判断两个单词是否同时出现在一个句子中来决定是否共现。

【专利技术属性】
技术研发人员：张健沛，黄乐乐，杨静，王勇，
申请(专利权)人：哈尔滨工程大学，
类型：发明
国别省市：黑龙;23

全部详细技术资料下载我是这个专利的主人