本发明专利技术涉及文本情感分类技术领域,且公开了基于双滑动窗口的图神经网络文本情感分类方法,采用全局滑动窗口获取单词对之间的权重,采用PMI互信息计算权重。该基于双滑动窗口的图神经网络文本情感分类方法,引入全局滑动窗口和局部滑动窗口来构建文本级图,全局窗口在文本之间滑动用来确定单词连边权重,局部滑动窗口在文本内滑动用来确定单词之间连边情况;采用门控图神经网络更新节点,综合考虑邻居节点信息和边的权重更新当前节点;引入注意力机制学习单词节点权重,采用最大池化和平均池化结合的方式学习图表示进行分类。本发明专利技术采用全局窗口局部窗口来获取全局信息和局部信息,并且能获取多样性的全局信息,高效融合全局信息和局部信息。
【技术实现步骤摘要】
基于双滑动窗口的图神经网络文本情感分类方法
本专利技术涉及人工智能与文本分类
,具体为基于双滑动窗口的图神经网络文本情感分类方法。
技术介绍
随着社交媒体的快速发展,互联网(例如:微博、淘宝、twitter)上涌现了大量用户参与的文本信息,这些文本信息中蕴含了丰富的用户观点和情绪。这不仅为消费者提供了产品使用体验交流平台,另一方面也为商家提供了信息展示和产品改进的平台。从海量文本中提取这一类带有情感的文本,并对其进行文本情感的分析和研究,具有很强的应用价值。情感分析使用自然语言处理(NLP)、文本分析和计算技术自动从情感评论中提取或分类情感。对这些情感和观点的分析已经应用到许多领域,如消费者信息、市场营销、书籍、应用程序、网站和社交媒体等。例如,在美国2016年总统竞选中,有研究针对Twitter用户发布的相关帖子进行观点及情绪分析,最终成功预测出竞选的候选人;在2011年日本大地震期间,有研究对社交媒体上地震相关的帖子进行情感分析,提出了一种大数据驱动的灾害响应方法。该模型通过机器学习方法对分类后的灾难数据进行分类,分析人们的情绪,有助于应急响应人员和救援人员制定更好的策略,以有效地管理快速变化的灾害环境。通过对2014年加州南纳帕地震期间的相关推特的帖子进行分析,以分析人们在2014年加州南纳帕6.0级地震之前、期间和之后的情绪和流动性;在金融市场领域,金融文本数据分析平台利用情感分析技术,分析挖掘各大财经网站、股票论坛中不同的立场不同的思维方式的人群的不同观点与情绪,分析挖掘反应投资者情绪的网络舆情,形成指标,为投资者提供参考;在电商平台上,消费者在购物后所填写的商品评论反映了消费者对商品各个方面的情感态度,例如手机产品的性能是否能满足消费者的需要、定价是否合理等。因此,对海量文本进行有效的文本情感分类具有现实意义和广泛的应用场景。针对文本情感分类这一研究课题的解决方案,国内外研究现状主要从三方面展开介绍:(1)基于词典的方法。该方法主要通过制定一系列的情感词典和规则,对文本进行拆句、分析及匹配词典(一般有词性分析,句法依存分析),计算情感值,最后通过情感值作为文本的情感倾向判断的依据。常用的情感词典包括LIWC、NRC和HowNet等。基于情感词典的方法简单易于理解,但是由于语言的多样性,维护情感词典需要花费大量人力资源。同时,由于语言的复杂性,对于一些隐式情感句子,采用情感词典的方法难以准确判断其情感极性。(2)基于传统深度学习的方法。随着词向量模型的提出和深度学习的快速发展,出现了很多基于深度学习的文本分类模型。例如,TextCNN模型将卷积神经网络首次应用到文本分类任务,利用多个不同大小的卷积核来捕捉句子局部特征信息,提取句子中的关键信息。随后,由于Transformer机制的流行,出现了许多基于此的语言模型进行分类任务,例如:GPT和BERT。虽然基于深度学习的文本情感分类方法能有效利用单词的上下文关系,但其假设文本之间相互独立,忽略了文本的全局信息。(3)基于图神经网络的方法。基于图神经网络的模型最近已经被广泛应用到文本情感分类领域。根据构图方法的不同,我们将现有图神经网络的方法分为语料库级图和文本级图两种方式。语料库级图将所有单词作为节点放在一个大图上,通过单词对在整个语料库中的共现情况确定连边及权重;文本级图以文本为单位构图,每个文本有其特殊的结构。在当前文本中出现的所有单词作为节点,节点之间的连边由滑动窗口决定,节点对之间的权重由单词对在当前文本中的共现情况决定。语料库级图关注于整个语料库中的全局信息,文本级图关注于当前文本的全局信息。然而,现有基于图神经网络的文本情感分类方法仅关注于节点的局部信息或者全局信息,难以将局部信息和全局信息很好的结合起来。此外,现有方法在获取全局信息时忽略了全局信息的多样性,即同样的两个单词节点在不同文本中可能具有不同的关系或者紧密程度。
技术实现思路
(一)解决的技术问题针对现有技术不足,本专利技术提供了基于双滑动窗口的图神经网络文本情感分类方法,结合了全局信息和局部信息来学习图表示。具备特征明显且多样化,分类效率高等优点,解决了现有情感分类不能深入挖掘文本特征,难以高效结合全局信息和局部信息的问题,最终实现高效率情感分类。(二)技术方案为实现上述结合了全局信息和局部信息来学习图表示,而且全局滑动窗口方法获取的全局信息具有多样性目的,本专利技术提供如下技术方案:基于双滑动窗口的图神经网络文本情感分类方法,包括以下步骤:S1:采用全局滑动窗口获取单词对之间的权重,采用PMI互信息计算权重:S2:构建文本级图G=(E,N),每个文本有其特殊图结构。其中,E为边集合,N为单词节点集合。单词之间的连边由局部滑动窗口确定,出现在同一窗口内的单词之间相互连接,边的权重从S1计算的全局共享矩阵中获取。S3:初始化节点表示。节点表示从Glove词向量获取。S4:更新节点表示。采用GG-NN(门控图神经网络)的方式更新节点表示:Ht=GRU(Ht-1,at)S5:引入注意力机制,为每个节点学习一个权重:S6:学习文本级图表示。全局池化和平均池化结合的方式:S7:预测文本标签。对当前文本进行分类:Y=softmax(WYHG+b)S8:计算真实标签和预测标签之间的损失,采用交叉熵损失计算公式:优选的,所述步骤1中W(wi,wj)是当前窗口中同时包含单词wi和单词wj的文本数量,W(wi)是当前窗口中包含单词wi的文本数量,W是全局窗口的大小。这样,同一滑动全局窗口内的文本计算的权重可以形成一个全局共享矩阵。采用滑动全局窗口的方式计算单词对之间的权重,相同窗口内的文本中的单词对共享权重,不同窗口内的文本中的单词对权重可能不同。因此,采用全局滑动窗口的方式计算单词对之间的权重能够获取全局信息的多样性。优选的,所述步骤4中其中Ht-1为某节点在t-1时刻的表示,at为这个节点的邻居节点在t时刻的表示,Ht为这一节点更新后的节点表示。具体的更新过程如下所示:at=AHt-1Wa+bzt=σ(Wzat+UzHt-1)rt=σ(Wrat+UrHt-1)其中,A为邻接矩阵。U、Wa、Wz、Wr、Wh和b为训练权重和偏置参数,b的取值范围在[-1,1]之间。σ(x)=1/(1+e-x)是sigmoid函数,是点乘计算方法。tanh函数为非线性特征转换。z和r分别为更新门和遗忘门。优选的,所述步骤5中其中,i和j是多层感知机。av为当前单词的权重,σ(x)是sigmoid函数,将单词权重值映射在[0,1]之间,Hv为加权后单词表示,tanh函数为非线性特征转换。优选的,所述步骤6中其中,HG为学习到的文本级图表示,V为当前文本中单词的数量,Hv为加权后单词表示,Maxpooling表示最大池化。优选的,所述步骤7中其中,Y为预本文档来自技高网...
【技术保护点】
1.基于双滑动窗口的图神经网络文本情感分类方法,其特征在于,包括以下步骤:/nS1:采用全局滑动窗口获取单词对之间的权重,采用PMI互信息计算权重:/n
【技术特征摘要】
1.基于双滑动窗口的图神经网络文本情感分类方法,其特征在于,包括以下步骤:
S1:采用全局滑动窗口获取单词对之间的权重,采用PMI互信息计算权重:
S2:构建文本级图G=(E,N),每个文本有其特殊图结构。其中,E为边集合,N为单词节点集合。单词之间的连边由局部滑动窗口确定,出现在同一窗口内的单词之间相互连接,边的权重从S1计算的全局共享矩阵中获取。
S3:初始化节点表示。节点表示从Glove词向量获取。
S4:更新节点表示。采用GG-NN(门控图神经网络)的方式更新节点表示:
Ht=GRU(Ht-1,at)
S5:引入注意力机制,为每个节点学习一个权重:
S6:学习文本级图表示。全局池化和平均池化结合的方式:
S7:预测文本标签。对当前文本进行分类:
Y=softmax(WYHG+b)
S8:计算真实标签和预测标签之间的损失,采用交叉熵损失计算公式:
2.根据权利要求1所述的基于双滑动窗口的图神经网络文本情感分类方法,其特征在于,所述步骤1中W(wi,wj)是当前窗口中同时包含单词wi和单词wj的文本数量,W(wi)是当前窗口中包含单词wi的文本数量,W是全局窗口的大小。这样,同一滑动全局窗口内的文本计算的权重可以形成一个全局共享矩阵。采用滑动全局窗口的方式计算单词对之间的权重,相同窗口内的文本中的单词对共享权重,不同窗口内的文本中的单词对权重可能不同。因此,采用全局滑动窗口的方式计算...
【专利技术属性】
技术研发人员:李向华,吴欣俣,高超,王震,朱培灿,李学龙,
申请(专利权)人:西北工业大学,
类型:发明
国别省市:陕西;61
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。