一种基于细粒度事件信息增强的短文本隐式情感分类方法技术

技术编号:37420357 阅读:14 留言:0更新日期:2023-04-30 09:43
本发明专利技术公开了一种基于细粒度事件信息增强的短文本隐式情感分类方法,其步骤包括:1、使用事件抽取器抽取短文本中的事件类型、触发词及其他事件元素形成细粒度的单事件元组;2、使用BERT预训练模型分别对单事件元组和短文本进行表征,分别得到单事件元组和短文本的特征向量;3、将步骤2中得到的特征向量通过张量组合的方式进行融合,使用细粒度事件信息增强短文本的表征;4、将步骤3中得到的细粒度事件信息增强后的特征向量输入Bi

【技术实现步骤摘要】
一种基于细粒度事件信息增强的短文本隐式情感分类方法


[0001]本专利技术属于自然语言处理领域,具体的说是一种基于细粒度事件信息增强短文本表征的隐式情感分类方法。

技术介绍

[0002]随着社交媒体的发展,网络中积累了大量的短文本信息,对这些短文本信息进行情感分类可以有效挖掘评论者隐藏在短文本中的情感,这不仅可以帮助决策机关了解网络舆情,同时也可以帮助商家了解消费者的喜好。
[0003]根据文本中是否含有情感词,情感分类任务可以分为显示情感分类和隐式情感分类。显式情感分类方法主要基于情感相关词语的出现来检测情感,并得到了广泛的探索。与受到广泛关注的显式情感分析相比,隐式情感分析由于缺少情感词,是一项更加困难的任务。

技术实现思路

[0004]本专利技术是为了解决上述现有技术存在的不足之处,提出一种基于细粒度事件信息增强的短文本隐式情感分类方法,以期能对缺少情感词的短文本情感进行分类识别,并能提高情感预测准确性。
[0005]本专利技术为达到上述专利技术目的,采用如下技术方案:
[0006]本专利技术一种基于细粒度事件信息增强的短文本隐式情感分类方法的特点在于,是按如下步骤进行:
[0007]步骤1、获取评论数据中的短文本并构建数据集,对所述数据集中的所有短文本进行数据预处理,得到每个短文本对应的分词集合,其中,任意一个短文本的分词集合s=(s1,s2,...,s
i
,...,s
a
),其中,s
i
表示分词集合s中第i个词,a表示分词集合s中词的总数;
[0008]步骤2、使用事件抽取器对分词集合s进行单事件的抽取,以抽取出单事件的各个元素,从而得到相应短文本对应的细粒度单事件元组t=(t1,t2,...,t
l
,...,t
b
),其中,t
l
表示单事件元组t中第l个元素,b表示单事件元组t中元素的总数,l∈[1,b];
[0009]步骤3、将单事件元组t输入BERT预训练模型,得到单事件元组t中每个元素的隐藏状态,其中,第l个元素的隐藏状态记为H
l

[0010]步骤4、将单事件元组t中每个元素的隐藏状态输入到注意力机制网络中,用于得到单事件元组t的表征向量;
[0011]步骤4.1、利用式(1)和式(2)计算单事件元组t中第l个元素t
l
的注意力得分α
l

[0012]u
l
=sigmoid(W1H
l
+b1)
ꢀꢀ
(1)
[0013][0014]式(1)中,W1是第一权重矩阵,b1是第一偏置向量,sigmoid表示激活函数,u
l
是单事件元组t中第l个元素t
l
的新隐藏状态;
[0015]式(2)中,T表示转置操作,θ
l
表示随机初始化的第l个元素t
l
的注意力矩阵;
[0016]步骤4.2、利用式(3)得到单事件元组t的注意力特征向量h
t
,并作为单事件元组t的表征向量:
[0017][0018]步骤5、将分词集合s输入所述BERT预训练模型中,得到短文本的隐藏向量hs,从而利用式(4)得到单事件信息增强的短文本表征r
final

[0019][0020]式(4)中,W2是第二权重矩阵,b2是第二偏置向量,T表示转置操作,T
[1:K]是一个由K个维度为d
×
d的矩阵组成的张量,f表示融合函数,h
tT
T
[1:K]h
s
表示一个K维张量积;
[0021]步骤6、将短文本表征r
final
输入Bi

GRU模型的前向GRU模型中进行处理,并得到短文本表征r
final
的前向隐藏向量再将短文本表征r
final
逆序输入Bi

GRU模型的后向GRU模型中进行处理,并得到短文本表征r
final
的后向隐藏向量
[0022]步骤7、利用式(5)得到短文本表征r
final
最终的隐藏向量h:
[0023][0024]步骤8、将所述隐藏向量h输入到sigmoid层中,从而利用式(6)得到相应短文本的正向情感或负向情感对应的概率值y,以选取较大概率值所对应的情感作为相应短文本最终的情感分类结果:
[0025][0026]式(6)中,W3是第三权重矩阵,b3是第三偏置向量。
[0027]本专利技术一种电子设备,包括存储器以及处理器,其特点在于,所述存储器用于存储支持处理器执行所述短文本隐式情感分类方法的程序,所述处理器被配置为用于执行所述存储器中存储的程序。
[0028]本专利技术一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,其特点在于,所述计算机程序被处理器运行时执行所述短文本隐式情感分类方法的步骤。
[0029]与现有技术相比,本专利技术的有益效果在于:
[0030]1、本专利技术通过事件抽取的方式抽取出短文本中描述的细粒度事件,以事件的形式对缺乏情感词的短文本的情感进行了补充,然后将细粒度事件表征的结果作为增强信息和短文本自身的表征结果进行融合得到事件信息增强的短文本表征,再将其输入到Bi

GRU模型中,最终得到短文本的情感分类结果,提高了短文本隐式情感分类的准确率。
[0031]2、本专利技术在事件的选择上没有使用仅包括事件主语、宾语和谓语在内的粗粒度事件元组,而是采用包括事件类型、事件触发词和其他事件元素在内的细粒度事件元组,与粗粒度事件相比,细粒度事件可以更好地表达短文本所描述的整个事件,从而更精确地把握短文本中隐藏的情感。此外,本专利技术采用注意力机制对细粒度事件进行表征,给细粒度事件中的不同元素赋予不同的权重,采用加权求和的方式得到整个事件元组的特征向量,充分
考虑了短文本的语义特征,提高了短文本隐式情感分类的准确率。
[0032]3、在分类模型的选择上,本专利技术采用了Bi

GRU神经网络,解决了传统循环神经网络存在的梯度爆炸问题,同时充分考虑了短文本表征向量内部的上下文信息以及不同的短文本表征向量之间可能存在的上下文信息,有效地增强了短文本的表征效果,提高了短文本隐式情感分类任务的准确率。
附图说明
[0033]图1为本专利技术方法整体流程图。
具体实施方式
[0034]本实施例中,一种基于细粒度事件信息增强的短文本隐式情感分类方法是采用事件抽取的方法从短文本中抽取出其描述的细粒度事件,通过BERT预训练模型分别对事件和短文本进行表征,先使用注意力机制计算细粒度事件中各元素的权重得分,使用加权求和的方式得到细粒度事件元组的表征,然后再使用张量组合的方法将事件表征作为增强信息本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于细粒度事件信息增强的短文本隐式情感分类方法,其特征在于,是按如下步骤进行:步骤1、获取评论数据中的短文本并构建数据集,对所述数据集中的所有短文本进行数据预处理,得到每个短文本对应的分词集合,其中,任意一个短文本的分词集合s=(s1,s2,...,s
i
,...,s
a
),其中,s
i
表示分词集合s中第i个词,a表示分词集合s中词的总数;步骤2、使用事件抽取器对分词集合s进行单事件的抽取,以抽取出单事件的各个元素,从而得到相应短文本对应的细粒度单事件元组t=(t1,t2,...,t
l
,...,t
b
),其中,t
l
表示单事件元组t中第l个元素,b表示单事件元组t中元素的总数,l∈[1,b];步骤3、将单事件元组t输入BERT预训练模型,得到单事件元组t中每个元素的隐藏状态,其中,第l个元素的隐藏状态记为H
l
;步骤4、将单事件元组t中每个元素的隐藏状态输入到注意力机制网络中,用于得到单事件元组t的表征向量;步骤4.1、利用式(1)和式(2)计算单事件元组t中第l个元素t
l
的注意力得分α
l
:u
l
=sigmoid(W1H
l
+b1)
ꢀꢀꢀꢀꢀ
(1)式(1)中,W1是第一权重矩阵,b1是第一偏置向量,sigmoid表示激活函数,u
l
是单事件元组t中第l个元素t
l
的新隐藏状态;式(2)中,T表示转置操作,θ
l
表示随机初始化的第l个元素t
l
的注意力矩阵;步骤4.2、利用式(3)得到单事件元组t的注意力特征向量h...

【专利技术属性】
技术研发人员:倪丽萍刘玉强陈星月王琪
申请(专利权)人:合肥工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1