一种采用双向长短期记忆网络的方面级情感分析方法技术

技术编号:27535012 阅读:33 留言:0更新日期:2021-03-03 11:19
本发明专利技术公开了一种采用双向长短期记忆网络的方面级情感分析方法,包括:步骤1,数据预处理,进行数据清洗并将其词向量化;步骤2,建立带有方面感知的双向长短期记忆网络;步骤3,建立基于多重注意力模型的Encoder

【技术实现步骤摘要】
一种采用双向长短期记忆网络的方面级情感分析方法


[0001]本专利技术涉及一种方面级情感分析方法,特别是一种采用双向长短期记忆网络的方面级情感分析方法,属于计算机
中的情感分析领域。

技术介绍

[0002]随着互联网的迅猛发展,社交媒体已深入到人们日常生活和工作中的方方面面。越来越多的人愿意在网络上表达自己的态度和情感,而非单纯地浏览与接受。人们希望通过相应的技术对这些评论文本进行自动化处理、分析,提取有价值的知识。在这样的应用需求背景下,出现了针对文本的情感分析技术,即通过计算机手段,帮助用户快速获取、整理和分析相关评论信息的过程。
[0003]方面级情感分析是情感分析领域中一种更为细化的模型。目前,常见的方面级情感分析方法主要分为以下三个方面:1.基于情感词典和语言规则的方法,其更接近于传统情感分析方法利用情感词典的解决思路,需要使用标注好的情感词典或语言规则来判别情感极性;2.基于机器学习的方法,此方法较为广泛地应用于方面级情感分析领域,其主要思想是将方面级情感分析任务建模成为分类问题;3.基于其他建模问题的方法,常用的建模方案包括序列标注和阅读理解等。然而上述方法大多是用单一的方法去解决方面级情感分析问题,无论是算法模型的可解释性、有效性还是应用性,都还有改进的空间。

技术实现思路

[0004]针对上述现有技术,本专利技术要解决的技术问题是提供一种解决了传统情感分析算法中的单一性和笼统性问题的采用双向长短期记忆网络的方面级情感分析方法,利用双向长短期记忆网络分析用户的评论信息,并在双向长短期记忆网络模型中引入注意力机制,更加准确的对用户评论中不同方面的情感极性进行判断。
[0005]为解决上述技术问题,本专利技术的一种采用双向长短期记忆网络的方面级情感分析方法,包括以下步骤:
[0006]步骤1:数据预处理,具体为:进行数据清洗并将其词向量化,采用word2vec模型来将数据转换成向量形式,该矩阵维度为n
×
d,其中n是数据所包含的单词数,d为单个词向量的维度;
[0007]步骤2:建立带有方面感知的双向长短期记忆网络,具体为:将步骤1得到的词向量作为双向长短期记忆网络的序列化输入,使模型分别从两个方向上提取文本的语义特征,同时把方面向量合并到双向长短期记忆网络单元中,设计三个方面门来控制分别被导入到输入门、遗忘门和输出门中的方面向量数量,最终获得每个时间步上的隐藏层状态和带有方面感知的句子整体表示;
[0008]步骤3:建立基于多重注意力模型的Encoder-Decoder模型,具体为:在Encoder-Decoder模型中引入注意力机制,将双向长短期记忆网络输出的隐藏层状态与方面信息相结合,并进行注意力操作,最终提取特征表示;
[0009]步骤4:情感极性分析,具体为:所用数据集经过步骤3的模型的训练建立不同方面与其相应情感词之间的联系,针对不同方面的文本经过全连接层和softmax函数后,输出待分类样本在每个情感分类上的概率,即可得到与不同方面相对应的情感极性。
[0010]本专利技术还包括:
[0011]1.步骤2中的双向长短期记忆网络具体为:
[0012]a
i
=σ(W
ai
[A,h
t-1
]+b
ai
)
[0013]I
t
=σ(W
I
[x
t
,h
t-1
]+a
i

A+b
I
)
[0014]a
f
=σ(W
af
[A,h
t-1
]+b
af
)
[0015]f
t
=σ(W
f
[x
t
,h
t-1
]+a
f

A+b
f
)
[0016][0017][0018]a
o
=σ(W
ao
[A,h
t-1
]+b
ao
)
[0019]o
t
=σ(W
o
[x
t
,h
t-1
]+a
o

A+b
o
)
[0020]h
t
=o
t
*tanh(C
t
)
[0021]其中,x
t
为时间步长t对应的上下文词的输入嵌入向量,A为方面向量,h
t-1
为前一隐藏状态,h
t
为该时间步长隐藏状态,σ和tanh为sigmoid和正切函数,

表示元素的乘法,W
ai
,W
af
,W
ao
∈R
da
×
(dc+da)
,W
I
,W
f
,W
C
,W
o
∈R
dc
×
2dc
为加权矩阵,b
ai
,b
af
,b
ao
∈R
da
,b
I
,b
f
,b
C
,b
o
∈R
dc
为偏置,da,dc为方面向量维数和隐藏单元数,i
t
,f
t
,o
t
∈R
dc
分别代表输入门、遗忘门和输出门,a
i
,a
f
,a
o
∈R
da
分别代表方面输入门、方面遗忘门和方面输出门。
[0022]2.步骤3中Encoder-Decoder模型包括编码模型和解码模型,编码部分对于长度为n的句子,隐藏层输出矩阵为H=[h1,h2,

,h
n
],生成句子的整体表示v
s
,满足:
[0023][0024]解码部分由方面注意力模块组成,其中模块数量N与数据集的方面总个数相同,即一个方面注意力模块对应一个特定的方面;当输入句子包含有多个方面时,编码得到的输出H将被分别送入对应的方面注意力模块中,在每个方面注意力模块中,各有一个对应的方面信息,即方面向量v
ai
,首先,方面向量v
ai
与输入矩阵H中的每个隐状态进行拼接,再进行注意力计算,最后通过加权平均,获得有关特定方面的文本表示,具体为:
[0025]e
ti
=tanh(W
ai
[h
t
,v
ai
]+b
ai
)
[0026][0027][002本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种采用双向长短期记忆网络的方面级情感分析方法,其特征在于,包括以下步骤:步骤1:数据预处理,具体为:进行数据清洗并将其词向量化,采用word2vec模型来将数据转换成向量形式,该矩阵维度为n
×
d,其中n是数据所包含的单词数,d为单个词向量的维度;步骤2:建立带有方面感知的双向长短期记忆网络,具体为:将步骤1得到的词向量作为双向长短期记忆网络的序列化输入,使模型分别从两个方向上提取文本的语义特征,同时把方面向量合并到双向长短期记忆网络单元中,设计三个方面门来控制分别被导入到输入门、遗忘门和输出门中的方面向量数量,最终获得每个时间步上的隐藏层状态和带有方面感知的句子整体表示;步骤3:建立基于多重注意力模型的Encoder-Decoder模型,具体为:在Encoder-Decoder模型中引入注意力机制,将双向长短期记忆网络输出的隐藏层状态与方面信息相结合,并进行注意力操作,最终提取特征表示;步骤4:情感极性分析,具体为:所用数据集经过步骤3的模型的训练建立不同方面与其相应情感词之间的联系,针对不同方面的文本经过全连接层和softmax函数后,输出待分类样本在每个情感分类上的概率,即可得到与不同方面相对应的情感极性。2.根据权利要求1所述的一种采用双向长短期记忆网络的方面级情感分析方法,其特征在于:步骤2所述的双向长短期记忆网络具体为:a
i
=σ(W
ai
[A,h
t-1
]+b
ai
)I
t
=σ(W
I
[x
t
,h
t-1
]+a
i

A+b
I
)a
f
=σ(W
af
[A,h
t-1
]+b
af
)f
t
=σ(W
f
[x
t
,h
t-1
]+a
f

A+b
f
))a
o
=σ(W
ao
[A,h
t-1
]+b
ao
)o
t
=σ(W
o
[x
t
,h
t-1
]+a
o

A+b
o
)h
t
=o
t
*tanh(C
t
)其中,x
t
为时间步长t对应的上下文词的输入嵌入向量,A为方面向量,h
t-1
为前一隐藏状态,h
...

【专利技术属性】
技术研发人员:张泽宝刘东旭
申请(专利权)人:哈尔滨工程大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1