一种基于注意力机制和双向LSTM方面情感分析系统技术方案

技术编号:27314236 阅读:28 留言:0更新日期:2021-02-10 09:43
本发明专利技术涉及情感分析的技术领域,且公开了一种基于注意力机制和双向LSTM方面情感分析系统,主要由数据获取模块、数据清洗模块、模型训练模块和统计分析模块组成,所述数据获取模块与所述数据清洗模块电连接,所述数据清洗模块与所述模型训练模块电连接,所述模型训练模块与所述统计分析模块电连接;采用软件工程的思想进行系统的设计与实现,分为系统需求分析、系统总体结构设计、系统的详细设计与实现三个阶段,基于研究开发了面向线上的评论情感分析系统,在方面识别模型与情感分析模型间使用管道进行衔接,统计分析并展示情感极性信息,此系统可用于电商平台为商家提供用户的个性取向和消费决策参考,可在此系统基础上构建推荐系统。推荐系统。推荐系统。

【技术实现步骤摘要】
一种基于注意力机制和双向LSTM方面情感分析系统


[0001]本专利技术涉及情感分析的
,具体为一种基于注意力机制和双向LSTM方面情感分析系统。

技术介绍

[0002]随着社交网络的发展,用户可以通过各类社交网站、微博、电商平台发表大量具有明确情感倾向的内容,这些内容涉及社会的方方面面,对这些内容进行统计、分析和归纳对产品市场调研、网络舆情发现和社会的热点分析具有极其重要的价值。文本的情感分析分为三类:基于词典和规则的情感分析、基于传统机器学习的情感分析和基于深度学习的情感分析。早期的情感分析研究较为粗粒度,普遍认为一个文档或一个句子只包含一种情感倾向。方面情感分析(Aspect-basedSentiment Analysis,ABSA)对句子中单词所属的方面进行细粒度化的情感分析研究,通过分析方面的情感属性来准确提取文本更深层次的语义特征,句子中的每个方面可能具有不同的情感倾向。近年来深度学习模型受到学术界的广泛关注,通过深度学习模型的自学习能力挖掘单词间的隐含关系已经成为了提升方面级情感分析准确性的重要途径。
[0003]对基于方面的情感分析任务的研究目前仍处于初级阶段,方面识别任务和基于方面的情感分析任务都存在一些不足之处。

技术实现思路

[0004](一)解决的技术问题
[0005]针对现有技术的不足,本专利技术提供了一种基于注意力机制和双向 LSTM方面情感分析系统,具备方面识别模型与情感分析模型间使用管道进行衔接的优点,解决了对基于方面的情感分析任务的研究目前仍处于初级阶段的问题。
[0006](二)技术方案
[0007]为实现上述目的,本专利技术提供如下技术方案:一种基于注意力机制和双向LSTM方面情感分析系统,主要由数据获取模块、数据清洗模块、模型训练模块和统计分析模块组成,所述数据获取模块与所述数据清洗模块电连接,所述数据清洗模块与所述模型训练模块电连接,所述模型训练模块与所述统计分析模块电连接,所述数据获取模块主要由评论数据爬取和评论数据存储组成,所述数据清洗主要由拼写检查、去除杂质、去除停用词和过滤无效数据组成,所述模型训练模块主要由方面识别模型训练和情感分析模型训练组成,所述统计分析模块主要由方面数据和方面情感数据组成。
[0008]优选的,所述评论数据爬取对网页源码进行爬取、文本解析,并将数据存储至所述评论数据存储中。
[0009]优选的,所述数据清洗模块对所述评论数据存储中的数据进行预处理,去除数据中的杂质。
[0010]优选的,所述数据清洗模块清洗后的数据作为词向量训练模型的输入,所述词向
量训练模型的输出作为所述方面识别模型与所述方面情感分析模型的输入,所述方面识别模型的结果以管道的方式传输给所述方情感分析模型,所述情感分析模型的结果传输给前端。
[0011]优选的,所述模型训练模块中的所述情感分析模型的结果进行统计分析,以可视化的形式显示在所述前端页面上。
[0012]优选的,所述评论数据爬取主要由获取爬取目标、数据采集和数据分析组成。
[0013]优选的,所述获取爬取目标:输入要爬取网站的URL,将这些输入的所述URL加入爬取队列,所述数据采集:利用python的scrapy 爬虫框架爬取队列中的网站源码,所述数据解析:利用所述python 的re库构建正则表达式对采集到的URL源码进行文本解析获取用户评论数据。
[0014]优选的,所述方面识别模型训练的公式为
[0015]P=σ(W
r
r+b
r
);
[0016]所述方面识别模型训练优化参数使用的损失函数的公式为
[0017][0018]优选的,所述情感分析模型训练的计算公式为
[0019]α=softmax(W
T
M)和r=Hα
T

[0020]最终输出的文本公式为
[0021]h
*
=Tanh(W
p
r+W
q
h
n
);
[0022]所述情感分析模型训练的输出阶段添加softmax层将文本表示转化为情感极性的条件概率分布,所述softmax层的公式如公式
[0023]y=softmax(W
s
h
*
+b);
[0024]所述情感分析模型训练损失函数公式为
[0025][0026](三)有益效果
[0027]与现有技术相比,本专利技术提供了一种基于注意力机制和双向LSTM 方面情感分析系统,具备以下有益效果:
[0028]采用软件工程的思想进行系统的设计与实现,分为系统需求分析、系统总体结构设计、系统的详细设计与实现三个阶段,基于研究开发了面向线上的评论情感分析系统,在方面识别模型与情感分析模型间使用管道进行衔接,统计分析并展示情感极性信息,此系统可用于电商平台为商家提供用户的个性取向和消费决策参考,可在此系统基础上构建推荐系统。
附图说明
[0029]图1为本专利技术系统总体结构图;
[0030]图2为本专利技术的系统流程图;
[0031]图3为本专利技术中的数据清洗流程结构示意图;
[0032]图4为本专利技术中的方面识别模型结构示意图;
[0033]图5为本专利技术中的BiLSTM模型结构示意图;
[0034]图6为本专利技术中的情感分析模型结构示意图。
具体实施方式
[0035]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0036]请参阅图1-6,一种基于注意力机制和双向LSTM方面情感分析系统,主要由数据获取模块、数据清洗模块、模型训练模块和统计分析模块组成,数据获取模块与数据清洗模块电连接,数据清洗模块与模型训练模块电连接,模型训练模块与统计分析模块电连接,数据获取模块主要由评论数据爬取和评论数据存储组成,数据清洗主要由拼写检查、去除杂质、去除停用词和过滤无效数据组成,模型训练模块主要由方面识别模型训练和情感分析模型训练组成,统计分析模块主要由方面数据和方面情感数据组成。
[0037]本实施例中,具体的,评论数据爬取对网页源码进行爬取、文本解析,并将数据存储至评论数据存储中。
[0038]本实施例中,具体的,数据清洗模块对评论数据存储中的数据进行预处理,去除数据中的杂质。
[0039]本实施例中,具体的,数据清洗模块清洗后的数据作为词向量训练模型的输入,词向量训练模型的输出作为方面识别模型与方面情感分析模型的输入,方面识别模型的结果以管道的方式传输给方情感分析模型,情感分析模型的结果传输给前端。
[0040]本实施例中,具体的,模型训练模块中的情感分析模型的结果进行统计本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于注意力机制和双向LSTM方面情感分析系统,其特征在于:主要由数据获取模块、数据清洗模块、模型训练模块和统计分析模块组成,所述数据获取模块与所述数据清洗模块电连接,所述数据清洗模块与所述模型训练模块电连接,所述模型训练模块与所述统计分析模块电连接,所述数据获取模块主要由评论数据爬取和评论数据存储组成,所述数据清洗主要由拼写检查、去除杂质、去除停用词和过滤无效数据组成,所述模型训练模块主要由方面识别模型训练和情感分析模型训练组成,所述统计分析模块主要由方面数据和方面情感数据组成。2.根据权利要求1所述的一种基于注意力机制和双向LSTM方面情感分析系统,其特征在于:所述评论数据爬取对网页源码进行爬取、文本解析,并将数据存储至所述评论数据存储中。3.根据权利要求2所述的一种基于注意力机制和双向LSTM方面情感分析系统,其特征在于:所述数据清洗模块对所述评论数据存储中的数据进行预处理,去除数据中的杂质。4.根据权利要求3所述的一种基于注意力机制和双向LSTM方面情感分析系统,其特征在于:所述数据清洗模块清洗后的数据作为词向量训练模型的输入,所述词向量训练模型的输出作为所述方面识别模型与所述方面情感分析模型的输入,所述方面识别模型的结果以管道的方式传输给所述方情感分析模型,所述情感分析模型的结果传输给前端。5.根据权利要求4所述的一种基于注意力机制和双向LSTM方面情感分析系统,其特征在于:所述模型训练模块中的所述情感分析模型的结果进行统计分析,以可视化的形式显示在所述前端页面上。6.根据权利要求2所述的一种基于注意力机制和双...

【专利技术属性】
技术研发人员:李书豪
申请(专利权)人:青岛理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1