一种细粒度情感分析方法技术

技术编号:30966276 阅读:13 留言:0更新日期:2021-11-25 20:37
本发明专利技术涉及一种细粒度情感分析方法,涉及自然语言处理领域。该方法包括以下步骤:为数据集中每条样本生成序列标签和位置嵌入向量、添加“<start>”和“<end>”标志以标识样本的首尾、添加标签“<pad>”以补齐样本长度,之后将样本通过词典转化为整数编码序列,输入bert模型生成样本的嵌入向量;搭建实体数量预测模型、实体起始位置标注模型和实体长度预测模型,并将样本分别输入三个模型进行训练,完成评价对象提取(OTE);搭建情感预测模型,并将样本输入该模型进行训练,完成情感极性分析(OSC);顺次连接以上训练完毕的四个模型,输入待预测样本,抽取评价对象并分析评价对象的情感极性。本发明专利技术可用于抽取评论文本中的评价对象及对其进行情感分析。其进行情感分析。其进行情感分析。

【技术实现步骤摘要】
一种细粒度情感分析方法


[0001]本专利技术涉及自然语言处理领域,具体涉及一种细粒度情感分析方法,用于抽取评论文本中的评价对象并判断其情感极性的方法。

技术介绍

[0002]细粒度情感分析,是目前自然语言处理领域中最热门的一项语义分析任务,其目的在于抽取非结构化的评论文本中的评价对象(关键词),并根据上下文得到其对应情感极性。细粒度情感分析任务的提出是因为过去粗粒度情感分析任务无法满足当下人们的需求。粗粒度情感分析任务的对象是一个文档(句子),它只能得到文档(句子)整体的情感极性倾向。但是现实世界中的事物都是多方面的,一个评论文本往往会对同一个事物的不同方面做出评价。如“这家餐厅食物很好吃,但是服务态度很差,交通也不方便。”这句评论涉及了三个评价对象且评价的极性也不同。粗粒度情感分析来分析该评论文本的时候就无法做出多方面、客观的评价,相比之下,细粒度情感分析则可以识别出“食物、”“服务态度”“交通”三个评价对象及对应情感极性。细粒度情感分析可以提取出更具体、更多元、更客观的信息,这一点具有十分广阔的应用前景和潜在价值。对于用户而言,用户可以更方便的了解自己想了解的部分,用更少的精力更高效地完成自己对商品的筛选;对于商家而言,商家可以迅速察觉自己商品不受欢迎的具体原因或是用户最喜爱的方面,这些信息有助于商家调整自己的销售策略和进行产品优化,创造更高的收益。
[0003]细粒度情感分析任务的主流方法是将任务拆解为评价对象抽取和情感极性分析两个子任务。评价对象抽取任务的常见解决方法是将抽取任务转化为序列标注任务。如Wang等人【Recursive Neural Conditional Random Fields for Aspect

based Sentiment Analysis】就利用深度学习的特征提取能力,采取循环神经网络(Recurrent Neural Network)与条件随机场(CRF)相结合的方式抽取评论文本中的评价对象和评价词。Yan等人【Graph Convolutional Networks for Target

oriented Opinion Words Extraction with Adversarial Training】也使用了深度学习的方法,他们使用图卷积神经网络来提取深层特征,同时用对抗训练的方法提升模型的鲁棒性,并取得了不错的效果。但是上述两个模型仍然存在缺陷,Wang采用的循环神经网络提取特征的能力较弱,比如会遗忘距离过远的信息,而且其使用word2vec的词向量表达方式效果也不如现在流行的bert方法;Yan使用自定的output层为序列标注问题添加约束,从数学角度来讲效果不如条件随机场。对于情感极性分析任务而言,其核心问题在于如何使模型识别上下文和评价对象的关系。Ma【Interactive Attention Networks for Aspect

Level Sentiment Classification】提出了IAN(Interactive Attention Networks)用于分别提取上下文和评价对象的隐藏态,并将该隐藏态分别添加到对方的序列上,再利用注意力机制分别提取上下文和评价对象的最终表示,用它来做最后的极性分类。Ma在论文中展现了注意力层的权重,说明了注意力机制在该任务中的可行性。

技术实现思路

[0004]鉴于上文所描述的问题,本专利技术提出了一种新方法用来解决评价对象抽取任务和评价对象情感极性分析任务,并将两者连接起来完成细粒度情感分析总任务。
[0005]根据本专利技术的第一方面,提供一种用于细粒度情感分析的方法,其特征在于,所述方法包括以下步骤:
[0006]步骤1:为数据集中每条样本生成序列标签和位置嵌入向量、标识样本的首尾并补齐样本长度,之后将样本转化为整数编码序列,输入bert模型生成样本的嵌入向量;
[0007]步骤2:搭建实体数量预测模型、实体起始位置标注模型和实体长度预测模型,并将步骤1中的样本的嵌入向量分别输入三个模型进行训练,完成评价对象提取任务;
[0008]步骤3:搭建情感预测模型,并将步骤1中的样本的嵌入向量输入情感预测模型进行训练,完成情感极性分析任务;
[0009]步骤4:顺次连接训练后的实体数量预测模型、标注模型、实体长度预测模型以及情感预测模型,输入待预测文本,抽取评价对象并分析评价对象的情感极性。
[0010]进一步地,步骤2中,实体数量预测模型的搭建步骤具体包括:
[0011]搭建输入层,输入向量化的文本序列;
[0012]搭建可训练的位置嵌入(position embedding)模型,与向量输入连接相加;
[0013]搭建批量归一化(batch normalization)模型,使得加上position embedding模型的样本近似服从N(0,1)分布;
[0014]搭建双向门控循环单元(Bi

GRU)网络提取样本特征,增强词语间的前后联系;
[0015]搭建注意力池化(attentionpooling)模型,对样本特征进行降维压缩;
[0016]使用focal loss作为损失函数、Nadam作为优化器,将步骤1中的样本的嵌入向量输入实体数量预测模型进行训练。
[0017]进一步地,步骤2中,标注模型的搭建步骤具体包括:
[0018]搭建输入层,输入向量化的文本序列;
[0019]搭建可训练的position embedding模型,与向量输入连接相加;
[0020]搭建batch normalization,使得加上position embedding的样本近似服从N(0,1)分布;
[0021]搭建集成学习层,将Bi

GRU网络、动态图卷积神经网络(DGCNN)、有序长短时记忆模型(ON

LSTM)和多头注意力机制(Multi

HeadAttention)模型融合;
[0022]将步骤1中的样本的嵌入向量输入标注模型进行训练。
[0023]进一步地,集成学习层的搭建步骤具体包括:
[0024]搭建Bi

GRU网络,增强样本词语间的前后联系,通过奇异值矩阵分解(SVD)算法将其输出分解,仅取其奇异值矩阵V;
[0025]搭建DGCNN网络,将序列中的前后语句构建联系;
[0026]搭建ON

LSTM模型,提取语句的层次结构;
[0027]搭建Multi

HeadAttention模型,提取词语间的相互影响关系;
[0028]将未经过任何处理的Bi

GRU网络的输出直接输入进DGCNN网络、ON

LSTM模型以及Multi

HeadAttention模型,得到以上各个模型的输出,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于细粒度情感分析的方法,其特征在于,所述方法包括以下步骤:步骤1:为数据集中每条样本生成序列标签和位置嵌入向量、标识样本的首尾并补齐样本长度,之后将样本转化为整数编码序列,输入bert模型生成样本的嵌入向量;步骤2:搭建实体数量预测模型、实体起始位置标注模型和实体长度预测模型,并将步骤1中的样本的嵌入向量分别输入三个模型进行训练,完成评价对象提取任务;步骤3:搭建情感预测模型,并将步骤1中的样本的嵌入向量输入情感预测模型进行训练,完成情感极性分析任务;步骤4:顺次连接训练后的实体数量预测模型、标注模型、实体长度预测模型以及情感预测模型,输入待预测文本,抽取评价对象并分析评价对象的情感极性。2.根据权利要求1所述的方法,其特征在于,步骤2中,实体数量预测模型的搭建步骤具体包括:搭建输入层,输入向量化的文本序列;搭建可训练的位置嵌入模型,与向量输入连接相加;搭建批量归一化模型,使得加上可训练的位置嵌入模型的样本近似服从N(0,1)分布;搭建双向门控循环单元网络提取样本特征,增强词语间的前后联系;搭建注意力池化模型,对样本特征进行降维压缩;使用focal loss作为损失函数、Nadam作为优化器,将步骤1中的样本的嵌入向量输入实体数量预测模型进行训练。3.根据权利要求1所述的方法,其特征在于,步骤2中,标注模型的搭建步骤具体包括:搭建输入层,输入向量化的文本序列;搭建可训练的可训练的位置嵌入模型,与向量输入连接相加;搭建批量归一化模型,使得加上可训练的位置嵌入模型的样本近似服从N(0,1)分布;搭建集成学习层,将双向门控循环单元网络、动态图卷积神经网络、有序长短时记忆模型和多头注意力机制模型融合;将步骤1中的样本的嵌入向量输入标注模型进行训练。4.根据权利要求3所述的方法,其特征在于,集成学习层的搭建步骤具体包括:搭建双向门控循环单元网络,增强样本词语间的前后联系,通过奇异值矩阵分解算法将其输出分解,仅取其奇异值矩阵V;搭建动态图卷积神经网络,将序列中的前后语句构建联系;搭建有序长短时记...

【专利技术属性】
技术研发人员:闫琰周法国张潇李旭峰葛逸凡李嘉裕
申请(专利权)人:中国矿业大学北京
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1