一种用于方面级情感分析的统一生成框架的构建方法技术

技术编号：35897961 阅读：31 留言：0更新日期：2022-12-10 10:32

本发明专利技术提供一种用于方面级情感分析的统一生成框架的构建方法，该方法选择需要处理的ABSA任务和模型的范式，通过选择隐式术语处理构建模型的目标输出，第二步使用预训练模型T5的编码解码架构得到模型的预测输出和目标输出求交叉熵损失进行训练，测试阶段，对模型的输出通过数据分割处理得到预测的各个情感元素，最后对不符合实际情况的情感元素进行修正得到的最终预测，实现了通过具体的ABSA任务预测出其相应的情感元素。测出其相应的情感元素。测出其相应的情感元素。

全部详细技术资料下载

【技术实现步骤摘要】
一种用于方面级情感分析的统一生成框架的构建方法

[0001]本专利技术涉及计算机深度学习领域，更具体地，涉及一种用于方面级情感分析的统一生成框架的构建方法。

技术介绍

[0002]随着电子商务的快速发展，越来越多的消费者在互联网平台上发表产品评论。面对用户更加直接的反馈，如何整合反馈信息，并对此做出迅速的反应，成为了企业的一大挑战。微博等社交媒体平台的兴起更是为基于网络数据的舆情分析、民意调查等活动提供了广泛的数据基础。不同于整体的情感分析，方面级别情感分析(ABSA)粒度更“细”，其主要目的是根据评论信息给出一系列简明的表达，说明消费者群体对某一产品各个属性的喜好程度。用户评论背后的情绪极性对于商业智能具有重要价值。例如一句话“这家饭店菜的味道很不错，就是价格有点贵了”，这条评论在“菜的味道”、“很不错”属性方面的情感是积极的，而在“价格”、“贵”属性方面的情感是消极的。目前大多数方面级别情感分析任务(ABSA)的解决方案是采用两阶段管道。第一阶段通过联合标记方案提取目标术语及其情绪，以及带有标签的意见术语。第二阶段将提取的目标和意见项结合起来，以确定它们的配对情感关系。这种方法往往只能针对特定的ABSA子任务，模型泛化性能一般。此外，管道模型可能会产生错误传播问题。
[0003]除了采用两阶段管道外，位置感知标记方案也被用于处理ABSA任务。以允许模型将目标跨度中的每个单词与所有可能的意见跨度耦合，即方面词到意见跨度的交互(反之亦然，方面跨度到意见词的交互)，这种方案可以有效避免错误传播问题。然而，它仍然...

【技术保护点】

【技术特征摘要】
1.一种用于方面级情感分析的统一生成框架的构建方法，其特征在于，包括以下步骤：S1：选择对应的ABSA任务和范式，数据预处理；S2：对含有隐式术语的文本句子进行处理，通过ABSA任务和范式的不同将原始输出格式转为相应的目标序列Y；S3：构建编码解码器架构神经网络；S4：将处理后的文本句子输入到编码解码器架构的网络中，输出模型预测的序列Y
′
，和学习到的权重参数；S5：使用验证集验证神经网络在训练集上学习到的参数结果，保存在测试集上效果最好的那个epoch的参数作为最终参数集；S6：使用最终参数集预测测试集的方面级情感元组。2.根据权利要求1所述的用于方面级情感分析的统一生成框架的构建方法，其特征在于，所述步骤S1的过程包括：使用公开数据集ACOS，ASQP，数据集涵盖包括一个餐厅领域和一个笔记本电脑领域的文本句子；用于处理ABSA的最新子任务方面情感四元组提取，旨在提取评论句子中的所有情感四元组；情感四元组包括方面类别，方面术语，意见术语和情绪极性四个情感元素，将每个样本中的文本句子转化为词id列表构造模型输入，将原始格式标签索引从输入文本句子中提取情感元组构造模型输出标签Y，其中Y是包含文本句子所有情感四元组的序列。3.根据权利要求2所述的用于方面级情感分析的统一生成框架的构建方法，其特征在于，所述步骤S1中，通过将方面级别情感分析转化为端到端的文本生成任务，所有子任务都可以表述为以文本句子X＝{x1,x2,...,x
n
}作为输入并输出目标序列Y＝{y1,y2,...,y
n
}的形式，其中y0是句首标记，n表示句子长度，不同的ABSA子任务都通过如下公式表述：4.根据权利要求3所述的用于方面级情感分析的统一生成框架的构建方法，其特征在于，所述步骤S2的过程是：对于含有隐式的方面术语和意见术语的目标序列Y，分别将其映射为隐式代词it和null，否则保持原始的自然语言形式，通过映射函数f完成该操作：l，否则保持原始的自然语言形式，通过映射函数f完成该操作：将隐式方面术语替换为it是为了更符合真实的情况,使得目标输出从原始类格式转换为自然语言表达，在为每个情感元素定义特定的投影函数f之后，将目标情感四元组转换为自然语言形式的句子，以促进模型的训练。5.根据权利要求4所述的用于方面级情感分析的统一生成框架的构建方法，其特征在于，所述步骤S2中，在情感四元组提取任务中，对于语义样式范式，将列表类型的情感四元组原始格式转化为类似于自然句子“{ac}is{sp}because{ot}was{ops}”的序列，对于抽取范式，将原始的输出格式Y转化为“(at,ac,op,sp)”格式的序列，这类似于直接提取预期的情感元素，但以生成文本/字符串的方式；任务这样能够帮助预训练模型更好地捕获输入的全局语义，如果输入句子X具有多个情感四元组，首先根据选择的范式将每个情感四元组转
化为如上所述的目标序列，然后将每个...

【专利技术属性】
技术研发人员：阳爱民，王纪刚，林楠铠，白期风，何俊亨，
申请(专利权)人：广东工业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人