标记打包策略的方面情感三元组抽取方法技术

技术编号：41200391 阅读：2 留言：0更新日期：2024-05-07 22:27

本发明专利技术公开了标记打包策略的方面情感三元组抽取方法，包括：构建初始实体识别模型和初始情感分类模型，对所述初始实体识别模型和初始所述情感分类模型进行独立训练，获取实体识别模型和情感分类模型；输入待测试句子，输入所述实体识别模型中，获取句子中方面词和观点词，基于所述实体识别模型预测的实体构建情感分类模型的输入；将所述情感分类模型的输入放到预训练语言模型中，获得每个单词及标记的特征向量，将所述特征向量输入图卷积神经网络中与句子中的依赖关系进行融合，获得最终的特征向量，将所述特征向量通过多层感知机进行情感分类，获得方面情感三元组。本发明专利技术能够提高三元组抽取效果。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于三元组抽取，尤其涉及标记打包策略的方面情感三元组抽取方法。

技术介绍

1、现有的针对aste的方法大致可以分为两大类：流水线提取方法和联合提取方法。流水线提取方法：流水线提取方法将aste任务分为两个主要步骤。首先，审查评论句子以识别实体，实体既可以是方面，也可以是意见术语。然后将这些实体进行配对并确定其情感类型。由于aste可以从aope提取的方面和观点对中检测基于方面的情感类型，所以aope也是提取情感三元组最直接的管道方法。现有技术中通过实现情感三元组抽取，扩展了rinante、cmla和li-unified-r的工作，并与现有技术中提出的两阶段情感三元组抽取方法进行了比较。此外，提出了带有矛盾处理的多层次细尺度情感分析。近年来，一些研究提倡使用包含注意力机制的深度模型来实现更细粒度的情感分类。与会话情感分析中的上下文分析一样，提出了一种新颖的方法。它们将单个评论语句转化为问答形式，提取内部语义信息。具体来说，他们将aste任务转化为多轮机器阅读理解任务，并提出了双向机器阅读理解(mrc)框架。该框架中的非限制查询提取方面词和观点词，然后利用限制查询对情感结果进行分类，生成情感三元组。联合提取方法：管道方法往往将aste任务分解为多个子任务，导致不同子任务之间的错误传播。最近，现有技术中提出了一种基于序列标注的联合抽取方法来有效地解决这个问题。虽然所提出的标注方案有效地缓解了流水线方法中的错误传播，但它没有充分利用方面和意见项之间的关系。然而，这种方法没有充分利用现有的关系，可能导致情感三元组的提取不准确。现

技术实现思路

1、为解决上述技术问题，本专利技术提出了标记打包策略的方面情感三元组抽取方法，提高三元组抽取效果。

2、为实现上述目的，本专利技术提供了标记打包策略的方面情感三元组抽取方法，包括：

3、构建初始实体识别模型和初始情感分类模型，对所述初始实体识别模型和初始所述情感分类模型进行独立训练，获取实体识别模型和情感分类模型；

4、输入待测试句子，输入所述实体识别模型中，获取句子中方面词和观点词，基于所述实体识别模型预测的实体构建情感分类模型的输入；

5、将所述情感分类模型的输入放到预训练语言模型中，获得每个单词及标记的特征向量，将所述特征向量输入图卷积神经网络中与句子中的依赖关系进行融合，获得最终的特征向量，将所述特征向量通过多层感知机进行情感分类，获得方面情感三元组。

6、可选的，构建所述实体识别模型的过程包括：

7、采用面向邻域的打包方法，根据代表每对悬浮标记的起始标记的位置进行升序排列，根据终止标记的位置进行升序排列，获得一个候选跨度的排序列表；

8、将所有候选跨度被分成g组，每组大小为k；

9、将每个组的悬浮标记串接到句子上，生成g个训练实例，将所述训练实例输入预训练语言模型中，获得跨度向量；

10、将所述跨度向量输入多层感知机中，得到跨度分类的概率分布，通过softmax函数获得跨度在各个类别上的概率，取概率最大的作为预测的类别；

11、通过数据集中正确标签对预测标签进行判断，返回初始的实体识别模型一个损失值，所述初始的实体识别模型根据所述损失值不断优化自身的参数以达到学习的效果，经过几轮学习达到最优的实体识别模型。

12、可选的，获取跨度的特征向量的方法为：

13、

14、其中，ha,hb表示跨度spi＝(a,b)开始和结束单词的特征表示，表示跨度对应悬浮标记的特征表示，ccls表示令牌cls的隐藏状态，ew表示跨度宽度嵌入向量，[a:b]表示将两个向量拼接在一起。

15、可选的，获取实体类型的概率的方法为：

16、lsp＝linear(wsp·ψ(spi)+bsp)

17、pe(e∣spi)＝softmax(lsp)

18、其中，wsp表示可训练的权重矩阵，bsp表示可训练的偏置，linear表示多层感知机，lsp表示跨度分类的概率分布，pe(e∣sp_i)表示跨度在多分类的概率。

19、可选的，构建所述情感分类模型的方法为：

20、在主语跨度前后插入带有实体信息的类型标记，在对象跨度上应用悬浮标记，采用面向主语的打包方法，对具有相同主语跨度的跨度对进行建模；

21、使用stanford-nlp工具为句子生成句法依存树；

22、将预训练语言模型结果与句法依存树通过gcn融合得到最后的特征向量并通过连接操作得到跨度对的特征向量；

23、使用线性层进行情感分类；

24、插入类型标记来标注主语跨度，使用悬浮标记来标注对象跨度。

25、可选的，基于所述实体识别模型预测的实体构建情感分类模型的输入的方法包括：

26、选择一个预测的实体作为主语跨度，其他的实体作为对象跨度；在主语跨度的前后插入类型标记<subj_start＝ei>,<subj_end＝ei>，ei表示这个主语跨度的类型；在对象跨度上应用悬浮标记，将悬浮标记都拼接在句子的后面，完成了情感分类模型输入的构建。

27、可选的，获得跨度对的特征向量的方法包括：

28、将构建后的句子输入到预训练语言模型，将预训练语言模型的输出特征与句法依赖关系进行融合得到最后所有单词以及标记的特征表示，通过所述特征表示获得最终的跨度对spi和spj的特征向量φ(spi,spj)，计算如下：

29、

30、其中，ha-1,hb+1分别表示主语跨度前后的类型标记的特征向量，表示一个对象跨度对应的悬浮标记的特征向量。

31、可选的，使用线性层进行情感分类的方法为：

32、psc(s|spi,spj)＝本文档来自技高网...

【技术保护点】

1.标记打包策略的方面情感三元组抽取方法，其特征在于，包括：

2.如权利要求1所述的标记打包策略的方面情感三元组抽取方法，其特征在于，构建所述实体识别模型的过程包括：

3.如权利要求2所述的标记打包策略的方面情感三元组抽取方法，其特征在于，获取跨度的特征向量的方法为：

4.如权利要求2所述的标记打包策略的方面情感三元组抽取方法，其特征在于，获取实体类型的概率的方法为：

5.如权利要求1所述的标记打包策略的方面情感三元组抽取方法，其特征在于，构建所述情感分类模型的方法为：

6.如权利要求1所述的标记打包策略的方面情感三元组抽取方法，其特征在于，基于所述实体识别模型预测的实体构建情感分类模型的输入的方法包括：

7.如权利要求5所述的标记打包策略的方面情感三元组抽取方法，其特征在于，获得跨度对的特征向量的方法包括：

8.如权利要求5所述的标记打包策略的方面情感三元组抽取方法，其特征在于，使用线性层进行情感分类的方法为：

【技术特征摘要】

1.标记打包策略的方面情感三元组抽取方法，其特征在于，包括：

2.如权利要求1所述的标记打包策略的方面情感三元组抽取方法，其特征在于，构建所述实体识别模型的过程包括：

3.如权利要求2所述的标记打包策略的方面情感三元组抽取方法，其特征在于，获取跨度的特征向量的方法为：

4.如权利要求2所述的标记打包策略的方面情感三元组抽取方法，其特征在于，获取实体类型的概率的方法为：

5.如权利要求1所述的标记打包策略...

【专利技术属性】
技术研发人员：李优，曾旭鹏，冯新宇，张英豪，林煜明，
申请(专利权)人：桂林电子科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人