System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 标记打包策略的方面情感三元组抽取方法技术_技高网

标记打包策略的方面情感三元组抽取方法技术

技术编号:41200391 阅读:2 留言:0更新日期:2024-05-07 22:27
本发明专利技术公开了标记打包策略的方面情感三元组抽取方法,包括:构建初始实体识别模型和初始情感分类模型,对所述初始实体识别模型和初始所述情感分类模型进行独立训练,获取实体识别模型和情感分类模型;输入待测试句子,输入所述实体识别模型中,获取句子中方面词和观点词,基于所述实体识别模型预测的实体构建情感分类模型的输入;将所述情感分类模型的输入放到预训练语言模型中,获得每个单词及标记的特征向量,将所述特征向量输入图卷积神经网络中与句子中的依赖关系进行融合,获得最终的特征向量,将所述特征向量通过多层感知机进行情感分类,获得方面情感三元组。本发明专利技术能够提高三元组抽取效果。

【技术实现步骤摘要】

本专利技术属于三元组抽取,尤其涉及标记打包策略的方面情感三元组抽取方法


技术介绍

1、现有的针对aste的方法大致可以分为两大类:流水线提取方法和联合提取方法。流水线提取方法:流水线提取方法将aste任务分为两个主要步骤。首先,审查评论句子以识别实体,实体既可以是方面,也可以是意见术语。然后将这些实体进行配对并确定其情感类型。由于aste可以从aope提取的方面和观点对中检测基于方面的情感类型,所以aope也是提取情感三元组最直接的管道方法。现有技术中通过实现情感三元组抽取,扩展了rinante、cmla和li-unified-r的工作,并与现有技术中提出的两阶段情感三元组抽取方法进行了比较。此外,提出了带有矛盾处理的多层次细尺度情感分析。近年来,一些研究提倡使用包含注意力机制的深度模型来实现更细粒度的情感分类。与会话情感分析中的上下文分析一样,提出了一种新颖的方法。它们将单个评论语句转化为问答形式,提取内部语义信息。具体来说,他们将aste任务转化为多轮机器阅读理解任务,并提出了双向机器阅读理解(mrc)框架。该框架中的非限制查询提取方面词和观点词,然后利用限制查询对情感结果进行分类,生成情感三元组。联合提取方法:管道方法往往将aste任务分解为多个子任务,导致不同子任务之间的错误传播。最近,现有技术中提出了一种基于序列标注的联合抽取方法来有效地解决这个问题。虽然所提出的标注方案有效地缓解了流水线方法中的错误传播,但它没有充分利用方面和意见项之间的关系。然而,这种方法没有充分利用现有的关系,可能导致情感三元组的提取不准确。现有技术中提出了一种标注方案,命名为网格标注方案,通过一个统一的网格标注任务,以端到端的方式抽取情感三元组。然而,序列标注方法在处理方面和观点术语之间的复杂关系时遇到了挑战,特别是涉及一对多或多对一关系的方面和观点术语。现有技术在将三元组预测建模为图结构的基础上,实现了一个带有神经设计的迁移系统。在最近的研究中,现有技术提出了一种跨度级别的双向网络,它利用所有可能的跨跨度作为输入,双向地从跨度中提取三元组。现有技术将aste任务建模为一个多类别跨度分类问题,并通过探索跨度级别信息和约束条件来生成更准确的方面情感三元组抽取。现有技术使用双提取器使情感提取独立于术语提取。现有研究忽视了整合实体信息的重要性。在缺少类型标记时,模型在准确确定实体的具体范围和类型方面可能会面临挑战,导致歧义性增加。此外,模型可能需要额外的上下文信息来理解实体之间的关系。先前的方法使用跨度表示来预测跨度之间的关系,这种表示仅仅捕获了每个个体实体周围的上下文信息,潜在地忽略了跨度对之间的相互依赖关系。综上所述,导致模型无法准确的提取实体,以及在对实体进行配对时效果受到影响,最终导致三元组抽取效果下降。


技术实现思路

1、为解决上述技术问题,本专利技术提出了标记打包策略的方面情感三元组抽取方法,提高三元组抽取效果。

2、为实现上述目的,本专利技术提供了标记打包策略的方面情感三元组抽取方法,包括:

3、构建初始实体识别模型和初始情感分类模型,对所述初始实体识别模型和初始所述情感分类模型进行独立训练,获取实体识别模型和情感分类模型;

4、输入待测试句子,输入所述实体识别模型中,获取句子中方面词和观点词,基于所述实体识别模型预测的实体构建情感分类模型的输入;

5、将所述情感分类模型的输入放到预训练语言模型中,获得每个单词及标记的特征向量,将所述特征向量输入图卷积神经网络中与句子中的依赖关系进行融合,获得最终的特征向量,将所述特征向量通过多层感知机进行情感分类,获得方面情感三元组。

6、可选的,构建所述实体识别模型的过程包括:

7、采用面向邻域的打包方法,根据代表每对悬浮标记的起始标记的位置进行升序排列,根据终止标记的位置进行升序排列,获得一个候选跨度的排序列表;

8、将所有候选跨度被分成g组,每组大小为k;

9、将每个组的悬浮标记串接到句子上,生成g个训练实例,将所述训练实例输入预训练语言模型中,获得跨度向量;

10、将所述跨度向量输入多层感知机中,得到跨度分类的概率分布,通过softmax函数获得跨度在各个类别上的概率,取概率最大的作为预测的类别;

11、通过数据集中正确标签对预测标签进行判断,返回初始的实体识别模型一个损失值,所述初始的实体识别模型根据所述损失值不断优化自身的参数以达到学习的效果,经过几轮学习达到最优的实体识别模型。

12、可选的,获取跨度的特征向量的方法为:

13、

14、其中,ha,hb表示跨度spi=(a,b)开始和结束单词的特征表示,表示跨度对应悬浮标记的特征表示,ccls表示令牌cls的隐藏状态,ew表示跨度宽度嵌入向量,[a:b]表示将两个向量拼接在一起。

15、可选的,获取实体类型的概率的方法为:

16、lsp=linear(wsp·ψ(spi)+bsp)

17、pe(e∣spi)=softmax(lsp)

18、其中,wsp表示可训练的权重矩阵,bsp表示可训练的偏置,linear表示多层感知机,lsp表示跨度分类的概率分布,pe(e∣sp_i)表示跨度在多分类的概率。

19、可选的,构建所述情感分类模型的方法为:

20、在主语跨度前后插入带有实体信息的类型标记,在对象跨度上应用悬浮标记,采用面向主语的打包方法,对具有相同主语跨度的跨度对进行建模;

21、使用stanford-nlp工具为句子生成句法依存树;

22、将预训练语言模型结果与句法依存树通过gcn融合得到最后的特征向量并通过连接操作得到跨度对的特征向量;

23、使用线性层进行情感分类;

24、插入类型标记来标注主语跨度,使用悬浮标记来标注对象跨度。

25、可选的,基于所述实体识别模型预测的实体构建情感分类模型的输入的方法包括:

26、选择一个预测的实体作为主语跨度,其他的实体作为对象跨度;在主语跨度的前后插入类型标记<subj_start=ei>,<subj_end=ei>,ei表示这个主语跨度的类型;在对象跨度上应用悬浮标记,将悬浮标记都拼接在句子的后面,完成了情感分类模型输入的构建。

27、可选的,获得跨度对的特征向量的方法包括:

28、将构建后的句子输入到预训练语言模型,将预训练语言模型的输出特征与句法依赖关系进行融合得到最后所有单词以及标记的特征表示,通过所述特征表示获得最终的跨度对spi和spj的特征向量φ(spi,spj),计算如下:

29、

30、其中,ha-1,hb+1分别表示主语跨度前后的类型标记的特征向量,表示一个对象跨度对应的悬浮标记的特征向量。

31、可选的,使用线性层进行情感分类的方法为:

32、psc(s|spi,spj)=本文档来自技高网...

【技术保护点】

1.标记打包策略的方面情感三元组抽取方法,其特征在于,包括:

2.如权利要求1所述的标记打包策略的方面情感三元组抽取方法,其特征在于,构建所述实体识别模型的过程包括:

3.如权利要求2所述的标记打包策略的方面情感三元组抽取方法,其特征在于,获取跨度的特征向量的方法为:

4.如权利要求2所述的标记打包策略的方面情感三元组抽取方法,其特征在于,获取实体类型的概率的方法为:

5.如权利要求1所述的标记打包策略的方面情感三元组抽取方法,其特征在于,构建所述情感分类模型的方法为:

6.如权利要求1所述的标记打包策略的方面情感三元组抽取方法,其特征在于,基于所述实体识别模型预测的实体构建情感分类模型的输入的方法包括:

7.如权利要求5所述的标记打包策略的方面情感三元组抽取方法,其特征在于,获得跨度对的特征向量的方法包括:

8.如权利要求5所述的标记打包策略的方面情感三元组抽取方法,其特征在于,使用线性层进行情感分类的方法为:

【技术特征摘要】

1.标记打包策略的方面情感三元组抽取方法,其特征在于,包括:

2.如权利要求1所述的标记打包策略的方面情感三元组抽取方法,其特征在于,构建所述实体识别模型的过程包括:

3.如权利要求2所述的标记打包策略的方面情感三元组抽取方法,其特征在于,获取跨度的特征向量的方法为:

4.如权利要求2所述的标记打包策略的方面情感三元组抽取方法,其特征在于,获取实体类型的概率的方法为:

5.如权利要求1所述的标记打包策略...

【专利技术属性】
技术研发人员:李优曾旭鹏冯新宇张英豪林煜明
申请(专利权)人:桂林电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1