基于标签对比学习的有监督关系抽取方法技术

技术编号：38206631 阅读：12 留言：0更新日期：2023-07-21 16:54

本发明专利技术公开了一种基于标签对比学习的有监督关系抽取方法，包括：获取样本集中待进行关系抽取的句子并添加特殊符号，将处理后的句子通过编码层进行向量表示，获得拥有特殊符号的向量；将向量以句子中的实体为标志分别选取各个实体前的特殊符号表示进行拼接，获得第一关系向量表示；第一关系向量表示通过全连接层处理获得第二关系向量表示；基于第二关系向量表示构建正负例；基于正负例确认损失函数并进行对比关系的训练，获得能够更准确识别关系表示的编码器。本发明专利技术提出一种基于标签且从全局和局部两个角度构造正、负例的有监督对比学习模型，既考虑到正、负例挑选的正确性又保障了易造成错误实例被训练到，以此获得更加丰富、准确的关系表示。准确的关系表示。准确的关系表示。

全部详细技术资料下载

【技术实现步骤摘要】
基于标签对比学习的有监督关系抽取方法

[0001]本专利技术属于计算机智能信息处理中的自然语言处理领域，特别是涉及一种基于标签对比学习的有监督关系抽取方法。

技术介绍

[0002]互联网的高速发展带来了信息的爆炸式增长，如何高效利用这些信息是信息抽取(Information Extraction,IE)技术的主要任务。关系抽取(Relation Extraction,RE)作为信息抽取领域的主要任务，旨在从非结构化的文本中识别目标实体之间所蕴含的语义关系，并将其应用到事件抽取、机器翻译、知识图谱、句子匹配等其他下游任务中。对于有监督关系抽取要解决的问题是如何更加有效的利用数量有限的有监督数据。目前通常采用的策略是在大型无监督或半监督数据集上进行预训练，并有监督数据集上进行微调。这种训练方式未能充分利用数据集中的标签信息并且存在预训练模型的训练目标和下游任务的训练目标脱节的问题。
[0003]对有监督的关系抽取任务而言，句子中的头、尾实体已被标注，并且句子的标签类别已知。因此，有监督的关系抽取任务可以看作对有标注句子进行多分类问题。对于有监督关系抽取这一多分类任务而言，问题的关键就是如何从句子中获得更加正确、丰富的关系表示来进行关系分类。
[0004]Zhang等使用RNN进行特征提取来完成关系抽取任务；Zhou等使用Bi
‑
LSTM作为特征提取器提取文本特征，并结合注意力机制捕捉文本中的重要特征共同完成关系抽取任务。以上通过深度学习获取的关系表示捕捉到的信息有限，而经过大规模数据训练...

【技术保护点】

【技术特征摘要】
1.一种基于标签对比学习的有监督关系抽取方法，其特征在于，包括以下步骤：获取样本集中待进行关系抽取的句子并添加特殊符号，将处理后的句子通过编码层进行向量表示，获得拥有特殊符号的向量；将所述拥有特殊符号的向量以句子中的实体为标志分别选取各个实体前的特殊符号表示进行拼接，获得第一关系向量表示；所述第一关系向量表示通过全连接层处理获得第二关系向量表示；基于所述第二关系向量表示构建正负例；基于所述正负例确认损失函数并进行对比关系的训练，获得识别关系表示的编码器，采用编码器进行关系抽取。2.根据权利要求1所述的基于标签对比学习的有监督关系抽取方法，其特征在于，构建正负例的过程包括：计算所有样本的相似度，根据相似度从全局角度构建全局正负例候选字典，根据batch中样本标签构建局部正负例。3.根据权利要求2所述的基于标签对比学习的有监督关系抽取方法，其特征在于，构建全局正负例候选字典的过程还包括：通过所述第二关系向量表示与其他样本的关系向量表示进行余弦相似度的计算，将与待进行关系抽取的句子属于同一关系的其他样本按照相似度从低到高排序获得正样本，将属于不同关系的其他样本按照相似度从高到低进行排序获得负样本，从全局角度构建全局正负例。4.根据权利要求1所述的基于标签对比学习的有监督关系抽取方法，其特征在于，对比关系训练过程中的第一损失函数L
LabelsCL

【专利技术属性】
技术研发人员：赵亚慧，王苑儒，金国哲，崔荣一，刘帆，任一平，徐培焱，李永恒，孟嘉，王乐，孙烨，
申请(专利权)人：延边大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人