当前位置: 首页 > 专利查询>延边大学专利>正文

基于标签对比学习的有监督关系抽取方法技术

技术编号:38206631 阅读:12 留言:0更新日期:2023-07-21 16:54
本发明专利技术公开了一种基于标签对比学习的有监督关系抽取方法,包括:获取样本集中待进行关系抽取的句子并添加特殊符号,将处理后的句子通过编码层进行向量表示,获得拥有特殊符号的向量;将向量以句子中的实体为标志分别选取各个实体前的特殊符号表示进行拼接,获得第一关系向量表示;第一关系向量表示通过全连接层处理获得第二关系向量表示;基于第二关系向量表示构建正负例;基于正负例确认损失函数并进行对比关系的训练,获得能够更准确识别关系表示的编码器。本发明专利技术提出一种基于标签且从全局和局部两个角度构造正、负例的有监督对比学习模型,既考虑到正、负例挑选的正确性又保障了易造成错误实例被训练到,以此获得更加丰富、准确的关系表示。准确的关系表示。准确的关系表示。

【技术实现步骤摘要】
基于标签对比学习的有监督关系抽取方法


[0001]本专利技术属于计算机智能信息处理中的自然语言处理领域,特别是涉及一种基于标签对比学习的有监督关系抽取方法。

技术介绍

[0002]互联网的高速发展带来了信息的爆炸式增长,如何高效利用这些信息是信息抽取(Information Extraction,IE)技术的主要任务。关系抽取(Relation Extraction,RE)作为信息抽取领域的主要任务,旨在从非结构化的文本中识别目标实体之间所蕴含的语义关系,并将其应用到事件抽取、机器翻译、知识图谱、句子匹配等其他下游任务中。对于有监督关系抽取要解决的问题是如何更加有效的利用数量有限的有监督数据。目前通常采用的策略是在大型无监督或半监督数据集上进行预训练,并有监督数据集上进行微调。这种训练方式未能充分利用数据集中的标签信息并且存在预训练模型的训练目标和下游任务的训练目标脱节的问题。
[0003]对有监督的关系抽取任务而言,句子中的头、尾实体已被标注,并且句子的标签类别已知。因此,有监督的关系抽取任务可以看作对有标注句子进行多分类问题。对于有监督关系抽取这一多分类任务而言,问题的关键就是如何从句子中获得更加正确、丰富的关系表示来进行关系分类。
[0004]Zhang等使用RNN进行特征提取来完成关系抽取任务;Zhou等使用Bi

LSTM作为特征提取器提取文本特征,并结合注意力机制捕捉文本中的重要特征共同完成关系抽取任务。以上通过深度学习获取的关系表示捕捉到的信息有限,而经过大规模数据训练过的预训练语言模型为关系抽取任务提供了更多的可能。如Wu等使用预训练语言模型BERT进行特征提取完成关系抽取任务,但对特殊符号[CLS]、头实体和尾实体表示的简单拼接作为输入,通过全连接+Softmax模型进行训练,而这一训练方式不能充分地挖掘出句中所需要的关系表示信息。Chen等采用包级别与句子级别相结合的方式构造对比学习的正、负例,即通过替换/插入TF

IDF分数低的单词对原句子进行数据增强,数据增强后的句子与原句子形成正例对,随机挑选其他包的表示与原句子形成负例对。这一训练方式需要构造句子级别、包级别两个层次的关系表示,构建复杂且很难进行有效的交互,并且包级别的表示可能丢失掉很多句子级别表示的信息。
[0005]对比学习的核心思想是学习样本间的相似性与差异性。常见的对比学习实现流程是:首先,对原句子进行数据增强得到数据增强后的句子;其次,将原句子和增强后的句子输入到模型中;最后,将原句子与数据增强后的句子作为正例对,原句子与其他句子作为负例对,进行对比学习训练。
[0006]在此结构的基础上,产生了多个经典的对比学习模型。例如,Sim

CLR通过使用更大的批处理规模和数据增强来改进对比性学习;MoCo通过构建对比学习的动态字典在不增加模型负担的情况下,增加了每一次训练中参与进来的正、负例数量从而得到更好的训练编码器。与此同时,对比学习在关系抽取任务上也得到了广泛的应用。例如,HiCLRE使用数
据增强和多粒度表示相结合的方法,有包级别、句子级别和实体级别三种,分别从三个级别上进行对比学习的训练,同时对这三个级别进行交互,能够获得综合了不同粒度的更加丰富、准确的信息表示;HiURE使用Random Span的数据增强方式得到两个增强后的句子,在此基础上通过分层聚类的方式获得与所训练的句子在语义表示上属于同一类别的表示和不同类别的表示,分别与训练句子构成正、负例对进行对比学习的训练,获得了更加准确的关系表示。
[0007]以上模型都采用了常用的对比学习构造方式,即通过数据增强的方式进行正、负例的构建。为了确保数据增强后的句子与原句子属于同一个关系,数据增强后的句子与原句子在句子表示上十分接近。因此,通过这种方式训练获得的关系表示范围不够广泛,并且很容易将与训练样本属于同一关系的其他句子错误的只当作负例进行训练。因此Khosla等将对比学习应用于有监督的数据时,通过标签在同一Batch中挑选正、负例。尽管如此,与训练样本相似度低的正例、相似度高的负例这类易造成错误分类的实例仍然很难被训练到。

技术实现思路

[0008]本专利技术的目的是提供一种基于标签对比学习的有监督关系抽取方法,以解决上述现有技术存在的问题。
[0009]为实现上述目的,本专利技术提供了一种基于标签对比学习的有监督关系抽取方法,包括:
[0010]获取样本集中待进行关系抽取的句子并添加特殊符号,将处理后的句子通过编码层进行向量表示,获得拥有特殊符号的向量;
[0011]将所述拥有特殊符号的向量以句子中的实体为标志分别选取各个实体前的特殊符号表示进行拼接,获得第一关系向量表示;所述第一关系向量表示通过全连接层处理获得第二关系向量表示;
[0012]基于所述第二关系向量表示构建正负例;
[0013]基于所述正负例确认损失函数并进行对比关系的训练,获得识别关系表示的编码器,采用编码器进行关系抽取。
[0014]可选的,构建正负例的过程包括:计算所有样本的相似度,根据相似度从全局角度构建全局正负例候选字典,根据batch中样本标签构建局部正负例。
[0015]可选的,构建全局正负例候选字典的过程还包括:通过所述第二关系向量表示与其他样本的关系向量表示进行余弦相似度的计算,将与待进行关系抽取的句子属于同一关系的其他样本按照相似度从低到高排序获得正样本,将属于不同关系的其他样本按照相似度从高到低进行排序获得负样本,从全局角度构建全局正负例。
[0016]可选的,对比关系训练过程中的第一损失函数L
LabeisCL

[0017][0018]式中,Total(i)为样本集中样本总数,表示在batch中属于同一关系标签y
i
的样本总数,Φ(g)表示句子通过模型编码后得到的输出表示,τ>0是一个可调节的标量温度参数,N为batch中样本总数。
[0019]可选的,对比关系的训练过程包括:将所述正负例用于对比学习损失函数训练,所述第二关系向量表示经过多类别分类器处理后进行交叉熵损失函数训练。
[0020]可选的,第二损失函数表示如下:
[0021][0022]式中,y
i,c
表示第i个句子的真实关系标签,表示第i个句子的模型输出属于第c个关系的概率。
[0023]可选的,总损失函数为:
[0024]L
total
=(1

λ)L
CE
+λL
LabelsCL
[0025]式中,λ是一个标量加权超参数。
[0026]可选的,添加特殊符号的过程包括:首先分别在句子前后加入特殊符号[CLS]、[SEP],再在句子中实体的两端添加特殊符号。
[0027]本专利技术的技术效果为:
[0028]本专利技术直接利用有监督数据的标签从全局和局部两个角度构造对比学习的正、负例,大大减本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于标签对比学习的有监督关系抽取方法,其特征在于,包括以下步骤:获取样本集中待进行关系抽取的句子并添加特殊符号,将处理后的句子通过编码层进行向量表示,获得拥有特殊符号的向量;将所述拥有特殊符号的向量以句子中的实体为标志分别选取各个实体前的特殊符号表示进行拼接,获得第一关系向量表示;所述第一关系向量表示通过全连接层处理获得第二关系向量表示;基于所述第二关系向量表示构建正负例;基于所述正负例确认损失函数并进行对比关系的训练,获得识别关系表示的编码器,采用编码器进行关系抽取。2.根据权利要求1所述的基于标签对比学习的有监督关系抽取方法,其特征在于,构建正负例的过程包括:计算所有样本的相似度,根据相似度从全局角度构建全局正负例候选字典,根据batch中样本标签构建局部正负例。3.根据权利要求2所述的基于标签对比学习的有监督关系抽取方法,其特征在于,构建全局正负例候选字典的过程还包括:通过所述第二关系向量表示与其他样本的关系向量表示进行余弦相似度的计算,将与待进行关系抽取的句子属于同一关系的其他样本按照相似度从低到高排序获得正样本,将属于不同关系的其他样本按照相似度从高到低进行排序获得负样本,从全局角度构建全局正负例。4.根据权利要求1所述的基于标签对比学习的有监督关系抽取方法,其特征在于,对比关系训练过程中的第一损失函数L
LabelsCL

【专利技术属性】
技术研发人员:赵亚慧王苑儒金国哲崔荣一刘帆任一平徐培焱李永恒孟嘉王乐孙烨
申请(专利权)人:延边大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1