System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于对偶对比学习框架和交叉注意模块的零样本关系抽取方法及模型技术_技高网

一种基于对偶对比学习框架和交叉注意模块的零样本关系抽取方法及模型技术

技术编号:42436786 阅读:4 留言:0更新日期:2024-08-16 16:46
本发明专利技术属于自然语言处理领域,公开了一种基于对偶对比学习框架和交叉注意模块的零样本关系抽取方法及模型,首先,设计了一个对偶对比学习框架,从不同的角度对输入句子和关系描述进行比较;该过程旨在实现表示空间中不同关系类别之间更好的分离。此外,从计算机视觉领域引入了模型中的交叉注意力网络,以增强输入实例对关系描述的相关信息的关注。在Wiki‑ZSL和FewRel数据集上获得的实验结果充分证明了该方法及模型的有效性。

【技术实现步骤摘要】

本专利技术属于自然语言处理领域,涉及基于零样本学习的关系抽取方法,具体涉及一种基于对偶对比学习框架和交叉注意模块的零样本关系抽取方法及模型


技术介绍

1、关系提取是自然语言处理中的一项关键任务,它是指识别和提取从给定句子中获得的两个标记实体之间的语义关系。此外,各种实际应用,如信息检索、知识图构建和智能问答系统,都是基于关系提取提取出来的知识内容构建的。最近关于有监督学习的关系提取研究取得了重大成功。基于有监督学习的关系抽取被建模为有监督学习任务,主要流程为首先通过句法分析或者分词对输入句子进行预处理,接着将对应的词映射到高维空间得到词向量,然后使用神经网络进行语义编码得到句向量,最后把句向量输入到分类器得到最终的分类结果。然而,这些方法通常需要大规模的注释数据,而且人工注释存在着过程耗时、劳动密集且成本高昂等诸多问题。为了解决人工注释问题,一些研究采用了远程监督来生成用于训练的标记数据。其主要目的是利用外部知识库为文本中的实体对和关系提供标签。然而,由远程监督生成的注释数据总是质量较低,并且不能完全覆盖在现实世界环境中可能生成的关系实例。从上述分析中可以看出,无论是有监督学习还是远程监督学习,都无法有效解决模型在数据匮乏环境中性能较低的挑战。

2、于是在关系抽取领域中为了解决上面描述到的限制问题,零样本关系提取(zeroshot relation extraction,zsre)被提出用来提取在训练阶段没有出现的未知关系。一般在有监督关系提取中,可见和不可见的关系集在测试和训练阶段都是相同的,但是zsre在两个阶段之间有不相交的可见和不见的关系集。因此,zsre的任务目的是建立训练阶段形成的可见关系的表示与测试阶段不可见关系的表达之间的联系。

3、在现有的方法中,大多数模型方法主要通过转换任务类型实现,而没有充分利用句子中潜在的语义信息来提高模型性能。此外,它们忽略了句子和关系之间关联信息的作用,使模型缺乏识别不同句子和关系之间的能力。


技术实现思路

1、为了解决现有技术中存在的上述技术问题,本专利技术提出了一种基于对偶对比学习框架和交叉注意模块的零样本关系抽取算法来改善输入实例和对应关系之间的语义信息融合。首先,模型的输入是包含目标实体对的输入句子xi和句子中涉及的关系描述dj,输入句子和关系描述被分别发送到相应的编码器以分别生成属性向量f(xi)和g(dj)。下一步,生成的属性向量f(xi)和g(dj)被联合输入到一个交叉注意力网络中,以突出f(xi)相对于g(dj)的注意力目标。之后,模型通过对关系描述g(dj)和输入句子f(xi)进行对偶对比学习,在扩展负样本对表示之间的距离的同时,减少了正样本对之间的间距,同时还联合优化了关系分类损失。最后,给定一个新的句子输入xh,该模型生成属性向量f(xh)来查找最接近的看不见关系的属性向量g(dl),以获得最终预测。因此,该方法不仅提高了模型的区分不同关系的能力,而且增强了实例和关系之间的语义信息融合。

2、为了实现上述目的,本专利技术提供的技术是一种基于对偶对比学习框架和交叉注意模块的零样本关系抽取方法及模型,其具体技术方案如下:

3、一种基于对偶对比学习框架和交叉注意模块的零样本关系抽取方法,其特征在于包括以下步骤:

4、步骤1、利用预训练语言模型bert生成每个标识符的上下文表示;

5、步骤2、通过交叉注意力网络接收输入句子嵌入向量的特征图v(v1,v2,...,vh)和关系属性向量的特征图其中h是最后一个隐藏层的维度,表示每个特征图上的空间位置数,同时vi和是分别在v和vd中的i位置处的特征向量;

6、步骤3、从输入句子xi和对应的关系描述di中获得表示和当嵌入的每个句子与关系属性向量共享相同的关系标签时,最小化它们之间的距离;当它们具有不同的关系标签时,增加嵌入的每个句子与其属性向量之间的距离;

7、步骤4、从输入句子编码器获得的[cls]标识符h0与通过实体位置信息获得的实体表示和实体表示

8、步骤5、通过sentence-bert生成关系属性向量通过句子编码器为输入句子x′生成嵌入向量v′,对于句子嵌入向量v′,通过交叉注意力网络获得改进后的嵌入向量对于改进后的嵌入向量通过找到向量距离最接近的作为最终预测。

9、进一步的,所述步骤1具体如下:

10、首先,通过分词器word-piece tokenization对输入原句进行分词处理,在输入句子上加入[cls]和[sep]两个特殊标识符,使用特定的实体标记向量得到实体对的信息,将h0用来表示特殊标识符[cls],通过将h0进行tanh激活函数操作后输入进全连接层得到标识符表示h0:

11、h0′=w0[tanh(h0)]+b0                          (1)

12、接下来,通过实体对的隐藏状态层向量求平均值而得到实体表示和对于包含多个标识符的两个实体e1和e2,添加tanh非线性操作并输入进全连接层,之后平均化向量表示去形成实体表示向量和如下所示:

13、

14、其中表示两个实体向量,q和r分别表示ec,c=1,2,两个实体的标识符起点位置和终点位置,ht表示输入嵌入中的隐藏状态向量,并且we和be对于两个实体来说是相同的可学习参数;

15、最后,通过连接h0,和去获得最终的输入句子向量表示v;最后的向量表示v通过下述公式得到:

16、

17、其中w1和b1是可学习的参数,同时⊕代表了连接操作。

18、进一步的,所述步骤2具体如下:

19、首先,相关矩阵r(r1,r2,...,rh)是通过相关层中的余弦距离计算相乘融合和之间的语义相关性来计算得到,具体可以被表示如下:

20、

21、其中||vi||2和是每个向量的第二范式的表达,ri表示局部句子特征向量vi与所有关系特征向量之间的相关性。

22、接下来,基于相关矩阵的上下文表示,应用融合层生成交叉注意力图a,对特征图进行加权以获得重构句子表示融合层将相关矩阵r作为其输入,并使用w卷积核执行卷积运算,其中每个在r中的局部相关向量ri被融合到一个注意力向量中;通过使用softmax函数对所获得的注意力标量进行归一化,以获得ith位置处的句子注意力,形成注意力映射矩阵ai如下:

23、

24、其中τ是温度超参数;

25、所述交叉注意力网络的最后输出是通过利用交叉注意力融合对输入句子嵌入v和注意力映射矩阵a进行加权和相乘得到的重构输入句子向量特征图具体公式如下:

26、

27、其中表示矩阵乘法,⊕表示矩阵加法。

28、进一步的,所述步骤3具体如下:

29、定义对偶对比学习的损失函数。首先,以关系属性向量为主要研究对象,将其对应的输入句子嵌入定义为次要对象,得到损失函数lcl1;将输入本文档来自技高网...

【技术保护点】

1.一种基于对偶对比学习框架和交叉注意模块的零样本关系抽取方法,其特征在于包括以下步骤:

2.如权利要求1所述的基于对偶对比学习框架和交叉注意模块的零样本关系抽取方法,其特征在于:所述步骤1具体如下:

3.如权利要求2所述的基于对偶对比学习框架和交叉注意模块的零样本关系抽取方法,其特征在于:所述步骤2具体如下:

4.如权利要求3所述的基于对偶对比学习框架和交叉注意模块的零样本关系抽取方法,其特征在于:所述步骤3具体如下:

5.如权利要求4所述的基于对偶对比学习框架和交叉注意模块的零样本关系抽取方法,其特征在于:所述步骤4具体如下:

6.如权利要求5所述的基于对偶对比学习框架和交叉注意模块的零样本关系抽取方法,其特征在于:所述步骤5中,所述嵌入向量V′为:

7.一种基于对偶对比学习框架和交叉注意模块的零样本关系抽取模型,其特征在于包括如下模块:

【技术特征摘要】

1.一种基于对偶对比学习框架和交叉注意模块的零样本关系抽取方法,其特征在于包括以下步骤:

2.如权利要求1所述的基于对偶对比学习框架和交叉注意模块的零样本关系抽取方法,其特征在于:所述步骤1具体如下:

3.如权利要求2所述的基于对偶对比学习框架和交叉注意模块的零样本关系抽取方法,其特征在于:所述步骤2具体如下:

4.如权利要求3所述的基于对偶对比学习框架和交叉注意模块的零样...

【专利技术属性】
技术研发人员:张丽娟李帝佑张蕾万健黄杰陈芳妮徐文建王海江
申请(专利权)人:浙江科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1