使用自适应阈值和本地上下文池化提取关系的系统和方法技术方案

技术编号:38104105 阅读:24 留言:0更新日期:2023-07-06 09:24
一种使用自适应阈值和本地上下文池化(ATLOP)进行关系提取的系统和方法。该系统包括计算设备。该计算设备具有处理器和存储计算机可执行代码的存储设备。该计算机可执行代码被配置为:提供文档;将文档中的多个实体嵌入到多个嵌入向量中;以及使用文档中的一实体对的嵌入向量预测所述实体对之间的关系。基于改进的语言模型进行关系预测。每个关系都具有自适应阈值,当该实体对之间的关系的logit大于相应自适应阈值的logit函数时,确定该实体对之间的关系是存在的。之间的关系是存在的。之间的关系是存在的。

【技术实现步骤摘要】
【国外来华专利技术】使用自适应阈值和本地上下文池化提取关系的系统和方法
[0001]交叉引用
[0002]本申请要求于2020年10月21日提交的美国专利申请第17/076014号的优先权,其通过引用方式全部并入本文。
[0003]在本公开的描述中引用和讨论了一些参考文献,其可能包括专利、专利申请和各种出版物。提供此类参考文献的引用和/或讨论仅用于阐明本公开的描述,并不承认任何此类参考文献是本文所述公开的“现有技术”。在说明书中引用和讨论的所有参考文献通过引用整体并入本文,并且与每篇参考文献通过引用单独并入的程度相同。


[0004]本公开总体上涉及关系提取,具体来说,涉及使用自适应阈值和本地上下文池化的关系提取。

技术介绍

[0005]本文提供的背景描述是为了总体上呈现本公开的上下文。在本
技术介绍
部分描述的范围内,当前署名的专利技术人的工作,以及在提交申请时不符合现有技术的描述方面,均未明示或暗示地被承认为针对本公开的现有技术。
[0006]关系提取(Relation Extraction,RE)是自然语言处理(Natural Language Processing,NLP)中的一项重要任务,其提取纯文本中实体对之间的关系。关系可以从句子或文档中提取。与句子级RE相比,文档级RE提出了新的挑战,因为一个文档通常包含多个实体对,并且一个实体对可能在与多个可能的关系或多个标签相关联的文档中多次出现。
[0007]为了解决该多实体问题,目前大多数方法都使用依赖结构、启发式或结构化注意力构建文档图,然后使用图神经模型进行推理。所构建的图连接了文档中相距较远的实体,从而解决了基于RNN的编码器在捕获远程信息方面的不足。然而,由于基于变换器的模型可以隐式地对远程依赖关系进行建模,因此尚不清楚图结构是否仍然有助于预训练的语言模型,如BERT。还存在直接应用预训练的语言模型而不引入图结构的方法。它们简单地对实体分词的嵌入进行平均以获得实体嵌入,并将其输入分类器以获得关系标签。然而,每个实体在不同的实体对中具有相同的表示,这可能会带来不相关上下文的噪声。
[0008]因此,本领域存在解决文档级关系提取中的多实体、多标签问题的需要。

技术实现思路

[0009]在某些方面,本公开提供了两种新颖的技术,自适应阈值和本地上下文池化,以解决多标签和多实体问题。自适应阈值用依赖可学习实体的阈值代替先前工作中用于多标签分类的全局阈值。本地上下文池化直接从预训练的语言模型中转移注意力以定位有助于确定关系的相关上下文。
[0010]具体来说,本公开提供了本地上下文池化技术,而不是引入图结构。本地上下文池化解决了对所有实体对使用相同实体嵌入的问题。它使用与当前实体对相关的附加上下文
来增强实体嵌入。本公开无需从头开始训练新的上下文注意力层,而是直接从预训练的语言模型中转移注意力头以获得实体级注意力。然后,对于一对中的两个实体,本公开通过乘法将它们的注意力进行合并,以找到对双方都重要的上下文。
[0011]对于多标签问题,现有方法将其简化为二元分类问题。经训练后,将全局阈值应用于类概率以获得关系标签。该方法涉及启发式阈值调整,并在开发数据中调整的阈值可能不是所有实例的最佳阈值时引入决策错误。相比之下,本公开提供了自适应阈值技术,该技术用可学习阈值类代替全局阈值。阈值类是通过自适应阈值损失来学习的。该自适应阈值损失是一种基于排名的损失,其在模型训练中将正类的logit(逻辑回归)推到阈值之上,将负类的logit拉到阈值之下。在测试时,本公开返回具有比阈值类更高的logit的类作为预测标签,或者如果该类不存在则返回NA。该技术消除了阈值调整的需要,并且还可以根据不同的实体对对阈值进行调整,从而获得更好的结果。
[0012]通过将自适应阈值和本地上下文池化相结合,本公开提供了一种简单但新颖且有效的关系提取模型,称为ATLOP(Adaptive Thresholding and Localized cOntext Pooling,自适应阈值和本地上下文池化),以充分利用预训练的语言模型的能力。该模型解决了文档级RE中的多标签和多实体问题。对DocRED、CDR和GDA三个文档级关系提取数据集的实验表明,ATLOP模型显著优于最先进的方法。DocRED是由维基百科和维基数据构建的大规模文档级关系提取数据集,CDR是化学疾病关系的数据集,GDA是基因疾病关联的数据集。
[0013]在某些方面,本公开涉及一种系统。在某些实施例中,该系统包括计算设备,所述计算设备具有处理器和存储计算机可执行代码的存储设备。所述计算机可执行码在所述处理器处执行时被配置为:
[0014]提供文档;
[0015]将所述文档中的多个实体嵌入到多个嵌入向量中;以及
[0016]基于第一嵌入向量和第二嵌入向量预测所述文档中的第一实体和所述文档中的第二实体之间的多个关系中的一个关系,所述多个嵌入向量中的所述第一嵌入向量表示所述第一实体,所述多个嵌入向量中的所述第二嵌入向量表示所述第二实体,
[0017]其中,所述计算机可执行代码被配置为使用存储在所述计算设备中的语言模型来嵌入和预测,所述多个关系中的每个关系都具有自适应阈值,针对所述多个关系中的所述一个关系,当所述关系的logit大于所述多个关系的所述自适应阈值中的相应一个自适应阈值的logit函数时,确定所述关系是存在的。
[0018]在某些实施例中,所述计算机可执行代码被配置为通过使用LogSumExp LSE总结所述多个实体中的每个实体的至少一次提及的至少一个隐藏表示来嵌入所述多个实体中的每个实体。
[0019]在某些实施例中,所述计算机可执行代码被配置为通过使用以下公式计算从所述多个实体中选择的一实体对的本地上下文池化来预测多个关系中的一个关系:
[0020][0021][0022]a
(s,o)
=q
(s,o)
/1
T
q
(s,o)
,以及
[0023]c
(s,o)
=H
T
a
(s,o)

[0024]其中,所述实体对具有主体实体和客体实体,是所述主体实体的分词级注意力,是所述客体实体的分词级注意力,A
(s,o)
是和的乘积,中的H是注意力头的数量,A
i(s,o)
是H次乘法中的第i次乘法,a
(s,o)
是q
(s,o)
到总和1的归一化,H
T
a
(s,o)
中的H是预训练的语言模型的最后一层嵌入,c
(s,o)
是所述实体对的所述本地上下文池化。
[0025]在某些实施例中,所述主体实体和所述客体实体的隐藏状态由以下公式确定:
[0026]以及
[0027][0028]其中,是所述主体实体的嵌入,是所述主体实体的隐藏状态,是所述客体实体的嵌入,是所述客体实本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种系统,包括计算设备,所述计算设备包括处理器和存储计算机可执行代码的存储设备,其中,所述计算机可执行码在所述处理器处执行时被配置为:提供文档;将所述文档中的多个实体嵌入到多个嵌入向量中;以及基于第一嵌入向量和第二嵌入向量预测所述文档中的第一实体和所述文档中的第二实体之间的多个关系中的一个关系,所述多个嵌入向量中的所述第一嵌入向量表示所述第一实体,所述多个嵌入向量中的所述第二嵌入向量表示所述第二实体,其中,所述计算机可执行代码被配置为使用存储在所述计算设备中的语言模型来嵌入和预测,所述多个关系中的每个关系都具有自适应阈值,针对所述多个关系中的所述一个关系,当所述关系的1
o
git大于所述多个关系的所述自适应阈值中的相应一个自适应阈值的logit函数时,确定所述关系是存在的。2.根据权利要求1所述的系统,其中,所述计算机可执行代码被配置为通过使用LogSumExp LSE总结所述多个实体中的每个实体的至少一次提及的至少一个隐藏表示来嵌入所述多个实体中的每个实体。3.根据权利要求1所述的系统,其中,所述计算机可执行代码被配置为通过使用以下公式计算从所述多个实体中选择的一实体对的本地上下文池化来预测多个关系中的一个关系:系:a
(s,o)
=q
(s,o)
/1
T
q
(s,o)
,以及c
(s,o)
=H
T
a
(s,o)
,其中,所述实体对包括主体实体和客体实体,是所述主体实体的分词级注意力头,是所述客体实体的分词级注意力头,A
(s,o)
是和的乘积,中的H是注意力头的数量,A
i(s,o)
是H次乘法中的第i次乘法,a
(s,o)
是q
(s,o)
到总和1的归一化,H
T
a
(s,o)
中的H是经预训练的所述语言模型的最后一层嵌入,c
(s,o)
是所述实体对的所述本地上下文池化。4.根据权利要求3所述的系统,其中,所述主体实体和所述客体实体的隐藏状态由以下公式确定:以及其中,是所述主体实体的嵌入,是所述主体实体的隐藏状态,是所述客体实体的嵌入,是所述客体实体的隐藏状态,W
s
,W
o
,W
C1
和W
C2
是模型参数。5.根据权利要求4所述的系统,其中,计算机可执行代码被配置为使用以下公式来预测所述主体实体和所述客体实体之间的关系:
其中,logit
r
是所述主体实体e
s
和所述客体实体e
o
关于所述关系r的logit函数,k是正整数,的维度被k除以形成多个的维度被k除以形成多个的维度被k除以形成多个和b
r
是模型参数;以及其中,当所述logit
r
大于所述关系r的可学习阈值TH的logit函数时,所述主体实体e
s
和所述客体实体e
o
具有所述关系r。6.根据权利要求5所述的系统,其中,的维度以及所述的维度为768,k为12。7.根据权利要求1所述的系统,其中,所述语言模型包括以下至少之一:来自变换器的双向编码器表示BERT、鲁棒优化BERT方法roBERTa、SciBERT、生成预训练模型GPT、GPT

2、以及重新参数化变换器XL网络XLnet。8.根据权利要求7所述的系统,其中,用于训练所述语言模型的损失函数由以下公式确定:定:定:以及L=L1+L2,其中,logit
r
是所述主体实体e
s
和所述客体实体e
o
关于所述关系r的logit函数,k是正整数,的维度被k除以形成多个的维度被k除以形成多个和b
r
是模型参数,TH是所述关系的可学习阈值,P
T
表示正的关系类,NT表示负的关系类。9.根据权利要求1所述的系统,其中,所述计算机可执行代码还被配置为:使用所述第一实体、所述第二实体以及所述第一实体和所述第二实体之间的所述多个关系中预测的关系来构建知识图。10.根据权利要求1所述的系统,其中,当问题包括所述第一实体和所述第二实体,且所述文档被预定为包括所述问题的答案时,所述计算机可执行代码还被配置为:使用所述多个关系中预测的关系来形成所述答案。11.一种方法,包括:由计算设备提供文档;由所述计算设备将所述文档中的多个实体嵌入到多个嵌入向量中;以及由所述计算设备基于第一嵌入向量和第二嵌入向量预测所述文档中的第一实体和所述文档中的第二实体之间的多个关系中的一个关系,所述多个嵌入向量中的所述第一嵌入向量表示所述第一实体,所述多个嵌入向量中的所述第二嵌入向量表示所述第二实体,其中,由存储在所述计算设备中的语言模型来执行所述嵌入和预测步骤,所述多个关系中的每个关系都具有自适应阈值,针对所述多个关系中的所述一个关系,当所述关系的
logit大于所述多个关系的所述自适应阈值中的相应一个自适应阈值的logit函数时,确定所述关系是存在的。12.根据权利要求11所述的方法,其中,通过使用LogSumExp LSE总结所述多个实体中的每个实体的至少一次提及的至少一个隐藏表示来执行所述嵌入所述多个实体中的每个实体的步骤。13.根据权利要求11所述的方法,其中,所述预测步骤包括使用以下公式计算从所述多个实体中选择的一实体对的本地上下文池化:个实体中选择的一实体对的本地上下文池化:a
(s,o)
=q
(s,o)
/1
T
q
(s,o)
,以及c
(s,o)
=H
T
a
(s,o)
,其中,所述实体对包括主体实体和客体实体,是所述主体实体的分词级注意力头,是所述客体实体的分词级注意力头,A
(s,o)

【专利技术属性】
技术研发人员:周文轩黄隆凯黄静
申请(专利权)人:京东美国科技公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1