【技术实现步骤摘要】
【国外来华专利技术】使用自适应阈值和本地上下文池化提取关系的系统和方法
[0001]交叉引用
[0002]本申请要求于2020年10月21日提交的美国专利申请第17/076014号的优先权,其通过引用方式全部并入本文。
[0003]在本公开的描述中引用和讨论了一些参考文献,其可能包括专利、专利申请和各种出版物。提供此类参考文献的引用和/或讨论仅用于阐明本公开的描述,并不承认任何此类参考文献是本文所述公开的“现有技术”。在说明书中引用和讨论的所有参考文献通过引用整体并入本文,并且与每篇参考文献通过引用单独并入的程度相同。
[0004]本公开总体上涉及关系提取,具体来说,涉及使用自适应阈值和本地上下文池化的关系提取。
技术介绍
[0005]本文提供的背景描述是为了总体上呈现本公开的上下文。在本
技术介绍
部分描述的范围内,当前署名的专利技术人的工作,以及在提交申请时不符合现有技术的描述方面,均未明示或暗示地被承认为针对本公开的现有技术。
[0006]关系提取(Relation Extraction,RE)是自然语言处理(Natural Language Processing,NLP)中的一项重要任务,其提取纯文本中实体对之间的关系。关系可以从句子或文档中提取。与句子级RE相比,文档级RE提出了新的挑战,因为一个文档通常包含多个实体对,并且一个实体对可能在与多个可能的关系或多个标签相关联的文档中多次出现。
[0007]为了解决该多实体问题,目前大多数方法都使用依赖结构、启发式或结构化注意力构建文档图,然后使 ...
【技术保护点】
【技术特征摘要】
【国外来华专利技术】1.一种系统,包括计算设备,所述计算设备包括处理器和存储计算机可执行代码的存储设备,其中,所述计算机可执行码在所述处理器处执行时被配置为:提供文档;将所述文档中的多个实体嵌入到多个嵌入向量中;以及基于第一嵌入向量和第二嵌入向量预测所述文档中的第一实体和所述文档中的第二实体之间的多个关系中的一个关系,所述多个嵌入向量中的所述第一嵌入向量表示所述第一实体,所述多个嵌入向量中的所述第二嵌入向量表示所述第二实体,其中,所述计算机可执行代码被配置为使用存储在所述计算设备中的语言模型来嵌入和预测,所述多个关系中的每个关系都具有自适应阈值,针对所述多个关系中的所述一个关系,当所述关系的1
o
git大于所述多个关系的所述自适应阈值中的相应一个自适应阈值的logit函数时,确定所述关系是存在的。2.根据权利要求1所述的系统,其中,所述计算机可执行代码被配置为通过使用LogSumExp LSE总结所述多个实体中的每个实体的至少一次提及的至少一个隐藏表示来嵌入所述多个实体中的每个实体。3.根据权利要求1所述的系统,其中,所述计算机可执行代码被配置为通过使用以下公式计算从所述多个实体中选择的一实体对的本地上下文池化来预测多个关系中的一个关系:系:a
(s,o)
=q
(s,o)
/1
T
q
(s,o)
,以及c
(s,o)
=H
T
a
(s,o)
,其中,所述实体对包括主体实体和客体实体,是所述主体实体的分词级注意力头,是所述客体实体的分词级注意力头,A
(s,o)
是和的乘积,中的H是注意力头的数量,A
i(s,o)
是H次乘法中的第i次乘法,a
(s,o)
是q
(s,o)
到总和1的归一化,H
T
a
(s,o)
中的H是经预训练的所述语言模型的最后一层嵌入,c
(s,o)
是所述实体对的所述本地上下文池化。4.根据权利要求3所述的系统,其中,所述主体实体和所述客体实体的隐藏状态由以下公式确定:以及其中,是所述主体实体的嵌入,是所述主体实体的隐藏状态,是所述客体实体的嵌入,是所述客体实体的隐藏状态,W
s
,W
o
,W
C1
和W
C2
是模型参数。5.根据权利要求4所述的系统,其中,计算机可执行代码被配置为使用以下公式来预测所述主体实体和所述客体实体之间的关系:
其中,logit
r
是所述主体实体e
s
和所述客体实体e
o
关于所述关系r的logit函数,k是正整数,的维度被k除以形成多个的维度被k除以形成多个的维度被k除以形成多个和b
r
是模型参数;以及其中,当所述logit
r
大于所述关系r的可学习阈值TH的logit函数时,所述主体实体e
s
和所述客体实体e
o
具有所述关系r。6.根据权利要求5所述的系统,其中,的维度以及所述的维度为768,k为12。7.根据权利要求1所述的系统,其中,所述语言模型包括以下至少之一:来自变换器的双向编码器表示BERT、鲁棒优化BERT方法roBERTa、SciBERT、生成预训练模型GPT、GPT
‑
2、以及重新参数化变换器XL网络XLnet。8.根据权利要求7所述的系统,其中,用于训练所述语言模型的损失函数由以下公式确定:定:定:以及L=L1+L2,其中,logit
r
是所述主体实体e
s
和所述客体实体e
o
关于所述关系r的logit函数,k是正整数,的维度被k除以形成多个的维度被k除以形成多个和b
r
是模型参数,TH是所述关系的可学习阈值,P
T
表示正的关系类,NT表示负的关系类。9.根据权利要求1所述的系统,其中,所述计算机可执行代码还被配置为:使用所述第一实体、所述第二实体以及所述第一实体和所述第二实体之间的所述多个关系中预测的关系来构建知识图。10.根据权利要求1所述的系统,其中,当问题包括所述第一实体和所述第二实体,且所述文档被预定为包括所述问题的答案时,所述计算机可执行代码还被配置为:使用所述多个关系中预测的关系来形成所述答案。11.一种方法,包括:由计算设备提供文档;由所述计算设备将所述文档中的多个实体嵌入到多个嵌入向量中;以及由所述计算设备基于第一嵌入向量和第二嵌入向量预测所述文档中的第一实体和所述文档中的第二实体之间的多个关系中的一个关系,所述多个嵌入向量中的所述第一嵌入向量表示所述第一实体,所述多个嵌入向量中的所述第二嵌入向量表示所述第二实体,其中,由存储在所述计算设备中的语言模型来执行所述嵌入和预测步骤,所述多个关系中的每个关系都具有自适应阈值,针对所述多个关系中的所述一个关系,当所述关系的
logit大于所述多个关系的所述自适应阈值中的相应一个自适应阈值的logit函数时,确定所述关系是存在的。12.根据权利要求11所述的方法,其中,通过使用LogSumExp LSE总结所述多个实体中的每个实体的至少一次提及的至少一个隐藏表示来执行所述嵌入所述多个实体中的每个实体的步骤。13.根据权利要求11所述的方法,其中,所述预测步骤包括使用以下公式计算从所述多个实体中选择的一实体对的本地上下文池化:个实体中选择的一实体对的本地上下文池化:a
(s,o)
=q
(s,o)
/1
T
q
(s,o)
,以及c
(s,o)
=H
T
a
(s,o)
,其中,所述实体对包括主体实体和客体实体,是所述主体实体的分词级注意力头,是所述客体实体的分词级注意力头,A
(s,o)
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。