一种实体链接方法、装置、设备及存储介质制造方法及图纸

技术编号:34396717 阅读:25 留言:0更新日期:2022-08-03 21:31
本申请涉及自然语言处理技术领域,公开了一种实体链接方法、装置、设备及存储介质,包括:获取与输入文本对应的实体提及、候选实体以及实体描述;构建包含实体提及与实体描述的第一融合序列和包含候选实体与输入文本的第二融合序列;利用第一模型计算实体提及的第一融合序列与第二融合序列的相似度,并根据相似度从候选实体中确定出实体提及的链接实体;第三模型为利用训练文本的实体提及训练样本的正样本和负样本通过对比学习的方式对采用对比损失函数的预训练模型进行训练得到。本申请在实体链接中融入实体描述信息,同时通过正负样本对比学习的方式训练模型来实现实体消歧,提高实体链接准确度以及在开放知识图谱上进行实体链接的性能。行实体链接的性能。行实体链接的性能。

【技术实现步骤摘要】
一种实体链接方法、装置、设备及存储介质


[0001]本专利技术涉及自然语言处理
,特别涉及一种实体链接方法、装置、设备及存储介质。

技术介绍

[0002]实体链接是将文本中所提及的实体链接到知识库中的相应实体,是让机器理解自然语言的第一步,也是至关重要的一步。实体链接的输入通常包含实体的指代(Mention)和上下文以及待链接的知识库,实体链接的输出是指代所对应的知识库的实体。当指代与实体之间是一一对应的关系,也就是没有歧义时,实体链接问题十分简单,但实际应用中其往往会存在歧义。一方面,一个实体可以有多种表达方式;另一方面,同一名称可以指代不同实体。
[0003]现有技术中,实体链接的方法大致包括命名实体识别(MD,mention detection)、候选实体的生成和实体的消歧三个步骤。然而这种做法的缺点是如果第一步的mention detection发生错误,后面候选实体的生成和消歧操作将会产生错误的叠加,导致结果不佳。
[0004]因此,如何提高实体链接的准确度是本领域技术人员亟待解决的技术问题。

技术实现思路

[0005]有鉴于此,本专利技术的目的在于提供一种实体链接方法、装置、设备及存储介质,能够提高实体链接准确度以及在开放知识图谱上进行实体链接的性能。其具体方案如下:
[0006]本申请的第一方面提供了一种实体链接方法,包括:
[0007]获取与输入文本对应的实体提及、所述实体提及的候选实体以及所述候选实体的实体描述;
[0008]构建包含所述实体提及与所述实体描述的第一融合序列和包含所述候选实体与所述输入文本的第二融合序列;
[0009]利用第一模型计算所述实体提及的所述第一融合序列与所述第二融合序列的相似度,并根据所述相似度从所述候选实体中确定出所述实体提及的链接实体;其中,所述第一模型为利用训练文本的实体提及训练样本的正样本和负样本通过对比学习的方式对采用对比损失函数的预训练模型进行训练得到;正样本为分别由所述实体提及训练样本与正确实体的实体描述训练样本、正确实体与所述训练文本组成的序列,负样本为分别由所述实体提及训练样本与非正确实体的实体描述训练样本、非正确实体与所述训练文本组成的序列。
[0010]可选的,所述获取与输入文本对应的实体提及,包括:
[0011]利用第二模型确定所述输入文本的实体提及位置,并根据实体提及位置确定出与所述输入文本对应的所述实体提及。
[0012]可选的,所述第二模型包括BERT神经网络和CRF神经网络;
[0013]相应的,所述利用第二模型确定所述输入文本的实体提及位置,包括:
[0014]将所述输入文本的词向量依次通过所述BERT神经网络和所述CRF神经网络进行处理,得到表征实体提及位置的BIO标签。
[0015]可选的,获取所述实体提及的候选实体以及所述候选实体的实体描述,包括:
[0016]利用第三模型分别计算所述实体提及与知识库实体列表中每类别名组成的组合文本之间的匹配度,并将大于第一阈值的所述匹配度对应的别名种类的实体确定为所述候选实体;
[0017]从所述实体列表中读取出所述候选实体的所述实体描述。
[0018]可选的,所述实体链接方法,还包括:
[0019]获取所述训练文本;
[0020]利用第二模型对所述训练文本进行实体提取得到与所述训练文本对应的所述实体提及训练样本,并通过第三模型确定出与所述实体提及训练样本对应的候选实体训练样本;
[0021]从所述候选实体训练样本中确定出正确实体和非正确实体以及相应的实体描述训练样本;
[0022]将由所述实体提及训练样本与正确实体的实体描述训练样本组成的序列确定为第一正样本序列并将由正确实体与所述训练文本组成的序列确定为第二正样本序列,以及将由所述实体提及训练样本与非正确实体的实体描述训练样本组成的序列确定为第一负样本序列并将由非正确实体与所述训练文本组成的序列确定为第二负样本序列;
[0023]利用所述第一正样本序列、所述第二正样本序列、所述第一负样本序列和所述第二负样本序列通过对比学习的方式对采用对比损失函数的预训练模型进行训练得到所述第一模型。
[0024]可选的,所述利用所述第一正样本序列、所述第二正样本序列、所述第一负样本序列和所述第二负样本序列通过对比学习的方式对采用对比损失函数的预训练模型进行训练得到所述第一模型,包括:
[0025]利用预训练模型分别计算所述第一正样本序列、所述第二正样本序列、所述第一负样本序列和所述第二负样本序列的表征向量,并根据由各表征向量之间的所述相似度计算NCE_LOSS函数的损失值后对相关网络参数进行调整以使所述损失值小于第二阈值。
[0026]可选的,所述实体链接方法,还包括:
[0027]将获取所述实体提及的第二模型、获取所述候选实体的所述第三模型、和所述第三模型集成至一个模型,以得到对应的端到端整合模型;
[0028]在进行模型训练时,通过对采用交叉熵损失函数的所述第二模型进行训练并以训练后的所述第二模型的输出作为所述第一模型的输入对所述第一模型进行训练;
[0029]在进行实体链接时,将所述输入文本输入至所述端到端整合模型以依次经过所述第二模型、所述第三模型和所述第一模型处理后输出相应的所述相似度。
[0030]本申请的第二方面提供了一种实体链接装置,包括:
[0031]获取模块,用于获取与输入文本对应的实体提及、所述实体提及的候选实体以及所述候选实体的实体描述;
[0032]构建模块,用于构建包含所述实体提及与所述实体描述的第一融合序列和包含所
述候选实体与所述输入文本的第二融合序列;
[0033]计算确定模块,用于利用第一模型计算所述实体提及的所述第一融合序列与所述第二融合序列的相似度,并根据所述相似度从所述候选实体中确定出所述实体提及的链接实体;其中,所述第一模型为利用训练文本的实体提及训练样本的正样本和负样本通过对比学习的方式对采用对比损失函数的预训练模型进行训练得到;正样本为分别由所述实体提及训练样本与正确实体的实体描述训练样本、正确实体与所述训练文本组成的序列,负样本为分别由所述实体提及训练样本与非正确实体的实体描述训练样本、非正确实体与所述训练文本组成的序列。
[0034]本申请的第三方面提供了一种电子设备,所述电子设备包括处理器和存储器;其中所述存储器用于存储计算机程序,所述计算机程序由所述处理器加载并执行以实现前述实体链接方法。
[0035]本申请的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机可执行指令,所述计算机可执行指令被处理器加载并执行时,实现前述实体链接方法。
[0036]本申请中,先获取与输入文本对应的实体提及、所述实体提及的候选实体以及所述候选实体的实体描述;然后构建包含所述实体提及与所述实体描述的第一融合序列和包含所述候选实体与所述输入文本的第二融合序本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种实体链接方法,其特征在于,包括:获取与输入文本对应的实体提及、所述实体提及的候选实体以及所述候选实体的实体描述;构建包含所述实体提及与所述实体描述的第一融合序列和包含所述候选实体与所述输入文本的第二融合序列;利用第一模型计算所述实体提及的所述第一融合序列与所述第二融合序列的相似度,并根据所述相似度从所述候选实体中确定出所述实体提及的链接实体;其中,所述第一模型为利用训练文本的实体提及训练样本的正样本和负样本通过对比学习的方式对采用对比损失函数的预训练模型进行训练得到;正样本为分别由所述实体提及训练样本与正确实体的实体描述训练样本、正确实体与所述训练文本组成的序列,负样本为分别由所述实体提及训练样本与非正确实体的实体描述训练样本、非正确实体与所述训练文本组成的序列。2.根据权利要求1所述的实体链接方法,其特征在于,所述获取与输入文本对应的实体提及,包括:利用第二模型确定所述输入文本的实体提及位置,并根据实体提及位置确定出与所述输入文本对应的所述实体提及。3.根据权利要求2所述的实体链接方法,其特征在于,所述第二模型包括BERT神经网络和CRF神经网络;相应的,所述利用第二模型确定所述输入文本的实体提及位置,包括:将所述输入文本的词向量依次通过所述BERT神经网络和所述CRF神经网络进行处理,得到表征实体提及位置的BIO标签。4.根据权利要求1所述的实体链接方法,其特征在于,获取所述实体提及的候选实体以及所述候选实体的实体描述,包括:利用第三模型分别计算所述实体提及与知识库实体列表中每类别名组成的组合文本之间的匹配度,并将大于第一阈值的所述匹配度对应的别名种类的实体确定为所述候选实体;从所述实体列表中读取出所述候选实体的所述实体描述。5.根据权利要求1所述的实体链接方法,其特征在于,还包括:获取所述训练文本;利用第二模型对所述训练文本进行实体提取得到与所述训练文本对应的所述实体提及训练样本,并通过第三模型确定出与所述实体提及训练样本对应的候选实体训练样本;从所述候选实体训练样本中确定出正确实体和非正确实体以及相应的实体描述训练样本;将由所述实体提及训练样本与正确实体的实体描述训练样本组成的序列确定为第一正样本序列并将由正确实体与所述训练文本组成的序列确定为第二正样本序列,以及将由所述实体提及训练样本与非正确实体的实体描述训练样本组成的序列确定为第一负样本序列并将由非正确实体与所述训练文本组成的序列确定为第二负样本序列;利用所述第一正样本序列、所述第二正样本序列、所...

【专利技术属性】
技术研发人员:赵雅倩徐聪郭振华范宝余金良刘璐闫瑞栋
申请(专利权)人:浪潮电子信息产业股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1