一种实体链接方法、装置、设备及存储介质制造方法及图纸

技术编号：34396717 阅读：25 留言：0更新日期：2022-08-03 21:31

本申请涉及自然语言处理技术领域，公开了一种实体链接方法、装置、设备及存储介质，包括：获取与输入文本对应的实体提及、候选实体以及实体描述；构建包含实体提及与实体描述的第一融合序列和包含候选实体与输入文本的第二融合序列；利用第一模型计算实体提及的第一融合序列与第二融合序列的相似度，并根据相似度从候选实体中确定出实体提及的链接实体；第三模型为利用训练文本的实体提及训练样本的正样本和负样本通过对比学习的方式对采用对比损失函数的预训练模型进行训练得到。本申请在实体链接中融入实体描述信息，同时通过正负样本对比学习的方式训练模型来实现实体消歧，提高实体链接准确度以及在开放知识图谱上进行实体链接的性能。行实体链接的性能。行实体链接的性能。

全部详细技术资料下载

【技术实现步骤摘要】
一种实体链接方法、装置、设备及存储介质

[0001]本专利技术涉及自然语言处理
，特别涉及一种实体链接方法、装置、设备及存储介质。

技术介绍

[0002]实体链接是将文本中所提及的实体链接到知识库中的相应实体，是让机器理解自然语言的第一步，也是至关重要的一步。实体链接的输入通常包含实体的指代(Mention)和上下文以及待链接的知识库，实体链接的输出是指代所对应的知识库的实体。当指代与实体之间是一一对应的关系，也就是没有歧义时，实体链接问题十分简单，但实际应用中其往往会存在歧义。一方面，一个实体可以有多种表达方式；另一方面，同一名称可以指代不同实体。
[0003]现有技术中，实体链接的方法大致包括命名实体识别(MD，mention detection)、候选实体的生成和实体的消歧三个步骤。然而这种做法的缺点是如果第一步的mention detection发生错误，后面候选实体的生成和消歧操作将会产生错误的叠加，导致结果不佳。
[0004]因此，如何提高实体链接的准确度是本领域技术人员亟待解决的技术问题。

技术实现思路

[0005]有鉴于此，本专利技术的目的在于提供一种实体链接方法、装置、设备及存储介质，能够提高实体链接准确度以及在开放知识图谱上进行实体链接的性能。其具体方案如下：
[0006]本申请的第一方面提供了一种实体链接方法，包括：
[0007]获取与输入文本对应的实体提及、所述实体提及的候选实体以及所述候选实体的实体描述；
[0008]构建包含所述...

【技术保护点】

【技术特征摘要】
1.一种实体链接方法，其特征在于，包括：获取与输入文本对应的实体提及、所述实体提及的候选实体以及所述候选实体的实体描述；构建包含所述实体提及与所述实体描述的第一融合序列和包含所述候选实体与所述输入文本的第二融合序列；利用第一模型计算所述实体提及的所述第一融合序列与所述第二融合序列的相似度，并根据所述相似度从所述候选实体中确定出所述实体提及的链接实体；其中，所述第一模型为利用训练文本的实体提及训练样本的正样本和负样本通过对比学习的方式对采用对比损失函数的预训练模型进行训练得到；正样本为分别由所述实体提及训练样本与正确实体的实体描述训练样本、正确实体与所述训练文本组成的序列，负样本为分别由所述实体提及训练样本与非正确实体的实体描述训练样本、非正确实体与所述训练文本组成的序列。2.根据权利要求1所述的实体链接方法，其特征在于，所述获取与输入文本对应的实体提及，包括：利用第二模型确定所述输入文本的实体提及位置，并根据实体提及位置确定出与所述输入文本对应的所述实体提及。3.根据权利要求2所述的实体链接方法，其特征在于，所述第二模型包括BERT神经网络和CRF神经网络；相应的，所述利用第二模型确定所述输入文本的实体提及位置，包括：将所述输入文本的词向量依次通过所述BERT神经网络和所述CRF神经网络进行处理，得到表征实体提及位置的BIO标签。4.根据权利要求1所述的实体链接方法，其特征在于，获取所述实体提及的候选实体以及所述候选实体的实体描述，包括：利用第三模型分别计算所述实体提及与知识库实体列表中每类别名组成的组合文本之间的匹配度，并将大于第一阈值的所述匹配度对应的别名种类的实体确定为所述候选实体；从所述实体列表中读取出所述候选实体的所述实体描述。5.根据权利要求1所述的实体链接方法，其特征在于，还包括：获取所述训练文本；利用第二模型对所述训练文本进行实体提取得到与所述训练文本对应的所述实体提及训练样本，并通过第三模型确定出与所述实体提及训练样本对应的候选实体训练样本；从所述候选实体训练样本中确定出正确实体和非正确实体以及相应的实体描述训练样本；将由所述实体提及训练样本与正确实体的实体描述训练样本组成的序列确定为第一正样本序列并将由正确实体与所述训练文本组成的序列确定为第二正样本序列，以及将由所述实体提及训练样本与非正确实体的实体描述训练样本组成的序列确定为第一负样本序列并将由非正确实体与所述训练文本组成的序列确定为第二负样本序列；利用所述第一正样本序列、所述第二正样本序列、所...

【专利技术属性】
技术研发人员：赵雅倩，徐聪，郭振华，范宝余，金良，刘璐，闫瑞栋，
申请(专利权)人：浪潮电子信息产业股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人