实体链接方法和装置、存储介质及电子设备制造方法及图纸

技术编号：35096913 阅读：11 留言：0更新日期：2022-10-01 17:00

本发明专利技术公开了一种实体链接方法和装置、存储介质及电子设备。其中，该方法包括：获取目标文本，目标文本携带有待链接的目标实体；获取与目标文本对应的第一表征向量，并获取实体数据库中各个对象实体各自对应的第二表征向量；根据第一表征向量与各个第二表征向量进行各自匹配后的结果，从实体数据库的各个对象实体中获取与目标实体相匹配的至少一个候选实体；对目标文本与各个候选实体的实体描述信息分别进行拼接，得到多个候选输入文本；获取与候选输入文本相匹配的链接置信度；根据链接置信度从至少一个候选实体中确定出与目标实体相匹配的链接实体。本发明专利技术解决了现有实体链接方法准确率低的技术问题。法准确率低的技术问题。法准确率低的技术问题。

全部详细技术资料下载

【技术实现步骤摘要】
实体链接方法和装置、存储介质及电子设备

[0001]本专利技术涉及计算机领域，具体而言，涉及一种实体链接方法和装置、存储介质及电子设备。

技术介绍

[0002]实体链接是自然语言处理(NPL，Natural Language Processing)里的一项基础技术，其作用是将文本里识别出的命名实体链接到知识库里的正确实体上。
[0003]例如，针对一段文本“张三从小就受父亲影响，1988年开始练习网球，1989年的时候，被网球教练夏一相中开始练网球”中的人名“张三”，知识库中存在多个与人名“张三”匹配的词条，如“张三(女子网球名将)”、“张三(青岛籍女演员)”、“张三(流行歌手)”、“张三(画家)”等。上述文本中的人名“张三”应当对应于“女子网球名将”，也就是说，需要通过实体链接技术将人名“张三”与正确的实体“张三(女子网球名将)”进行关联。
[0004]现有的实体链接方法通常是对实体进行简单的分析处理，无法确定出实体的准确语义，而基于简单的分析处理方法无法匹配得到准确的实体对象，因此存在实体链接的准确率较低的技术问题。
[0005]针对上述的问题，目前尚未提出有效的解决方案。

技术实现思路

[0006]本专利技术实施例提供了一种实体链接方法和装置、存储介质及电子设备，以至少解决现有实体链接方法准确率低的技术问题。
[0007]根据本专利技术实施例的一个方面，提供了一种实体链接方法，包括：获取目标文本，上述目标文本携带有待链接的目标实体；获取与上述目标文本对应的第一表征

【技术保护点】

【技术特征摘要】
1.一种实体链接方法，其特征在于，包括：获取目标文本，所述目标文本携带有待链接的目标实体；获取与所述目标文本对应的第一表征向量，并获取实体数据库中各个对象实体各自对应的第二表征向量，其中，所述第一表征向量用于表征所述目标文本的文本语义，所述第二表征向量用于表征所述对象实体的实体语义，所述对象实体关联有实体描述信息；根据所述第一表征向量与各个所述第二表征向量进行各自匹配后的结果，从所述实体数据库的各个对象实体中获取与所述目标实体相匹配的至少一个候选实体；对所述目标文本与各个所述候选实体的实体描述信息分别进行拼接，得到多个候选输入文本；获取与所述候选输入文本相匹配的链接置信度；根据所述链接置信度从所述至少一个候选实体中确定出与所述目标实体相匹配的链接实体。2.根据权利要求1所述的方法，其特征在于，所述获取与所述目标文本对应的第一表征向量，并获取实体数据库中各个对象实体各自对应的第二表征向量包括：在对所述目标文本进行分词后得到的文本字符集中添加分割标识字符，以构建出第一输入字符序列；在语义编码器中对所述第一输入字符序列进行编码，得到第一表征向量集，其中，所述第一表征向量集中包括与所述第一输入字符序列中每个字符分别对应的表征向量；从所述第一表征向量集中确定出所述第一表征向量；在对每个所述对象实体的实体描述信息进行分词后得到的描述字符集中添加分割标识字符，以构建出与所述对象实体匹配的第二输入字符序列；在所述语义编码器中对所述第二输入字符序列进行编码，得到第二表征向量集，其中，所述第二表征向量集中包括与所述第二输入字符序列中每个字符分别对应的表征向量；从所述第二表征向量集中确定出所述第二表征向量。3.根据权利要求2所述的方法，其特征在于，所述在对所述目标文本进行分词后得到的文本字符集中添加分割标识字符，以构建出第一输入字符序列包括：从所述文本字符集中确定出所述目标实体中首个实体字符所在的第一位置，和所述目标实体中末尾实体字符所在的第二位置；在所述第一位置之前与所述第二位置之后分别添加第一分割字符及第二分割字符，并在所述目标文本之前添加开始分割字符，所述目标文本之后添加中止分割字符；所述在对每个所述对象实体的实体描述信息进行分词后得到的描述字符集中添加分割标识字符，以构建出与所述对象实体匹配的第二输入字符序列包括：从所述描述字符集中确定出所述对象实体中首个实体字符所在的第三位置，和所述对象实体中末尾实体字符所在的第四位置；在所述第三位置之前添加开始分割字符，并在所述第四位置之后添加字段分割字符；在所述字段分割字符之后的多个描述字段的首个字段字符各自所在的位置之后添加中止分割字符。4.根据权利要求1所述的方法，其特征在于，所述根据所述第一表征向量与各个所述第
二表征向量各自对应的匹配结果，从所述实体数据库中获取与所述目标实体相匹配的至少一个候选实体包括：对所述第一表征向量进行线性变换，得到第一降维表征向量；对各个所述第二表征向量分别进行线性变化，得到多个第二降维表征向量；依次计算所述第一降维表征向量与各个所述第二降维表征向量之间的匹配相似度，并将所述匹配相似度作为所述匹配结果；在获取到全部的匹配结果的情况下，对所述全部的匹配结果进行排序，得到匹配结果序列；从所述匹配结果序列中获取与所述目标实体相匹配的所述至少一个候选实体。5.根据权利要求2所述的方法，其特征在于，在所述获取携带有待链接的目标实体的目标文本之前，还包括：获取样本文本及与所述样本文本中所携带的实体关联的样本实体，其中，所述样本实体配置有实体标签；利用所述样本文本及所述样本实体，对初始化状态下的所述语义编码器进行训练，直至达到第一收敛条件，其中，所述第一收敛条件用于指示所述语义编码器连续N次输出的训练损失值小于第一阈值，其中，第i次输出的训练损失值用于指示第i次训练所用的样本实体配置的实体标签与第i次训练输出结果之间的差异，i为大于等于1，且小于等于N的自然数，N为自然数。6.根据权利要求5所述的方法，其特征在于，所述利用所述样本文本及所述样本实体，对初始化状态下的所述语义编码器进行训练包括：在获取到第i次输出的训练结果的情况下，从所述训练结果中确定出与所述样本文本中所携带的实体不...

【专利技术属性】
技术研发人员：杨韬，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人