实体链接方法和装置、存储介质及电子设备制造方法及图纸

技术编号:35096913 阅读:11 留言:0更新日期:2022-10-01 17:00
本发明专利技术公开了一种实体链接方法和装置、存储介质及电子设备。其中,该方法包括:获取目标文本,目标文本携带有待链接的目标实体;获取与目标文本对应的第一表征向量,并获取实体数据库中各个对象实体各自对应的第二表征向量;根据第一表征向量与各个第二表征向量进行各自匹配后的结果,从实体数据库的各个对象实体中获取与目标实体相匹配的至少一个候选实体;对目标文本与各个候选实体的实体描述信息分别进行拼接,得到多个候选输入文本;获取与候选输入文本相匹配的链接置信度;根据链接置信度从至少一个候选实体中确定出与目标实体相匹配的链接实体。本发明专利技术解决了现有实体链接方法准确率低的技术问题。法准确率低的技术问题。法准确率低的技术问题。

【技术实现步骤摘要】
实体链接方法和装置、存储介质及电子设备


[0001]本专利技术涉及计算机领域,具体而言,涉及一种实体链接方法和装置、存储介质及电子设备。

技术介绍

[0002]实体链接是自然语言处理(NPL,Natural Language Processing)里的一项基础技术,其作用是将文本里识别出的命名实体链接到知识库里的正确实体上。
[0003]例如,针对一段文本“张三从小就受父亲影响,1988年开始练习网球,1989年的时候,被网球教练夏一相中开始练网球”中的人名“张三”,知识库中存在多个与人名“张三”匹配的词条,如“张三(女子网球名将)”、“张三(青岛籍女演员)”、“张三(流行歌手)”、“张三(画家)”等。上述文本中的人名“张三”应当对应于“女子网球名将”,也就是说,需要通过实体链接技术将人名“张三”与正确的实体“张三(女子网球名将)”进行关联。
[0004]现有的实体链接方法通常是对实体进行简单的分析处理,无法确定出实体的准确语义,而基于简单的分析处理方法无法匹配得到准确的实体对象,因此存在实体链接的准确率较低的技术问题。
[0005]针对上述的问题,目前尚未提出有效的解决方案。

技术实现思路

[0006]本专利技术实施例提供了一种实体链接方法和装置、存储介质及电子设备,以至少解决现有实体链接方法准确率低的技术问题。
[0007]根据本专利技术实施例的一个方面,提供了一种实体链接方法,包括:获取目标文本,上述目标文本携带有待链接的目标实体;获取与上述目标文本对应的第一表征向量,并获取实体数据库中各个对象实体各自对应的第二表征向量,其中,上述第一表征向量用于表征上述目标文本的文本语义,上述第二表征向量用于表征上述对象实体的实体语义,上述对象实体关联有实体描述信息;根据上述第一表征向量与各个上述第二表征向量进行各自匹配后的结果,从上述实体数据库的各个对象实体中获取与上述目标实体相匹配的至少一个候选实体;对上述目标文本与各个上述候选实体的实体描述信息分别进行拼接,得到多个候选输入文本;获取与上述候选输入文本相匹配的链接置信度;根据上述链接置信度从上述至少一个候选实体中确定出与上述目标实体相匹配的链接实体。
[0008]根据本专利技术实施例的另一方面,还提供了一种实体链接装置,包括:第一获取单元,用于获取目标文本,上述目标文本携带有待链接的目标实体;第二获取单元,用于获取与上述目标文本对应的第一表征向量,并获取实体数据库中各个对象实体各自对应的第二表征向量,其中,上述第一表征向量用于表征上述目标文本的文本语义,上述第二表征向量用于表征上述对象实体的实体语义,上述对象实体关联有实体描述信息;第三获取单元,用于根据上述第一表征向量与各个上述第二表征向量进行各自匹配后的结果,从上述实体数据库的各个对象实体中获取与上述目标实体相匹配的至少一个候选实体;拼接单元,用于
对上述目标文本与各个上述候选实体的实体描述信息分别进行拼接,得到多个候选输入文本;第四获取单元,用于获取与上述候选输入文本相匹配的链接置信度;确定单元,用于根据上述链接置信度从上述至少一个候选实体中确定出与上述目标实体相匹配的链接实体。
[0009]根据本专利技术实施例的又一方面,还提供了一种计算机可读的存储介质,该计算机可读的存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述实体链接方法。
[0010]根据本申请实施例的又一个方面,提供一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行如以上实体链接方法。
[0011]根据本专利技术实施例的又一方面,还提供了一种电子设备,包括存储器和处理器,上述存储器中存储有计算机程序,上述处理器被设置为通过所述计算机程序执行上述的实体链接方法。
[0012]在本专利技术实施例中,采用获取目标文本,目标文本携带有待链接的目标实体;获取与目标文本对应的第一表征向量,并获取实体数据库中各个对象实体各自对应的第二表征向量,其中,第一表征向量用于表征目标文本的文本语义,第二表征向量用于表征对象实体的实体语义,对象实体关联有实体描述信息;根据第一表征向量与各个第二表征向量进行各自匹配后的结果,从实体数据库的各个对象实体中获取与目标实体相匹配的至少一个候选实体;对目标文本与各个候选实体的实体描述信息分别进行拼接,得到多个候选输入文本;获取与候选输入文本相匹配的链接置信度;根据链接置信度从至少一个候选实体中确定出与目标实体相匹配的链接实体的方法,通过对目标文本的表征文本语义的向量以及实体语义的向量的结合分析处理,从而得到实体和文本上下文之间的深度语义匹配特征,并基于深度特征获取匹配的链接实体,从而提升了获取链接实体的准确率,解决了现有的实体链接方法的准确率较低的技术问题。
附图说明
[0013]此处所说明的附图用来提供对本专利技术的进一步理解,构成本申请的一部分,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中:
[0014]图1是根据本专利技术实施例的一种可选的实体链接方法的硬件环境的示意图;
[0015]图2是根据本专利技术实施例的一种可选的实体链接方法的流程图;
[0016]图3是根据本专利技术实施例的一种可选的实体链接方法的示意图;
[0017]图4是根据本专利技术实施例的另一种可选的实体链接方法的示意图;
[0018]图5是根据本专利技术实施例的又一种可选的实体链接方法的示意图;
[0019]图6是根据本专利技术实施例的又一种可选的实体链接方法的示意图;
[0020]图7是根据本专利技术实施例的另一种可选的实体链接方法的流程图;
[0021]图8是根据本专利技术实施例的一种可选的实体链接装置的结构示意图;
[0022]图9是根据本专利技术实施例的一种可选的电子设备的结构示意图。
具体实施方式
[0023]为了使本
的人员更好地理解本专利技术方案,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分的实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本专利技术保护的范围。
[0024]需要说明的是,本专利技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本专利技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。...

【技术保护点】

【技术特征摘要】
1.一种实体链接方法,其特征在于,包括:获取目标文本,所述目标文本携带有待链接的目标实体;获取与所述目标文本对应的第一表征向量,并获取实体数据库中各个对象实体各自对应的第二表征向量,其中,所述第一表征向量用于表征所述目标文本的文本语义,所述第二表征向量用于表征所述对象实体的实体语义,所述对象实体关联有实体描述信息;根据所述第一表征向量与各个所述第二表征向量进行各自匹配后的结果,从所述实体数据库的各个对象实体中获取与所述目标实体相匹配的至少一个候选实体;对所述目标文本与各个所述候选实体的实体描述信息分别进行拼接,得到多个候选输入文本;获取与所述候选输入文本相匹配的链接置信度;根据所述链接置信度从所述至少一个候选实体中确定出与所述目标实体相匹配的链接实体。2.根据权利要求1所述的方法,其特征在于,所述获取与所述目标文本对应的第一表征向量,并获取实体数据库中各个对象实体各自对应的第二表征向量包括:在对所述目标文本进行分词后得到的文本字符集中添加分割标识字符,以构建出第一输入字符序列;在语义编码器中对所述第一输入字符序列进行编码,得到第一表征向量集,其中,所述第一表征向量集中包括与所述第一输入字符序列中每个字符分别对应的表征向量;从所述第一表征向量集中确定出所述第一表征向量;在对每个所述对象实体的实体描述信息进行分词后得到的描述字符集中添加分割标识字符,以构建出与所述对象实体匹配的第二输入字符序列;在所述语义编码器中对所述第二输入字符序列进行编码,得到第二表征向量集,其中,所述第二表征向量集中包括与所述第二输入字符序列中每个字符分别对应的表征向量;从所述第二表征向量集中确定出所述第二表征向量。3.根据权利要求2所述的方法,其特征在于,所述在对所述目标文本进行分词后得到的文本字符集中添加分割标识字符,以构建出第一输入字符序列包括:从所述文本字符集中确定出所述目标实体中首个实体字符所在的第一位置,和所述目标实体中末尾实体字符所在的第二位置;在所述第一位置之前与所述第二位置之后分别添加第一分割字符及第二分割字符,并在所述目标文本之前添加开始分割字符,所述目标文本之后添加中止分割字符;所述在对每个所述对象实体的实体描述信息进行分词后得到的描述字符集中添加分割标识字符,以构建出与所述对象实体匹配的第二输入字符序列包括:从所述描述字符集中确定出所述对象实体中首个实体字符所在的第三位置,和所述对象实体中末尾实体字符所在的第四位置;在所述第三位置之前添加开始分割字符,并在所述第四位置之后添加字段分割字符;在所述字段分割字符之后的多个描述字段的首个字段字符各自所在的位置之后添加中止分割字符。4.根据权利要求1所述的方法,其特征在于,所述根据所述第一表征向量与各个所述第
二表征向量各自对应的匹配结果,从所述实体数据库中获取与所述目标实体相匹配的至少一个候选实体包括:对所述第一表征向量进行线性变换,得到第一降维表征向量;对各个所述第二表征向量分别进行线性变化,得到多个第二降维表征向量;依次计算所述第一降维表征向量与各个所述第二降维表征向量之间的匹配相似度,并将所述匹配相似度作为所述匹配结果;在获取到全部的匹配结果的情况下,对所述全部的匹配结果进行排序,得到匹配结果序列;从所述匹配结果序列中获取与所述目标实体相匹配的所述至少一个候选实体。5.根据权利要求2所述的方法,其特征在于,在所述获取携带有待链接的目标实体的目标文本之前,还包括:获取样本文本及与所述样本文本中所携带的实体关联的样本实体,其中,所述样本实体配置有实体标签;利用所述样本文本及所述样本实体,对初始化状态下的所述语义编码器进行训练,直至达到第一收敛条件,其中,所述第一收敛条件用于指示所述语义编码器连续N次输出的训练损失值小于第一阈值,其中,第i次输出的训练损失值用于指示第i次训练所用的样本实体配置的实体标签与第i次训练输出结果之间的差异,i为大于等于1,且小于等于N的自然数,N为自然数。6.根据权利要求5所述的方法,其特征在于,所述利用所述样本文本及所述样本实体,对初始化状态下的所述语义编码器进行训练包括:在获取到第i次输出的训练结果的情况下,从所述训练结果中确定出与所述样本文本中所携带的实体不...

【专利技术属性】
技术研发人员:杨韬
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1