一种用于知识图谱的实体对齐方法、装置、介质及设备制造方法及图纸

技术编号:38328296 阅读:11 留言:0更新日期:2023-07-29 09:11
本申请涉及金融、人工智能以及数字医疗技术领域,公开了一种用于知识图谱的实体对齐方法、装置、介质及电子设备。其中方法包括:采用预设的各语义编码模型针对预先获取的目标待对齐实体的各实体属性数据进行语义编码处理,计算获得各待对齐实体分别对应的第一实体向量;对目标知识图谱中的第一目标实体与各第一实体向量进行匹配处理,得到与第一目标实体对应的若干第二实体向量;计算第一目标实体向量与各所述第二实体向量之间的相似度值,得到相似度值满足预设条件的第二目标实体;将第二目标实体与所述第一目标实体进行实体对齐处理,得到实体对齐结果。本申请中的实体对齐方法可以提高实体对齐效率、提高实体对齐准确率。提高实体对齐准确率。提高实体对齐准确率。

【技术实现步骤摘要】
一种用于知识图谱的实体对齐方法、装置、介质及设备


[0001]本专利技术涉及金融、人工智能以及数字医疗
,特别涉及一种用于知识图谱的实体对齐方法、装置、存储介质以及电子设备。

技术介绍

[0002]实体对齐作为知识图谱构建过程中的基础模块,扮演着不可或缺的角色。在多源数据融合阶段,对不同表达形式的同义实体进行对齐合并,进而补充或丰富实体的知识量。例如,在数字医疗、人工智能以及金融等
,需要对齐的实体一般来源与不同的数据库,实体对齐的好坏直接影响着知识图谱数据库的建设质量,以及后续数据库线上应用的效果。然而,传统实体对齐采用的方法是人工整理实体的标准名、别名、缩略名,然后通过精准匹配的方式进行实体对齐,这种方式虽具有较好的准确性但健壮性差。同时,人工成本高开展周期长,当大批量进行实体对齐时人工处理效率非常低。
[0003]因此,亟需一种用于知识图谱的实体对齐方法,可以有效提高实体对齐效率,节约成本。

技术实现思路

[0004]有鉴于此,本专利技术提供了一种用于知识图谱的实体对齐方法、装置、存储介质以及电子设备,主要目的在于解决目前存在的人工整理实体进行实体对齐,效率低、成本高的问题。
[0005]为解决上述问题,本申请提供一种用于知识图谱的实体对齐方法,包括:
[0006]采用预设的各语义编码模型针对预先获取的目标待对齐实体的各实体属性数据进行语义编码处理,计算获得各待对齐实体分别对应的第一实体向量;
[0007]对目标知识图谱中的第一目标实体与各所述第一实体向量进行匹配处理,得到与所述第一目标实体对应的若干第二实体向量;
[0008]计算第一目标实体向量与各所述第二实体向量之间的相似度值,得到相似度值满足预设条件的第二目标实体,所述第一目标实体向量是采用预设的各语义编码模型针对第一目标实体中的各子实体的属性数据进行语义编码处理,计算得到的;
[0009]将所述第二目标实体与所述第一目标实体进行实体对齐处理,得到实体对齐结果。
[0010]可选的,所述采用预设的各语义编码模型针对预先获取的目标待对齐实体的各实体属性数据进行语义编码处理,计算获得各待对齐实体分别对应的第一实体向量,包括:
[0011]采用预设的各语义编码模型针对预先获取的目标待对齐实体的各实体属性数据进行语义编码处理,得到与各待对齐实体分别对应的各第一语义编码属性向量;
[0012]基于各所述第一语义编码属性向量,计算得到各所述待对齐实体的第一实体向量。
[0013]可选的,所述采用预设的各语义编码模型针对预先获取的目标待对齐实体的各实
体属性数据进行语义编码处理,得到与各待对齐实体分别对应的各第一语义编码属性向量,包括:
[0014]采用预设的语言表征模型对各待对齐实体的、实体属性数据为文本类型数据进行语义编码处理,得到与各所述待对齐实体对应的文本语义编码属性向量;
[0015]采用预设的多层感知机模型对各待对齐实体的、实体属性数据为类别类型数据以及数值类型数据进行语义编码处理,得到与各所述待对齐实体对应的类别语义编码属性向量以及数值语义编码属性向量;
[0016]采用预设算法模型对各待对齐实体的、实体属性数据为图像类型数据进行语义编码处理,得到与各所述待对齐实体对应的图像语义编码属性向量;
[0017]其中,所述第一语义编码属性向量包括各所述文本语义编码属性向量、各所述类别语义编码属性向量、各所述数值语义编码属性向量以及各所述图像语义编码属性向量。
[0018]可选的,所述基于各所述第一语义编码属性向量,计算得到各所述待对齐实体的第一实体向量,包括:
[0019]将目标待对齐实体的文本语义编码属性向量作为基础向量,分别计算目标待对齐实体对应的类别语义编码属性向量、数值语义编码属性向量、图像语义编码属性向量与所述文本语义编码属性向量的注意力,得到目标待对齐实体对应的各注意力向量;
[0020]基于目标待对齐实体的文本语义编码属性向量和各所述注意力向量计算得到各所述待对齐实体的第一实体向量。
[0021]可选的,所述对目标知识图谱中的第一目标实体与各所述第一实体向量进行匹配处理,得到与所述第一目标实体对应的若干第二实体向量,包括:
[0022]确定第一目标实体的各子实体对应的第二语义编码属性向量;
[0023]基于各所述第二语义编码属性向量分别对第一目标实体和各第一实体向量进行匹配处理,获得与所述第一目标实体对应的初始实体向量集;
[0024]对各所述初始实体向量集中的各第一实体向量进行筛选处理,得到与所述第一目标实体对应的若干所述第二实体向量。
[0025]可选的,所述基于各所述第二语义编码属性向量分别对第一目标实体和各第一实体向量进行匹配处理,获得与所述第一目标实体对应的初始实体向量集,包括:
[0026]基于第一目标实体的各子实体所对应的第二语义编码属性向量,分别对第一目标实体和各第一实体向量进行匹配处理,得到若干子向量集;
[0027]基于各所述子向量集构建所述初始实体向量集。
[0028]可选的,计算第一目标实体向量与各所述第二实体向量之间的相似度值,得到相似度值满足预设条件的第二目标实体,包括:
[0029]基于各第二语义编码属性向量,生成第一目标实体对应的第一目标实体向量;
[0030]分别计算第一目标实体向量与各所述第二实体向量的相似度值;
[0031]将满足预设条件的相似度值确定为目标相似度值;
[0032]将计算所述目标相似度值的第二实体向量对应的待对齐实体确定为第二目标实体。
[0033]为解决上述问题,本申请提供一种实体对齐装置,包括:
[0034]语义编码处理模块:用于采用预设的各语义编码模型针对预先获取的目标待对齐
实体的各实体属性数据进行语义编码处理,计算获得各待对齐实体分别对应的第一实体向量;
[0035]匹配模块:用于对目标知识图谱中的第一目标实体与各所述第一实体向量进行匹配处理,得到与所述第一目标实体对应的若干第二实体向量;
[0036]计算模块:用于计算所述第一目标实体向量与各所述第二实体向量之间的相似度值,得到相似度值满足预设条件的第二目标实体,,所述第一目标实体向量是采用预设的各语义编码模型针对第一目标实体中的各子实体的属性数据进行语义编码处理,计算得到的;
[0037]对齐模块:用于将所述第二目标实体与所述第一目标实体进行实体对齐处理,得到实体对齐结果。
[0038]为解决上述问题,本申请提供一种存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述所述用于知识图谱的实体对齐方法的步骤。
[0039]为解决上述问题,本申请提供一种电子设备,至少包括存储器、处理器,所述存储器上存储有计算机程序,所述处理器在执行所述存储器上的计算机程序时实现上述所述用于知识图谱的实体对齐方法的步骤。
[0040]本本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于知识图谱的实体对齐方法,其特征在于,包括:采用预设的各语义编码模型针对预先获取的目标待对齐实体的各实体属性数据进行语义编码处理,计算获得各待对齐实体分别对应的第一实体向量;对目标知识图谱中的第一目标实体与各所述第一实体向量进行匹配处理,得到与所述第一目标实体对应的若干第二实体向量;计算第一目标实体向量与各所述第二实体向量之间的相似度值,得到相似度值满足预设条件的第二目标实体,所述第一目标实体向量是采用预设的各语义编码模型针对第一目标实体中的各子实体的属性数据进行语义编码处理,计算得到的;将所述第二目标实体与所述第一目标实体进行实体对齐处理,得到实体对齐结果。2.如权利要求1所述的方法,其特征在于,所述采用预设的各语义编码模型针对预先获取的目标待对齐实体的各实体属性数据进行语义编码处理,计算获得各待对齐实体分别对应的第一实体向量,包括:采用预设的各语义编码模型针对预先获取的目标待对齐实体的各实体属性数据进行语义编码处理,得到与各待对齐实体分别对应的各第一语义编码属性向量;基于各所述第一语义编码属性向量,计算得到各所述待对齐实体的第一实体向量。3.如权利要求2所述的方法,其特征在于,所述采用预设的各语义编码模型针对预先获取的目标待对齐实体的各实体属性数据进行语义编码处理,得到与各待对齐实体分别对应的各第一语义编码属性向量,包括:采用预设的语言表征模型对各待对齐实体的、实体属性数据为文本类型数据进行语义编码处理,得到与各所述待对齐实体对应的文本语义编码属性向量;采用预设的多层感知机模型对各待对齐实体的、实体属性数据为类别类型数据以及数值类型数据进行语义编码处理,得到与各所述待对齐实体对应的类别语义编码属性向量以及数值语义编码属性向量;采用预设算法模型对各待对齐实体的、实体属性数据为图像类型数据进行语义编码处理,得到与各所述待对齐实体对应的图像语义编码属性向量;其中,所述第一语义编码属性向量包括各所述文本语义编码属性向量、各所述类别语义编码属性向量、各所述数值语义编码属性向量以及各所述图像语义编码属性向量。4.如权利要求2所述的方法,其特征在于,所述基于各所述第一语义编码属性向量,计算得到各所述待对齐实体的第一实体向量,包括:将目标待对齐实体的文本语义编码属性向量作为基础向量,分别计算目标待对齐实体对应的类别语义编码属性向量、数值语义编码属性向量、图像语义编码属性向量与所述文本语义编码属性向量的注意力,得到目标待对齐实体对应的各注意力向量;基于各待对齐实体对应的文本语义编码属性向量和各所述注意力向量计算得到各所述待对齐实体的第一实体向量。5.如权利要求1所述的方...

【专利技术属性】
技术研发人员:付桂振
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1