System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种知识图谱的实体对齐方法、装置、存储介质及设备制造方法及图纸_技高网

一种知识图谱的实体对齐方法、装置、存储介质及设备制造方法及图纸

技术编号:40751239 阅读:9 留言:0更新日期:2024-03-25 20:07
本申请公开了一种知识图谱的实体对齐方法、装置、存储介质及设备,该方法包括:首先根据第一知识图谱中第一知识点实体和第二知识图谱中第二知识点实体的关键词相似度,从第二知识点实体中筛选出第一知识点实体对应的候选知识点实体,然后计算第一知识点实体与候选知识点实体的文本特征向量相似度,并将高于第一相似度阈值的相似度对应的候选知识点实体与第一知识点实体构成第一对齐实体对;接着根据第一知识点实体和候选知识点实体的图特征向量,通过拉近第一对齐实体对中实体之间的距离,获取第二对齐实体对;再将剩下的候选知识点实体与第一知识点实体输入实体对齐分类模型,预测二者是否为具有包含关系的对齐实体对,以提高对齐结果的准确性。

【技术实现步骤摘要】

本申请涉及计算机,尤其涉及一种知识图谱的实体对齐方法、装置、存储介质及设备


技术介绍

1、知识图谱(knowledge graph,简称kg)技术日益成为人工智能的基础,它是机器理解自然语言和构建知识网络的重要方法。鉴于kg的有效性,各个领域都构建了大量的kg,以满足不同的任务处理需求。但是由于即使是同一领域中的不同kg的构建通常也是采用不同的数据来源,这可能导致一个kg中包含的知识点非常有限。所以为了丰富kg的内容信息,kg融合已被广泛提出,而实体对齐作为kg融合的一个必要步骤,已得到广泛的研究。

2、传统的实体对齐方法旨在不同的kg中发现相同的实体,如“用二次方程解决实际问题”和“实际问题和二次方程”就是一对等价的实体。所以,传统的实体对齐都是建立在两个kg中的绝大多数实体都是可以一对一等价映射的基础上进行的。然而目前应用较多的知识图谱通常是层次化的知识图谱,这样的教育图谱中的知识点之间仅存在上下位关系,对齐情况往往会更加复杂,如果仍采用传统的实体对齐方法将会导致对齐结果不够准确,且对齐后留下大量的冗余实体,从而降低了融合后的kg的应用有效性。


技术实现思路

1、本申请实施例的主要目的在于提供一种知识图谱的实体对齐方法、装置、存储介质及设备,能够有效提高知识图谱之间的实体对齐的准确度,进而提高融合后的kg的应用有效性。

2、本申请实施例提供了一种知识图谱的实体对齐方法,包括:

3、获取第一知识图谱中的第一知识点实体和第二知识图谱中的第二知识点实体;并根据第一知识点实体的关键词和第二知识点实体的关键词的相似度,从第二知识点实体中筛选出第一知识点实体对应的候选知识点实体;

4、计算所述第一知识点实体的文本特征向量与候选知识点实体的文本特征向量的相似度,并将得到的高于第一相似度阈值的相似度对应的候选知识点实体,与第一知识点实体构成第一对齐实体对;

5、根据第一知识点实体的图特征向量和候选知识点实体的图特征向量,通过拉近所述第一对齐实体对中两个实体之间的距离,获取第二对齐实体对;

6、将未与第一知识点实体构成第一对齐实体对或第二对齐实体对的候选知识点实体,与第一知识点实体输入至预先构建的实体对齐分类模型,预测得到二者是否为具有包含关系的对齐实体对;并利用得到的预测结果、所述第一对齐实体对和第二对齐实体对,得到所述第一知识图谱和第二知识图谱的实体对齐结果。

7、一种可能的实现方式中,所述根据第一知识点实体的关键词和第二知识点实体的关键词的相似度,从第二知识点实体中筛选出第一知识点实体对应的候选知识点实体,包括:

8、获取第一知识点实体的题目文本和第二知识点实体的题目文本,并对所述第一知识点实体的题目文本和第二知识点实体的题目文本进行分词处理,得到第一分词结果和第二分词结果;

9、利用所述第一分词结果提取与第一知识点实体相关的第一关键词;以及利用所述第二分词结果提取与第二知识点实体相关的第二关键词;

10、计算第一关键词和第二关键词的相似度,并将得到的高于第二相似度阈值的相似度对应的第二关键词相关的第二知识点实体,作为第一知识点实体对应的候选知识点实体。

11、一种可能的实现方式中,所述计算所述第一知识点实体的文本特征向量与候选知识点实体的文本特征向量的相似度,并将得到的高于第一相似度阈值的相似度对应的候选知识点实体,与第一知识点实体构成第一对齐实体对,包括:

12、获取第一知识点实体的父节点实体和候选知识点实体的候选父节点实体,并计算所述第一知识点实体的父节点实体的文本特征向量与候选父节点实体的文本特征向量的相似度;

13、计算所述第一知识点实体的文本特征向量与候选知识点实体的文本特征向量的相似度,与所述第一知识点实体的父节点实体的文本特征向量与候选父节点实体的文本特征向量的相似度的加权求和结果;并将得到的高于第一相似度阈值的加权求和结果对应的候选知识点实体,与第一知识点实体构成第一对齐实体对。

14、一种可能的实现方式中,所述根据第一知识点实体的图特征向量和候选知识点实体的图特征向量,通过拉近所述第一对齐实体对中两个实体之间的距离,获取第二对齐实体对,包括:

15、计算第一知识点实体的图特征向量和候选知识点实体的图特征向量;

16、利用所述第一知识点实体的图特征向量和候选知识点实体的图特征向量,计算第一目标损失函数的取值;并利用所述取值不断拉近所述第一对齐实体对中两个实体之间的距离,直至所述取值满足预设条件,获取到第二对齐实体对。

17、一种可能的实现方式中,所述目标损失函数位均方误差损失函数;所述第二对齐实体对中的两个实体之间相似度高于第三相似度阈值;所述第二对齐实体对中的两个实体对应的题目文本的文本特征向量之间的相似度高于第四相似度阈值。

18、一种可能的实现方式中,所述实体对齐分类模型的构建方式如下:

19、获取具有包含关系的正样本实体对和不具有包含关系的负样本实体对;

20、利用所述正样本实体对、负样本实体对和交叉熵损失函数,对初始实体对齐分类模型进行训练,得到所述实体对齐分类模型。

21、一种可能的实现方式中,所述初始实体对齐分类模型为bert二分类模型。

22、本申请实施例还提供了一种知识图谱的实体对齐装置,包括:

23、第一获取单元,用于获取第一知识图谱中的第一知识点实体和第二知识图谱中的第二知识点实体;并根据第一知识点实体的关键词和第二知识点实体的关键词的相似度,从第二知识点实体中筛选出第一知识点实体对应的候选知识点实体;

24、第一计算单元,用于计算所述第一知识点实体的文本特征向量与候选知识点实体的文本特征向量的相似度,并将得到的高于第一相似度阈值的相似度对应的候选知识点实体,与第一知识点实体构成第一对齐实体对;

25、第二获取单元,用于根据第一知识点实体的图特征向量和候选知识点实体的图特征向量,通过拉近所述第一对齐实体对中两个实体之间的距离,获取第二对齐实体对;

26、预测单元,用于将未与第一知识点实体构成第一对齐实体对或第二对齐实体对的候选知识点实体,与第一知识点实体输入至预先构建的实体对齐分类模型,预测得到二者是否为具有包含关系的对齐实体对;并利用得到的预测结果、所述第一对齐实体对和第二对齐实体对,得到所述第一知识图谱和第二知识图谱的实体对齐结果。

27、一种可能的实现方式中,所述第一获取单元包括:

28、分词子单元,用于获取第一知识点实体的题目文本和第二知识点实体的题目文本,并对所述第一知识点实体的题目文本和第二知识点实体的题目文本进行分词处理,得到第一分词结果和第二分词结果;

29、提取子单元,用于利用所述第一分词结果提取与第一知识点实体相关的第一关键词;以及利用所述第二分词结果提取与第二知识点实体相关的第二关键词;

30、第一计本文档来自技高网...

【技术保护点】

1.一种知识图谱的实体对齐方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述根据第一知识点实体的关键词和第二知识点实体的关键词的相似度,从第二知识点实体中筛选出第一知识点实体对应的候选知识点实体,包括:

3.根据权利要求1所述的方法,其特征在于,所述计算所述第一知识点实体的文本特征向量与候选知识点实体的文本特征向量的相似度,并将得到的高于第一相似度阈值的相似度对应的候选知识点实体,与第一知识点实体构成第一对齐实体对,包括:

4.根据权利要求1所述的方法,其特征在于,所述根据第一知识点实体的图特征向量和候选知识点实体的图特征向量,通过拉近所述第一对齐实体对中两个实体之间的距离,获取第二对齐实体对,包括:

5.根据权利要求4所述的方法,其特征在于,所述目标损失函数位均方误差损失函数;所述第二对齐实体对中的两个实体之间相似度高于第三相似度阈值;所述第二对齐实体对中的两个实体对应的题目文本的文本特征向量之间的相似度高于第四相似度阈值。

6.根据权利要求1所述的方法,其特征在于,所述实体对齐分类模型的构建方式如下:

7.根据权利要求6所述的方法,其特征在于,所述初始实体对齐分类模型为BERT二分类模型。

8.一种知识图谱的实体对齐装置,其特征在于,包括:

9.一种知识图谱的实体对齐设备,其特征在于,包括:处理器、存储器、系统总线;

10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备执行权利要求1-7任一项所述的方法。

...

【技术特征摘要】

1.一种知识图谱的实体对齐方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述根据第一知识点实体的关键词和第二知识点实体的关键词的相似度,从第二知识点实体中筛选出第一知识点实体对应的候选知识点实体,包括:

3.根据权利要求1所述的方法,其特征在于,所述计算所述第一知识点实体的文本特征向量与候选知识点实体的文本特征向量的相似度,并将得到的高于第一相似度阈值的相似度对应的候选知识点实体,与第一知识点实体构成第一对齐实体对,包括:

4.根据权利要求1所述的方法,其特征在于,所述根据第一知识点实体的图特征向量和候选知识点实体的图特征向量,通过拉近所述第一对齐实体对中两个实体之间的距离,获取第二对齐实体对,包括:

5.根据权利要求4所述的方法,其特征...

【专利技术属性】
技术研发人员:李直旭李安庭瞿建峰郑新李明洹
申请(专利权)人:科大讯飞苏州科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1