System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于双重剪枝渐进关系图神经网络的知识图谱补全方法技术_技高网

基于双重剪枝渐进关系图神经网络的知识图谱补全方法技术

技术编号:43336497 阅读:1 留言:0更新日期:2024-11-15 20:32
本发明专利技术公开了一种基于双重剪枝渐进关系图神经网络的知识图谱补全方法,包括:S1:构建数据集;S2:将查询实体作为传播实体集导入进行查询,获取候选边集,在后续的迭代过程中,获取S6中的第二传播实体集作为新的传播实体集;S3:预剪枝模块对S2的候选边集进行剪枝筛选,获取预剪枝候选集;S4:对S3的预剪枝候选集进行消息传递和消息聚合,获取消息实体嵌入表示;S5:后剪枝模块对S4的候选边集进行进一步剪枝筛选,获取后剪枝实体嵌入表示和第二传播实体集;S6:判断是否到达最大迭代次数。通过预剪枝策略,识别并消除了在图神经网络传播过程中可能导致重复计算的冗余路径,从而显著降低了计算资源的消耗。

【技术实现步骤摘要】

本专利技术属于计算机领域,具体涉及基于双重剪枝渐进关系图神经网络的知识图谱补全方法


技术介绍

1、知识图谱是一种以图结构形式表示实体及其之间关系的知识表示方法,广泛应用于推荐系统、搜索引擎、智能问答等领域。为了进行推理、归纳、决策甚至创作等认知任务,机器需要拥有一个知识丰富的“大脑”。知识图谱,作为目前主流的知识库应用形式,与早期的知识系统相比,知识图谱在表示维度上从文本扩展到图,有效解决了知识框架的复杂性和文本推理效果不佳的问题。知识图谱以有向标记图为基本的知识表达形式,在资源描述框架(rdf)中,知识图谱使用实体表示事物或概念,关系表示事物或概念间的联系。因此,世界上万事万物之间的复杂联系都被分解并以事实三元组的形式表示,进一步地,将实体抽象为节点,关系抽象为边,将所有事实三元组连接起来,就形成了知识图谱。

2、知识图谱包含了大量的实体,并且这些实体之间的联系网络既复杂又多样。尽管知识图谱在功能上非常强大,并且已经为许多人工智能领域的工作提供了强大的数据支持,但在分析其具体实例时,我们会发现两个实体之间应有的某些关系在知识图谱上是不存在的。例如,通过维基百科构建的通用百科知识图谱,尽管它在规模上具有优势,但在个人信息的完整性方面仍然存在不足。知识图谱的不完整性会对其支持的应用的效果产生影响,它的不完整性主要源于两个方面:一是知识图谱的数据来源于大量的网页信息,而这些信息本身可能就不完整;二是从非结构化文本信息中抽取实体和关系的算法,其表现并不稳定。在构建知识图谱的过程中,很难覆盖到所有的实体关系,这就需要对知识图谱进行补全。补全任务通过借助外部语料库,补充外部知识来完善知识库。然而,并非每个知识库都能找到适合的外部语料库进行补全,这种方案的实施较为困难。目前,较为普遍的补全方案是通过学习知识库自身的结构信息,通过相似度计算来发现缺失的信息,并实现自我补全。

3、现有的知识图谱补全方法面临着多方面的挑战和限制。传统规则方法虽然在逻辑推理和统计分析方面具有一定的优势,但它们在处理大规模知识图谱时往往力不从心,因为这些方法很难适应知识图谱的动态性和复杂性。转移距离方法通过嵌入向量来捕捉知识图谱的结构,为预测和补全提供了一种新的思路,然而,当知识图谱实时更新和扩展时,这些方法的适用性就会受到限制,因为它们可能无法及时适应知识图谱的变化。

4、神经网络方法利用深度学习的强大能力来学习和泛化知识图谱中的关系和路径,这在一定程度上提高了补全的准确性。但是,由于图结构数据构建的不足,这些方法在处理复杂的图结构时可能会遇到瓶颈。此外,一些神经网络方法在传播过程中可能无法深入挖掘深层的语义信息,导致模型的泛化能力和预测精度受限。

5、图神经网络方法通过有效建模知识图谱的拓扑结构和属性特征,在处理图结构数据方面显示出了其独特的优势。然而,这些方法也存在一些问题,如传播层数不深,无法充分挖掘知识图谱中的深层语义信息,或者在传播过程中涉及了大量无效和冗余的路径,这不仅增加了计算的复杂度,也影响了模型的性能和效率。

6、为了解决这些问题,需要开发更为先进的知识图谱补全方法,这些方法应该能够适应知识图谱的动态性,深入挖掘和利用知识图谱中的深层语义信息,并有效避免无效和冗余的传播路径。通过引入更复杂的模型架构、优化传播机制、以及采用更高效的计算策略,进一步提升知识图谱补全的准确性和效率,从而更好地服务于知识发现、信息检索和智能推荐等应用场景。


技术实现思路

1、为解决上述问题,本专利技术提出基于双重剪枝渐进关系图神经网络的知识图谱补全方法。

2、一种基于双重剪枝渐进关系图神经网络的知识图谱补全方法,包括以下步骤:

3、步骤s1:构建数据集,数据集包括知识图谱,将数据集划分为训练集、验证集和测试集,对训练集和验证集进行预处理,增加反向关系和自反关系;

4、步骤s2:构建查询三元组并形式化补全任务;其中查询三元组包括查询实体、关系实体和目标实体;

5、构建知识图谱补全模型;

6、知识图谱补全模型将查询实体作为传播实体集导入步骤s1中的知识图谱进行查询,获取包含传播实体集作为头实体的邻域三元组集合为候选边集,在后续的迭代过程中,获取步骤s5中的新增的传播实体集作为新的传播实体集;表示为

7、;

8、;

9、其中,为候选边集,为在知识图谱三元组中头实体包含的边集;表示后剪枝模块进一步剪枝筛选的操作,表示新增的传播实体集,表示传播实体集;

10、步骤s3:知识图谱补全模型的预剪枝模块对步骤s2的候选边集进行剪枝筛选,获取预剪枝候选集;

11、步骤s4:知识图谱补全模型的图卷积网络对步骤s3的预剪枝候选集进行消息传递和消息聚合,获取消息实体嵌入表示;

12、步骤s5:知识图谱补全模型的后剪枝模块对步骤s4的消息实体嵌入表示进行进一步剪枝筛选,获取后剪枝实体嵌入表示和新增的传播实体集;

13、步骤s6:判断是否到达最大迭代次数,若是,获取对应的后剪枝实体嵌入表示,并获取对应的传播实体集,若否,则继续进行步骤s2~s5;

14、在训练过程中,达到最大迭代次数后,构建打分函数对应的传播实体集的子集实体进行打分评估来获取目标实体,并进一步构建交叉熵损失函数,通过最小化交叉熵损失函数来优化模型。

15、进一步的,步骤s2中的构建查询三元组并形式化补全任务,具体为:

16、给定知识图谱,其中,表示的是知识图谱中的实体集合,表示的是关系集合,是事实三元组集合,即,三元组分别代表着头实体,关系实体和尾实体;

17、在此基础上,给定查询三元组;

18、其中,是查询实体,为查询关系并且为目标实体,和为实体集合中的实体,属于关系集合;

19、在知识图谱中预测与查询实体对应的目标实体。

20、进一步的,步骤s3具体为:

21、在传播过程中,为了防止传播的冗余,在进行传播之前对知识图谱的边集进行预剪枝策略,去除反复传播的边,从而筛选出候选边集,表示为:

22、;

23、其中,表示预剪枝候选边集,为候选边集,表示三元组,即候选边集的子集;为距离函数,计算三元组的尾实体与查询实体之间的距离,保留距离大于等于的三元组作为预剪枝策略后的边集,表示预设的距离参数。

24、进一步的,步骤s4包括:

25、利用图卷积神经网络将节点的局部特征通过边的连接进行传播,从而整合更多节点的信息,提高推理的准确性和泛化能力,对于候选边集,需要计算消息传递函数,并使用聚合函数更新传播实体的嵌入表示;

26、步骤s4具体为:

27、步骤s41:消息传递:为了捕获图的结构信息,学习实体间的连接关系,将不同实体的关系信息整合到每个实体的表示中;通过转移距离的知识图谱补全方法,对于预剪枝候选边集,对其使用rotate消息传递函数;

28、本文档来自技高网...

【技术保护点】

1.一种基于双重剪枝渐进关系图神经网络的知识图谱补全方法,其特征在于,包括以下步骤:

2.如权利要求1所述的一种基于双重剪枝渐进关系图神经网络的知识图谱补全方法,其特征在于,步骤S2中的构建查询三元组并形式化补全任务,具体为:

3.如权利要求2所述的一种基于双重剪枝渐进关系图神经网络的知识图谱补全方法,其特征在于,步骤S3具体为:

4.如权利要求3所述的一种基于双重剪枝渐进关系图神经网络的知识图谱补全方法,其特征在于,步骤S4包括:

5.如权利要求4所述的一种基于双重剪枝渐进关系图神经网络的知识图谱补全方法,其特征在于,步骤S5包括:

6.如权利要求5所述的一种基于双重剪枝渐进关系图神经网络的知识图谱补全方法,其特征在于,步骤S6中具体为:

【技术特征摘要】

1.一种基于双重剪枝渐进关系图神经网络的知识图谱补全方法,其特征在于,包括以下步骤:

2.如权利要求1所述的一种基于双重剪枝渐进关系图神经网络的知识图谱补全方法,其特征在于,步骤s2中的构建查询三元组并形式化补全任务,具体为:

3.如权利要求2所述的一种基于双重剪枝渐进关系图神经网络的知识图谱补全方法,其特征在于,步骤s3具体为...

【专利技术属性】
技术研发人员:万中英刘祥棋陈开阳邓正正梁佳美罗文兵王明文
申请(专利权)人:江西师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1