一种基于多智能体强化学习的知识图谱多跳推理方法技术

技术编号:37081596 阅读:16 留言:0更新日期:2023-03-29 19:57
本发明专利技术公开了一种基于多智能体强化学习的知识图谱多跳推理方法,针对知识图谱推理过程中存在的长路径推理性能差、只注重关系选择而忽略实体选择重要性和未能充分利用实体、关系多重语义的问题。该发明专利技术含有以下步骤,将知识图谱作为智能体感知的环境,并对知识图谱进行预处理;设计强化学习算法中用于训练智能体的网络结构;初始化所有智能体的状态信息和算法参数;将预处理的知识图谱作为智能体的环境,利用强化学习算法使智能体与环境交互进行迭代学习,得到训练完成的策略网络;使用训练完成的策略网络对待处理的知识图谱进行推理预测。本技术能够克服实体或关系的多重语义带来的语义歧义问题,从而提高智能体路径推理的准确性。准确性。准确性。

【技术实现步骤摘要】
一种基于多智能体强化学习的知识图谱多跳推理方法


[0001]本专利技术涉及机器学习
,特别是涉及一种基于多智能体强化学习的知识图谱多跳推理方法。

技术介绍

[0002]知识图谱是一种以图模型的形式来描述各类概念、实体及其关系的结构化语义知识库。具体来说,知识图谱定义为由节点和边组成的有向图,常表示为事实三元组(头实体、关系、尾实体)的形式,实体(头实体、尾实体)对应图上的节点,实体间的关联关系对应图上节点间的连边。随着知识图谱研究和应用的深入,知识图谱被广泛应用于不同的下游任务,如问答系统、信息检索和推荐系统等。然而,由于构建知识图谱的原始实体和关系数据的规模有限,存在隐含的知识无法获取、提取的知识含有大量重复信息等问题,导致构建的知识图谱不完整,这对应用知识图谱的下游任务带来了很多障碍,限制了知识图谱应用的进一步发展。知识图谱推理,即基于知识图谱的知识推理作为解决上述问题的重要方法,引起了研究学者的广泛关注。知识图谱推理方法旨在根据知识图谱中已有的三元组(知识)推理出新的三元组或者检测错误三元组,以完全知识图谱的补全或去噪等。知识图谱推理主要包括链接预测和事实预测任务,链接预测指三元组的实体或关系缺失的情形下,推理出具有一定可信度的实体或关系,事实预测则是判断三元组正确与否。
[0003]现有知识图谱推理方法主要包括基于逻辑的推理、基于嵌入表示学习的推理和基于路径的推理。以ProPPR、NeuralLP等为代表的基于逻辑的推理方法通过一阶谓词逻辑、描述逻辑或者数字逻辑规则等生成推理规则,并根据知识图谱中已有的三元组推理出新的三元组。该类方法虽然推理准确度较高,但是推理规则获取难度大、推理能力受到限制、难以应用到大型知识图谱中。以TransE、TransR等为代表的基于嵌入表示学习的推理方法将知识图谱中的实体和关系映射到低维向量空间,然后根据实体、关系的低维向量表示计算知识图谱中三元组的合理性。该类方法虽然计算效率高,但是没有充分利用知识图谱中关系路径的信息,并且由于嵌入表示方法的黑盒特性,导致推理结果缺乏可解释性。以PRA、DeepPath为代表的基于路径的推理方法将关系路径作为特征,在知识图谱上进行随机游走来执行深度优先搜索过程,从而查询相关的推理路径。该方法在得到推理结果的同时,也可以给出具体的推理路径。其中,基于强化学习的方法是该类方法的主流研究方向之一,其将知识图谱推理过程建模为序列决策问题,通过对知识图谱中关系和实体进行推理来完成知识图谱补全。
[0004]然而,现有基于强化学习的推理方法存在如下缺陷:1.在进行路径推理时,现有单智能体路径推理模型的性能严重依赖于推理路径的长度,随着推理路径长度的增加,模型搜索路径的效率降低、推理性能急剧下降,这限制了模型在较长推理路径的使用;2.由于知识图谱中的实体和关系具有不同的性质,在路径推理时实体路径和关系路径的重要性也不相同。但是现有单智能体路径推理模型将智能体的动作选择视为关系或关系

实体对选择,其只注重关系选择而忽略实体选择的重要性,导致在面对1

N/N

N关系、实体选择的情况时
出现随机选择实体的问题;3.知识图谱中的实体或关系具有不同的含义,同一实体面对不同的查询关系时,实体邻居关系的侧重程度也不相同,而现有推理模型没有挖掘实体或关系的多重语义,在进行路径推理时会积累语义歧义,导致推理性能的下降。因此需要从技术上解决上述的基于强化学习知识图谱推理模型存在的问题。

技术实现思路

[0005]本专利技术针对知识图谱推理过程中存在的长路径推理性能差、只注重关系选择而忽略实体选择重要性和未能充分利用实体、关系多重语义的问题,提供了一种使知识图谱推理性能更高、实体选择更合理的基于多智能体强化学习的知识图谱多跳推理方法。
[0006]本专利技术的技术解决方案是,提供一种具有以下步骤的基于多智能体强化学习的知识图谱多跳推理方法:含有以下步骤,
[0007]步骤一、将知识图谱作为智能体感知的环境,并对知识图谱进行预处理;
[0008]步骤二、设计强化学习算法中用于训练智能体的网络结构;
[0009]步骤三、初始化所有智能体的状态信息和算法参数;
[0010]步骤四、将预处理的知识图谱作为智能体的环境,利用强化学习算法使智能体与环境交互进行迭代学习,得到训练完成的策略网络;
[0011]步骤五、使用训练完成的策略网络对待处理的知识图谱进行推理预测。
[0012]优选地,所述步骤一包含以下分步骤:
[0013]步骤1.1、将给定的知识图谱作为智能体感知的环境,并将知识图谱表示为有向图步骤1.1、将给定的知识图谱作为智能体感知的环境,并将知识图谱表示为有向图其中ε是实体集合,是关系集合;知识图谱中的每个有向连接表示一个元组集合其中e
source
是源实体,r是查询关系,e
target
是目标实体;将知识图谱所有元组集合中关系的逆关系所对应的元组集合添加到知识图谱中,即元组集合知识图谱中,即元组集合中关系r的逆关系r
‑1对应的元组集合为
[0014]步骤1.2、使用embedding模型初始化知识图谱的实体集合和关系集合,将知识图谱的实体和关系表示成维度为embedding_size的向量;
[0015]步骤1.3、使用K

Means算法对知识图谱的实体embedding向量进行聚类处理,将知识图谱划分为个节点集群;然后基于划分后的节点集群构建簇连通图θ
cluster
,将每个节点集群作为簇节点,若两个簇节点间存在实体连接关系,则将两个簇节点按照实体间关系指向进行有向连接。
[0016]优选地,所述步骤二包含以下分步骤:
[0017]步骤2.1、使用一个长短期记忆网络编码高层智能体和两个低层智能体的历史搜索路径,如关系智能体和实体智能体,其中高层智能体的历史搜索路径为低层智能体的历史搜索路径为在长短期记忆网络中,将编码后的高层智能体和低层智能体的历史路径信息级联,得到联合历史路径信息表示并结合各智能体选择的动作向量计算得到各智能体的隐藏状态向量;高层智能体和低层智能体彼此共享历史搜索路径信息,增强各自的状态表示;
[0018]步骤2.2、使用单层前馈神经网络和SoftMax函数作为注意力机制,计算低层智能体的当前位置实体与邻接实体的注意力向量;
[0019]步骤2.3、高层智能体、关系智能体和实体智能体的策略网络为三个独立的具有ReLU非线性激活函数的两层前馈神经网络和使用智能体的策略网络计算智能体动作空间中所有动作的概率分布,进而根据动作概率分布选取智能体的下一个动作。
[0020]优选地,所述步骤三包含以下分步骤:
[0021]步骤3.1、初始化智能体的状态信息,包括初始化源实体节点e
source
和源簇节点c
source
、查询关系r
q
、目标实体节本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多智能体强化学习的知识图谱多跳推理方法,其特征在于:含有以下步骤,步骤一、将知识图谱作为智能体感知的环境,并对知识图谱进行预处理;步骤二、设计强化学习算法中用于训练智能体的网络结构;步骤三、初始化所有智能体的状态信息和算法参数;步骤四、将预处理的知识图谱作为智能体的环境,利用强化学习算法使智能体与环境交互进行迭代学习,得到训练完成的策略网络;步骤五、使用训练完成的策略网络对待处理的知识图谱进行推理预测。2.根据权利要求1所述的基于多智能体强化学习的知识图谱多跳推理方法,其特征在于:所述步骤一包含以下分步骤:步骤1.1、将给定的知识图谱作为智能体感知的环境,并将知识图谱表示为有向图步骤1.1、将给定的知识图谱作为智能体感知的环境,并将知识图谱表示为有向图其中ε是实体集合,是关系集合;知识图谱中的每个有向连接表示一个元组集合其中e
source
是源实体,r是查询关系,e
target
是目标实体;将知识图谱所有元组集合中关系的逆关系所对应的元组集合添加到知识图谱中,即元组集合识图谱中,即元组集合中关系r的逆关系r

1对应的元组集合为步骤1.2、使用embedding模型初始化知识图谱的实体集合和关系集合,将知识图谱的实体和关系表示成维度为embedding_size的向量;步骤1.3、使用K

Means算法对知识图谱的实体embedding向量进行聚类处理,将知识图谱划分为个节点集群;然后基于划分后的节点集群构建簇连通图将每个节点集群作为簇节点,若两个簇节点间存在实体连接关系,则将两个簇节点按照实体间关系指向进行有向连接。3.根据权利要求1所述的基于多智能体强化学习的知识图谱多跳推理方法,其特征在于:所述步骤二包含以下分步骤:步骤2.1、使用一个长短期记忆网络编码高层智能体和两个低层智能体的历史搜索路径,如关系智能体和实体智能体,其中高层智能体的历史搜索路径为低层智能体的历史搜索路径为在长短期记忆网络中,将编码后的高层智能体和低层智能体的历史路径信息级联,得到联合历史路径信息表示并结合各智能体选择的动作向量计算得到各智能体的隐藏状态向量;高层智能体和低层智能体彼此共享历史搜索路径信息,增强各自的状态表示;步骤2.2、使用单层前馈神经网络和SoftMax函数作为注意力机制,计算低层智能体的当前位置实体与邻接实体的注意力向量;步骤2.3、高层智能体、关系智能体和实体智能体的策略网络为三个独立的具有ReLU非线性激活函数的两层前馈神经网络和使用智能体的策略网络计算智能体动作空间中所有动作的概率分布,进而根据动作概率分布选取智能体的下一个动作。4.根据权利要求1所述的基于多智能体强化学习的知识图谱多跳推理方法,其特征在于:所述步骤三包含以下分步骤:
步骤3.1、初始化智能体的状态信息,包括初始化源实体节点e
source
和源簇节点c
source
、查询关系r
q
、目标实体节点e
target
和目标簇节点c
target
,高层智能体从源簇节点c
source
出发,使用策略网络在邻接簇节点中选择簇作为下一个动作,直到到达目标簇节点c
target
或者跳转至设定的最大步长时停止搜索,对于低层智能体,关系智能体和实体智能体从源实体节点e
source
出发,交替使用关系智能体的策略网络和实体智能体的策略网络选择关系和实体,直到到达目标实体节点e
target
或者跳转至设定的最大步长时停止搜索;步骤3.2、初始化算法参数,包括强化学习算法训练总轮数P、智能体迭代搜索的最大步长T、强化学习算法训练的学习率learning_rate、熵正则化常数β、移动平均常数η、实体和关系的嵌入向量大小embedding_size、长短期记忆网络隐藏层大小hidden_size、训练样本的批次大小batch_size、测试阶段波束搜索的大小beam_size。5.根据权利要求1所述的基于多智能体强化学习的知识图谱多跳推理方法,其特征在于:所述步骤四包含以下分步骤:步骤4.1、高层智能体根据当前时刻的状态...

【专利技术属性】
技术研发人员:黄刚王丹李波俞再亮
申请(专利权)人:西安电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1