【技术实现步骤摘要】
一种基于多智能体强化学习的知识图谱多跳推理方法
[0001]本专利技术涉及机器学习
,特别是涉及一种基于多智能体强化学习的知识图谱多跳推理方法。
技术介绍
[0002]知识图谱是一种以图模型的形式来描述各类概念、实体及其关系的结构化语义知识库。具体来说,知识图谱定义为由节点和边组成的有向图,常表示为事实三元组(头实体、关系、尾实体)的形式,实体(头实体、尾实体)对应图上的节点,实体间的关联关系对应图上节点间的连边。随着知识图谱研究和应用的深入,知识图谱被广泛应用于不同的下游任务,如问答系统、信息检索和推荐系统等。然而,由于构建知识图谱的原始实体和关系数据的规模有限,存在隐含的知识无法获取、提取的知识含有大量重复信息等问题,导致构建的知识图谱不完整,这对应用知识图谱的下游任务带来了很多障碍,限制了知识图谱应用的进一步发展。知识图谱推理,即基于知识图谱的知识推理作为解决上述问题的重要方法,引起了研究学者的广泛关注。知识图谱推理方法旨在根据知识图谱中已有的三元组(知识)推理出新的三元组或者检测错误三元组,以完全知识图谱的补全或去噪等。知识图谱推理主要包括链接预测和事实预测任务,链接预测指三元组的实体或关系缺失的情形下,推理出具有一定可信度的实体或关系,事实预测则是判断三元组正确与否。
[0003]现有知识图谱推理方法主要包括基于逻辑的推理、基于嵌入表示学习的推理和基于路径的推理。以ProPPR、NeuralLP等为代表的基于逻辑的推理方法通过一阶谓词逻辑、描述逻辑或者数字逻辑规则等生成推理规则,并根据知识图谱 ...
【技术保护点】
【技术特征摘要】
1.一种基于多智能体强化学习的知识图谱多跳推理方法,其特征在于:含有以下步骤,步骤一、将知识图谱作为智能体感知的环境,并对知识图谱进行预处理;步骤二、设计强化学习算法中用于训练智能体的网络结构;步骤三、初始化所有智能体的状态信息和算法参数;步骤四、将预处理的知识图谱作为智能体的环境,利用强化学习算法使智能体与环境交互进行迭代学习,得到训练完成的策略网络;步骤五、使用训练完成的策略网络对待处理的知识图谱进行推理预测。2.根据权利要求1所述的基于多智能体强化学习的知识图谱多跳推理方法,其特征在于:所述步骤一包含以下分步骤:步骤1.1、将给定的知识图谱作为智能体感知的环境,并将知识图谱表示为有向图步骤1.1、将给定的知识图谱作为智能体感知的环境,并将知识图谱表示为有向图其中ε是实体集合,是关系集合;知识图谱中的每个有向连接表示一个元组集合其中e
source
是源实体,r是查询关系,e
target
是目标实体;将知识图谱所有元组集合中关系的逆关系所对应的元组集合添加到知识图谱中,即元组集合识图谱中,即元组集合中关系r的逆关系r
‑
1对应的元组集合为步骤1.2、使用embedding模型初始化知识图谱的实体集合和关系集合,将知识图谱的实体和关系表示成维度为embedding_size的向量;步骤1.3、使用K
‑
Means算法对知识图谱的实体embedding向量进行聚类处理,将知识图谱划分为个节点集群;然后基于划分后的节点集群构建簇连通图将每个节点集群作为簇节点,若两个簇节点间存在实体连接关系,则将两个簇节点按照实体间关系指向进行有向连接。3.根据权利要求1所述的基于多智能体强化学习的知识图谱多跳推理方法,其特征在于:所述步骤二包含以下分步骤:步骤2.1、使用一个长短期记忆网络编码高层智能体和两个低层智能体的历史搜索路径,如关系智能体和实体智能体,其中高层智能体的历史搜索路径为低层智能体的历史搜索路径为在长短期记忆网络中,将编码后的高层智能体和低层智能体的历史路径信息级联,得到联合历史路径信息表示并结合各智能体选择的动作向量计算得到各智能体的隐藏状态向量;高层智能体和低层智能体彼此共享历史搜索路径信息,增强各自的状态表示;步骤2.2、使用单层前馈神经网络和SoftMax函数作为注意力机制,计算低层智能体的当前位置实体与邻接实体的注意力向量;步骤2.3、高层智能体、关系智能体和实体智能体的策略网络为三个独立的具有ReLU非线性激活函数的两层前馈神经网络和使用智能体的策略网络计算智能体动作空间中所有动作的概率分布,进而根据动作概率分布选取智能体的下一个动作。4.根据权利要求1所述的基于多智能体强化学习的知识图谱多跳推理方法,其特征在于:所述步骤三包含以下分步骤:
步骤3.1、初始化智能体的状态信息,包括初始化源实体节点e
source
和源簇节点c
source
、查询关系r
q
、目标实体节点e
target
和目标簇节点c
target
,高层智能体从源簇节点c
source
出发,使用策略网络在邻接簇节点中选择簇作为下一个动作,直到到达目标簇节点c
target
或者跳转至设定的最大步长时停止搜索,对于低层智能体,关系智能体和实体智能体从源实体节点e
source
出发,交替使用关系智能体的策略网络和实体智能体的策略网络选择关系和实体,直到到达目标实体节点e
target
或者跳转至设定的最大步长时停止搜索;步骤3.2、初始化算法参数,包括强化学习算法训练总轮数P、智能体迭代搜索的最大步长T、强化学习算法训练的学习率learning_rate、熵正则化常数β、移动平均常数η、实体和关系的嵌入向量大小embedding_size、长短期记忆网络隐藏层大小hidden_size、训练样本的批次大小batch_size、测试阶段波束搜索的大小beam_size。5.根据权利要求1所述的基于多智能体强化学习的知识图谱多跳推理方法,其特征在于:所述步骤四包含以下分步骤:步骤4.1、高层智能体根据当前时刻的状态...
【专利技术属性】
技术研发人员:黄刚,王丹,李波,俞再亮,
申请(专利权)人:西安电子科技大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。