基于图卷积神经网络的强化学习知识图谱推理方法及装置制造方法及图纸

技术编号：25396742 阅读：175 留言：0更新日期：2020-08-25 23:01

本发明专利技术公开了基于图卷积神经网络的强化学习知识图谱推理方法及装置，该方法包括：基于深度时间序列模型和图卷积神经网络模型对历史路径及其上实体的多跳邻域信息进行表示，作为智能体对环境的感知；在每一步对环境的感知的基础上，按照策略函数在可选动作中随机选取动作，加入了平衡因子，使得智能体可以自行调节关系和实体对于推理的重要性；并根据带路径的知识图谱表示学习算法给予智能体一个环境反馈，在推理的最后一步还要加上由知识图谱表示学习模型给出的软反馈；最后通过极大化累计奖励期望来对参数进行优化，最终得到推理模型。本发明专利技术学习到的知识推理模型，能够在知识图谱补全等推理任务中提高准确率，具有良好的实用性。

全部详细技术资料下载

【技术实现步骤摘要】
基于图卷积神经网络的强化学习知识图谱推理方法及装置
本专利技术涉及人工智能领域中自然语言处理方向的知识图谱
，具体地本专利技术涉及知识图谱技术中的知识推理分支、以及机器学习中的强化学习和图卷积神经网络技术，更为具体地涉及一种基于图卷积神经网络的强化学习知识图谱推理方法及装置。
技术介绍
近年来，随着以深度学习为主的人工智能浪潮的不断前进，从感知到认知的发展正在成为人工智能的核心趋势。在当今互联网、物联网、云计算等技术不断发展的环境下，各类应用层出不穷，因此产生了海量的数据资源，其中包含大量有价值的知识。2012年，Google最早提出知识图谱的概念，知识图谱以结构化的形式描述各类概念、实体及其关系，将海量的信息表达成更接近人类认知世界的形式。具体来说，知识图谱通过(头实体，关系，尾实体)的三元组形式描述数据库中的海量有价值的知识，其能够给出一个实体和其它相关实体更深层和更广泛的联系。目前，知识图谱已在语义搜索、智能问答系统、数据挖掘等领域发挥重要作用。随着知识图谱的出现，面向知识图谱的知识推理作为支撑上层应用的基础性服务引发了广泛关注。面向知识图谱的知识推理旨在根据知识图谱中的已有知识推理出新的知识，主要包括实体预测和关系预测，具体是指在三元组(头实体，关系，尾实体)的尾实体或关系缺失的情形下，自动推理出具有一定可信度的尾实体或关系。在此研究领域主要有两大类推理方法。第一类是以TransE为代表的Embedding方法(为离散数据连续化方法)。此类方法将实体和关系映射为低维向量，并通过神经网络的...

【技术保护点】
1.一种基于图卷积神经网络的强化学习知识图谱推理方法，其特征在于，包括如下步骤：/nS10、基于深度时间序列模型和图卷积神经网络模型对历史路径及其上实体的多跳邻域信息进行表示，作为智能体对环境的感知；/nS20、在每一步对环境的感知的基础上，按照策略函数在可选动作中随机选取动作；所述动作的表示由关系、实体以及平衡因子组成；/nS30、根据带路径的知识图谱表示学习算法给予所述智能体一个环境反馈，在推理的最后一步加上由知识图谱表示学习模型给出的全局软反馈；/nS40、通过极大化累计奖励期望来对参数进行优化，得到推理模型；/nS50、根据所述推理模型进行推理预测。/n

【技术特征摘要】
1.一种基于图卷积神经网络的强化学习知识图谱推理方法，其特征在于，包括如下步骤：
S10、基于深度时间序列模型和图卷积神经网络模型对历史路径及其上实体的多跳邻域信息进行表示，作为智能体对环境的感知；
S20、在每一步对环境的感知的基础上，按照策略函数在可选动作中随机选取动作；所述动作的表示由关系、实体以及平衡因子组成；
S30、根据带路径的知识图谱表示学习算法给予所述智能体一个环境反馈，在推理的最后一步加上由知识图谱表示学习模型给出的全局软反馈；
S40、通过极大化累计奖励期望来对参数进行优化，得到推理模型；
S50、根据所述推理模型进行推理预测。

2.根据权利要求1所述的方法，其特征在于，所述步骤S10中，所述深度时间序列模型对环境的感知表示进行编码，得到环境表示的向量：所述深度时间序列模型为LSTM或GRU模型。

3.根据权利要求2所述的方法，其特征在于，所述步骤S10包括：
记知识图谱中实体和关系的embedding矩阵分别为E、R，采用图卷积神经网络通过聚合公式(1)将节点e的邻域信息整合进e的embedding表示中：
E(e)＝σ(W0·N(e)+b)(1)
(1)式中，σ为非线性激活函数；W0为dim(E(e))×[dim(E(e))+dim(R(r)))]维实参数矩阵，以及Neigh(e)为实体e的一跳邻域内的关系和实体，b为偏置向量；r为关系的向量表示；et为领域中的实体；e为实体的向量表示；[R(r)；E(e)]为向量R(r),E(e)的串接；
根据深度时间序列模型LSTM对环境状态进行编码表示，令hn为第n步时的环境状态向量表示，其和第n-1步时的环境状态之间由公式(2)进行转换；
hn＝LSTM(hn-1,[rn-1；en])(2)
(2)式中，rn-1,en分别为第n-1步时智能体所选择的关系以及所到达的实体所对应的向量表示。

4.根据权利要求3所述的方法，其特征在于，所述步骤S20包括：
在每一步对环境的感知的基础上，对策略函数πθ进行建模：
πθ(an|sn)＝Softmax(σ(An)·σ(sn))(3)
(3)式中，sn为对历史信息hn、当前实体en以及查询关系r的整合；An为可选动作的表示矩阵；智能体根据概率分布πθ进行随机选取动作an～Categorical(πθ)；动作表示矩阵An的行向量是每一个可选动作(r,e)对应的动作表示为[R(r)；αe*E(e)]；αe为调节动作中关系和实体重要性的平衡因子；
在所述策略函数πθ的基础上进行如下转化：

mi～Bernoulli(1-α)(4)
(4)式中，向量m的元素属于{0,1...

【专利技术属性】
技术研发人员：李晶阳，李波，张永飞，牛广林，孙悦，
申请(专利权)人：北京航空航天大学，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人