基于图卷积神经网络的强化学习知识图谱推理方法及装置制造方法及图纸

技术编号:25396742 阅读:175 留言:0更新日期:2020-08-25 23:01
本发明专利技术公开了基于图卷积神经网络的强化学习知识图谱推理方法及装置,该方法包括:基于深度时间序列模型和图卷积神经网络模型对历史路径及其上实体的多跳邻域信息进行表示,作为智能体对环境的感知;在每一步对环境的感知的基础上,按照策略函数在可选动作中随机选取动作,加入了平衡因子,使得智能体可以自行调节关系和实体对于推理的重要性;并根据带路径的知识图谱表示学习算法给予智能体一个环境反馈,在推理的最后一步还要加上由知识图谱表示学习模型给出的软反馈;最后通过极大化累计奖励期望来对参数进行优化,最终得到推理模型。本发明专利技术学习到的知识推理模型,能够在知识图谱补全等推理任务中提高准确率,具有良好的实用性。

【技术实现步骤摘要】
基于图卷积神经网络的强化学习知识图谱推理方法及装置
本专利技术涉及人工智能领域中自然语言处理方向的知识图谱
,具体地本专利技术涉及知识图谱技术中的知识推理分支、以及机器学习中的强化学习和图卷积神经网络技术,更为具体地涉及一种基于图卷积神经网络的强化学习知识图谱推理方法及装置。
技术介绍
近年来,随着以深度学习为主的人工智能浪潮的不断前进,从感知到认知的发展正在成为人工智能的核心趋势。在当今互联网、物联网、云计算等技术不断发展的环境下,各类应用层出不穷,因此产生了海量的数据资源,其中包含大量有价值的知识。2012年,Google最早提出知识图谱的概念,知识图谱以结构化的形式描述各类概念、实体及其关系,将海量的信息表达成更接近人类认知世界的形式。具体来说,知识图谱通过(头实体,关系,尾实体)的三元组形式描述数据库中的海量有价值的知识,其能够给出一个实体和其它相关实体更深层和更广泛的联系。目前,知识图谱已在语义搜索、智能问答系统、数据挖掘等领域发挥重要作用。随着知识图谱的出现,面向知识图谱的知识推理作为支撑上层应用的基础性服务引发了广泛关注。面向知识图谱的知识推理旨在根据知识图谱中的已有知识推理出新的知识,主要包括实体预测和关系预测,具体是指在三元组(头实体,关系,尾实体)的尾实体或关系缺失的情形下,自动推理出具有一定可信度的尾实体或关系。在此研究领域主要有两大类推理方法。第一类是以TransE为代表的Embedding方法(为离散数据连续化方法)。此类方法将实体和关系映射为低维向量,并通过神经网络的方法构建了三元组集合到实数域的映射来建模三元组成立的概率。Embedding方法虽然计算高效,但是由于其在推理过程中没有考虑到图谱本身的符号逻辑相关性,因此缺乏对其预测结果的可解释性。第二类方法是结合图谱路径的推理方法,此类方法在给出预测结果的同时,可以给出其推理的路径。特别的,基于强化学习的方法是其主流方向之一。但现有的基于强化学习的方法在模型训练和设计上有如下三大缺陷:1.在实体的表示上,现有模型仅考虑实体表示本身,这不仅仅限制了强化学习智能体对环境的感知,同时也降低了智能体在决策时的决策水平;2.由于知识图谱的不同质性,在推理时关系路径和实体路径的重要性也会有很大不同。但现有模型将关系和实体向量无差别的连接起来作为下一步的动作,这种无差别的对待会给智能体决策引入噪声而不能达到最优的决策策略;3.在模型训练上,现有模型仅在推理的最后一步给予反馈,这使得智能体可能对最终的实体关注过大,而导致具体的推理路径的质量变差。
技术实现思路
针对上述技术问题,本专利技术提供的一种至少部分或全部解决上述技术问题的基于图卷积神经网络的强化学习知识图谱推理方法及装置,一方面能够更好的整合实体的邻域信息,从而提升应用该方法的智能体的决策水平,同时智能体能够自动权衡下一步动作中关系和实体的重要性。更多地,在模型训练上引入中间反馈,从而使得智能体的每一步的决策得到更好的优化。为实现上述目的,第一方面,本专利技术采取的技术方案是:基于图卷积神经网络的强化学习知识图谱推理方法,包括如下步骤:S10、基于深度时间序列模型和图卷积神经网络模型对历史路径及其上实体的多跳邻域信息进行表示,作为智能体对环境的感知;S20、在每一步对环境的感知的基础上,按照策略函数在可选动作中随机选取动作;所述动作的表示由关系、实体以及平衡因子组成;S30、根据带路径的知识图谱表示学习算法给予所述智能体一个环境反馈,在推理的最后一步加上由知识图谱表示学习模型给出的全局软反馈;S40、通过极大化累计奖励期望来对参数进行优化,得到推理模型;S50、根据所述推理模型进行推理预测。在一个实施例中,所述步骤S10中,所述深度时间序列模型对环境的感知表示进行编码,得到环境表示的向量:所述深度时间序列模型为LSTM或GRU模型。在一个实施例中,所述步骤S10包括:记知识图谱中实体和关系的embedding矩阵分别为E、R,采用图卷积神经网络通过聚合公式(1)将节点e的邻域信息整合进e的embedding表示中:E(e)=σ(W0·N(e)+b)(1)(1)式中,σ为非线性激活函数;W0为dim(E(e))×[dim(E(e))+dim(R(r)))]维实参数矩阵,以及Neigh(e)分别为实体e的一跳邻域内的关系和实体,b为偏置向量;r为关系的向量表示;et为领域中的实体;e为实体的向量表示;[R(r);E(e)]为向量R(r),E(e)的串接;根据深度时间序列模型LSTM对环境状态进行编码表示,令hn为第n步时的环境状态向量表示,其和第n-1步时的环境状态之间由公式(2)进行转换;hn=LSTM(hn-1,[rn-1;en])(2)(2)式中,rn-1,en分别为第n-1步时智能体所选择的关系以及所到达的实体所对应的向量表示。在一个实施例中,所述步骤S20包括:在每一步对环境的感知的基础上,对策略函数πθ进行建模:πθ(an|sn)=Softmax(σ(An)·σ(sn))(3)(3)式中,sn为对历史信息hn、当前实体en以及查询关系r的整合;An为可选动作的表示矩阵;智能体根据概率分布πθ进行随机选取动作an~Categorical(πθ);动作表示矩阵An的行向量是每一个可选动作(r,e)对应的动作表示为[R(r);αe*E(e)];αe为调节动作中关系和实体重要性的平衡因子;在所述策略函数πθ的基础上进行如下转化:mi~Bernoulli(1-α)(4)(4)式中,向量m的元素属于{0,1},由参数为α的Bernoulli分布随机采样得到;ε为常量;mi为向量m的第i个分量。在一个实施例中,所述步骤S30包括:根据带路径的知识图谱表示学习算法每一步推理给予智能体一个环境反馈,并在推理的最后一步加上由知识图谱表示学习模型给出的全局软反馈。在一个实施例中,根据带路径的知识图谱表示学习算法每一步推理给予智能体一个环境反馈,并在推理的最后一步加上由知识图谱表示学习模型给出的全局软反馈,包括:每一步的环境反馈定义如下:设预设的最大步长为N,则在满足条件||et-en||≤||et-en-1||时,每一步的环境反馈为λ,否则为0;其中,所述条件中的向量由预训练的带路径的表示学习得到的对应的向量;en为当前实体的向量表示;en-1为上一步所选择的实体的向量表示;et表示正确的尾实体的向量表示;当步数为最后一步N时,加上额外的反馈:(5)式中,函数f为预训练的概率式的知识图谱Embedding模型;eh,r,eN分别为头实体、关系和模型所预测的尾实体。在一个实施例中,所述步骤S40中,通过极大化累计奖励期望来对参数进行优化,包括:通过最大化期望奖励函数,并利用REINFORCE算法来不断迭代,参数梯度计算公式为:(6)式本文档来自技高网
...

【技术保护点】
1.一种基于图卷积神经网络的强化学习知识图谱推理方法,其特征在于,包括如下步骤:/nS10、基于深度时间序列模型和图卷积神经网络模型对历史路径及其上实体的多跳邻域信息进行表示,作为智能体对环境的感知;/nS20、在每一步对环境的感知的基础上,按照策略函数在可选动作中随机选取动作;所述动作的表示由关系、实体以及平衡因子组成;/nS30、根据带路径的知识图谱表示学习算法给予所述智能体一个环境反馈,在推理的最后一步加上由知识图谱表示学习模型给出的全局软反馈;/nS40、通过极大化累计奖励期望来对参数进行优化,得到推理模型;/nS50、根据所述推理模型进行推理预测。/n

【技术特征摘要】
1.一种基于图卷积神经网络的强化学习知识图谱推理方法,其特征在于,包括如下步骤:
S10、基于深度时间序列模型和图卷积神经网络模型对历史路径及其上实体的多跳邻域信息进行表示,作为智能体对环境的感知;
S20、在每一步对环境的感知的基础上,按照策略函数在可选动作中随机选取动作;所述动作的表示由关系、实体以及平衡因子组成;
S30、根据带路径的知识图谱表示学习算法给予所述智能体一个环境反馈,在推理的最后一步加上由知识图谱表示学习模型给出的全局软反馈;
S40、通过极大化累计奖励期望来对参数进行优化,得到推理模型;
S50、根据所述推理模型进行推理预测。


2.根据权利要求1所述的方法,其特征在于,所述步骤S10中,所述深度时间序列模型对环境的感知表示进行编码,得到环境表示的向量:所述深度时间序列模型为LSTM或GRU模型。


3.根据权利要求2所述的方法,其特征在于,所述步骤S10包括:
记知识图谱中实体和关系的embedding矩阵分别为E、R,采用图卷积神经网络通过聚合公式(1)将节点e的邻域信息整合进e的embedding表示中:
E(e)=σ(W0·N(e)+b)(1)
(1)式中,σ为非线性激活函数;W0为dim(E(e))×[dim(E(e))+dim(R(r)))]维实参数矩阵,以及Neigh(e)为实体e的一跳邻域内的关系和实体,b为偏置向量;r为关系的向量表示;et为领域中的实体;e为实体的向量表示;[R(r);E(e)]为向量R(r),E(e)的串接;
根据深度时间序列模型LSTM对环境状态进行编码表示,令hn为第n步时的环境状态向量表示,其和第n-1步时的环境状态之间由公式(2)进行转换;
hn=LSTM(hn-1,[rn-1;en])(2)
(2)式中,rn-1,en分别为第n-1步时智能体所选择的关系以及所到达的实体所对应的向量表示。


4.根据权利要求3所述的方法,其特征在于,所述步骤S20包括:
在每一步对环境的感知的基础上,对策略函数πθ进行建模:
πθ(an|sn)=Softmax(σ(An)·σ(sn))(3)
(3)式中,sn为对历史信息hn、当前实体en以及查询关系r的整合;An为可选动作的表示矩阵;智能体根据概率分布πθ进行随机选取动作an~Categorical(πθ);动作表示矩阵An的行向量是每一个可选动作(r,e)对应的动作表示为[R(r);αe*E(e)];αe为调节动作中关系和实体重要性的平衡因子;
在所述策略函数πθ的基础上进行如下转化:



mi~Bernoulli(1-α)(4)
(4)式中,向量m的元素属于{0,1...

【专利技术属性】
技术研发人员:李晶阳李波张永飞牛广林孙悦
申请(专利权)人:北京航空航天大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1