【技术实现步骤摘要】
基于知识嵌入强化学习的决策方法、装置、设备及介质
[0001]本专利技术涉及人工智能
,特别涉及一种基于知识嵌入强化学习的决策方法
、
装置
、
设备及介质
。
技术介绍
[0002]强化学习是一种重要的智能体学习方法,其通过不断地与环境进行主动交互探索世界,并根据环境的反馈来调整自身的策略,以达到环境变化符合自身预期的目标
。
目前,
Actor
‑
Critic
是强化学习的主流模型,主要包括策略网络
(Actor)
和评价网络
(Critic)。
其中,策略网络基于给定的环境状态做出相应的决策,评价网络用于评价该决策的优劣
。
[0003]目前,
Actor
‑
Critic
强化学习模型是基于环境的原始信息,采用盲目试错的方式进行学习
。
由于环境的原始信息为低层次信息,其表征的信息量较少,导致强化学习模型的学习效率和学习效果均较低,进而基于该模型做出的决策与预期决策相差较大
。
技术实现思路
[0004]基于利用现有强化学习模型做出的决策与预期决策相差较大的技术问题,本专利技术实施例提供了一种基于知识嵌入强化学习的决策方法
、
装置
、
设备及介质
。
[0005]第一方面,本专利技术实施例提供了一种基于知识嵌入强化学习的决策方法,包括:
[ ...
【技术保护点】
【技术特征摘要】
1.
一种基于知识嵌入强化学习的决策方法,其特征在于,包括:获取目标环境待决策的原始图像;将所述待决策的原始图像输入至预先训练好的强化学习模型,输出与所述待决策的原始图像相对应的决策;所述预先训练好的强化学习模型包括策略网络
、
评价网络
、
回报函数和知识融合模块,所述知识融合模块用于将输入的原始图像与先验知识进行融合,以得到包含先验知识的图向量,所述策略网络用于基于所述图向量向所述目标环境输出决策
。2.
根据权利要求1所述的方法,其特征在于,所述预先训练好的强化学习模型是通过如下方式训练得到的:
S1
,获取所述目标环境当前的原始图像;
S2
,将当前的原始图像输入至所述知识融合模块中,以使所述知识融合模块将当前的原始图像与先验知识进行融合,以得到包含先验知识的图向量;
S3
,将包含先验知识的图向量输入所述策略网络和所述评价网络,以使所述策略网络输出决策和所述评价网络输出评价值,并记录该评价值;
S4
,将所述策略网络输出的决策作用于所述目标环境,以获取所述目标环境被该决策作用后的原始图像,利用所述回报函数对该原始图像进行计算,得到该决策的回报值,并记录该回报值;
S5
,确定当前记录的回报值的数量是否达到预设数量;若否,则将该原始图像作为当前的原始图像,返回执行
S2
;若是,则利用当前记录的回报值确定该强化学习模型是否训练完成,若未训练完成,则利用当前记录的回报值更新评价网络的参数以及利用当前记录的评价值更新策略网络的网络参数,并将该原始图像作为当前的原始图像,清空记录的评价值和回报值,并返回执行
S2
;若训练完成,则将当前的策略网络和评价网络作为最终的策略网络和评价网络,得到训练好的强化学习模型
。3.
根据权利要求2所述的方法,其特征在于,所述知识融合模块包括场景理解模块和领域知识图谱;所述
S2
,包括:将当前的原始图像输入至所述场景理解模块中,利用所述场景理解模块从当前的原始图像中识别出至少一个预设目标,并输出每个所述预设目标的类型和位置信息;基于每个所述预设目标的类型和位置信息,利用语义关系图网络生成当前的原始图像的前景图;基于所述前景图的本体关系,以及当前领域知识图谱提供的与所述前景图对应的先验知识,生成与所述前景图对应的背景图;将所述前景图和所述背景图进行融合,得到包含先验知识的场景图;基于图嵌入技术对所述场景图进行...
【专利技术属性】
技术研发人员:王勇,解永春,李林峰,于欣欣,王敏,陈奥,王殿佑,
申请(专利权)人:北京控制工程研究所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。