基于知识嵌入强化学习的决策方法技术

技术编号:39591870 阅读:9 留言:0更新日期:2023-12-03 19:46
本发明专利技术涉及人工智能技术领域,特别涉及一种基于知识嵌入强化学习的决策方法

【技术实现步骤摘要】
基于知识嵌入强化学习的决策方法、装置、设备及介质


[0001]本专利技术涉及人工智能
,特别涉及一种基于知识嵌入强化学习的决策方法

装置

设备及介质


技术介绍

[0002]强化学习是一种重要的智能体学习方法,其通过不断地与环境进行主动交互探索世界,并根据环境的反馈来调整自身的策略,以达到环境变化符合自身预期的目标

目前,
Actor

Critic
是强化学习的主流模型,主要包括策略网络
(Actor)
和评价网络
(Critic)。
其中,策略网络基于给定的环境状态做出相应的决策,评价网络用于评价该决策的优劣

[0003]目前,
Actor

Critic
强化学习模型是基于环境的原始信息,采用盲目试错的方式进行学习

由于环境的原始信息为低层次信息,其表征的信息量较少,导致强化学习模型的学习效率和学习效果均较低,进而基于该模型做出的决策与预期决策相差较大


技术实现思路

[0004]基于利用现有强化学习模型做出的决策与预期决策相差较大的技术问题,本专利技术实施例提供了一种基于知识嵌入强化学习的决策方法

装置

设备及介质

[0005]第一方面,本专利技术实施例提供了一种基于知识嵌入强化学习的决策方法,包括:
[0006]获取目标环境待决策的原始图像;
[0007]将所述待决策的原始图像输入至预先训练好的强化学习模型,输出与所述待决策的原始图像相对应的决策;所述预先训练好的强化学习模型包括策略网络

评价网络

回报函数和知识融合模块,所述知识融合模块用于将输入的原始图像与先验知识进行融合,以得到包含先验知识的图向量,所述策略网络用于基于所述图向量向所述目标环境输出决策

[0008]在一种可能的设计中,所述预先训练好的强化学习模型是通过如下方式训练得到的:
[0009]S1
,获取所述目标环境当前的原始图像;
[0010]S2
,将当前的原始图像输入至所述知识融合模块中,以使所述知识融合模块将当前的原始图像与先验知识进行融合,以得到包含先验知识的图向量;
[0011]S3
,将包含先验知识的图向量输入所述策略网络和所述评价网络,以使所述策略网络输出决策和所述评价网络输出评价值,并记录该评价值;
[0012]S4
,将所述策略网络输出的决策作用于所述目标环境,以获取所述目标环境被该决策作用后的原始图像,利用所述回报函数对该原始图像进行计算,得到该决策的回报值,并记录该回报值;
[0013]S5
,确定当前记录的回报值的数量是否达到预设数量;
[0014]若否,则将该原始图像作为当前的原始图像,返回执行
S2

[0015]若是,则利用当前记录的回报值确定该强化学习模型是否训练完成,若未训练完
成,则利用当前记录的回报值更新评价网络的参数以及利用当前记录的评价值更新策略网络的网络参数,并将该原始图像作为当前的原始图像,清空记录的评价值和回报值,并返回执行
S2
;若训练完成,则将当前的策略网络和评价网络作为最终的策略网络和评价网络,得到训练好的强化学习模型

[0016]在一种可能的设计中,所述知识融合模块包括场景理解模块和领域知识图谱;所述
S2
,包括:
[0017]将当前的原始图像输入至所述场景理解模块中,利用所述场景理解模块从当前的原始图像中识别出至少一个预设目标,并输出每个所述预设目标的类型和位置信息;
[0018]基于每个所述预设目标的类型和位置信息,利用语义关系图网络生成当前的原始图像的前景图;
[0019]基于所述前景图的本体关系,以及当前领域知识图谱提供的与所述前景图对应的先验知识,生成与所述前景图对应的背景图;
[0020]将所述前景图和所述背景图进行融合,得到包含先验知识的场景图;
[0021]基于图嵌入技术对所述场景图进行压缩,得到包含先验知识的图向量

[0022]在一种可能的设计中,所述知识融合模块还包括数据缓冲模块和知识归纳模块,对所述强化学习模型进行训练还包括:
[0023]将所述
S2
中得到的场景图和图向量,以及所述
S3
中得到的与所述场景图和所述图向量对应的决策存储至所述数据缓冲模块;
[0024]响应于当前记录的回报值的数量达到预设数量,基于所述场景图

所述图向量和所述决策之间的稳定性关系,利用所述知识归纳模块从所述数据缓冲模块中提取目标知识;
[0025]基于所述目标知识更新所述领域知识图谱,并将更新后的领域知识图谱作为当前领域知识图谱,并返回执行
S2。
[0026]在一种可能的设计中,所述利用当前记录的回报值确定该强化学习模型是否训练完成,包括:
[0027]确定当前记录的回报值中,回报值大于回报阈值的个数是否大于设定个数;若是,则确定该强化学习模型训练完成;若否,则确定该强化学习模型未训练完成

[0028]在一种可能的设计中,所述利用当前记录的回报值更新评价网络的参数,包括:
[0029]对当前记录的回报值进行加权处理,得到加权后的回报值;
[0030]基于加权后的回报值,利用近端策略优化,和
/

[0031]信赖域策略优化算法更新评价网络的参数

[0032]在一种可能的设计中,所述利用当前记录的评价值更新策略网络的网络参数,包括:
[0033]基于当前记录的评价值,利用近端策略优化,和
/

[0034]信赖域策略优化算法更新策略网络的参数

[0035]第二方面,本专利技术实施例还提供了一种基于知识嵌入强化学习的决策装置,包括:
[0036]获取模块,用于获取目标环境待决策的原始图像;
[0037]输入模块,用于将所述待决策的原始图像输入至预先训练好的强化学习模型,输出符合预期的决策;所述预先训练好的强化学习模型包括策略网络

评价网络

回报函数和
知识融合模块,所述知识融合模块用于将输入的原始图像与先验知识进行融合,以得到包含先验知识的图向量,所述策略网络用于基于所述图向量向所述目标环境输出决策

[0038]第三方面,本专利技术实施例还提供了一种电子设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序时,实现本说明书任一实施例所述的方法

[0039]第四方面,本本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种基于知识嵌入强化学习的决策方法,其特征在于,包括:获取目标环境待决策的原始图像;将所述待决策的原始图像输入至预先训练好的强化学习模型,输出与所述待决策的原始图像相对应的决策;所述预先训练好的强化学习模型包括策略网络

评价网络

回报函数和知识融合模块,所述知识融合模块用于将输入的原始图像与先验知识进行融合,以得到包含先验知识的图向量,所述策略网络用于基于所述图向量向所述目标环境输出决策
。2.
根据权利要求1所述的方法,其特征在于,所述预先训练好的强化学习模型是通过如下方式训练得到的:
S1
,获取所述目标环境当前的原始图像;
S2
,将当前的原始图像输入至所述知识融合模块中,以使所述知识融合模块将当前的原始图像与先验知识进行融合,以得到包含先验知识的图向量;
S3
,将包含先验知识的图向量输入所述策略网络和所述评价网络,以使所述策略网络输出决策和所述评价网络输出评价值,并记录该评价值;
S4
,将所述策略网络输出的决策作用于所述目标环境,以获取所述目标环境被该决策作用后的原始图像,利用所述回报函数对该原始图像进行计算,得到该决策的回报值,并记录该回报值;
S5
,确定当前记录的回报值的数量是否达到预设数量;若否,则将该原始图像作为当前的原始图像,返回执行
S2
;若是,则利用当前记录的回报值确定该强化学习模型是否训练完成,若未训练完成,则利用当前记录的回报值更新评价网络的参数以及利用当前记录的评价值更新策略网络的网络参数,并将该原始图像作为当前的原始图像,清空记录的评价值和回报值,并返回执行
S2
;若训练完成,则将当前的策略网络和评价网络作为最终的策略网络和评价网络,得到训练好的强化学习模型
。3.
根据权利要求2所述的方法,其特征在于,所述知识融合模块包括场景理解模块和领域知识图谱;所述
S2
,包括:将当前的原始图像输入至所述场景理解模块中,利用所述场景理解模块从当前的原始图像中识别出至少一个预设目标,并输出每个所述预设目标的类型和位置信息;基于每个所述预设目标的类型和位置信息,利用语义关系图网络生成当前的原始图像的前景图;基于所述前景图的本体关系,以及当前领域知识图谱提供的与所述前景图对应的先验知识,生成与所述前景图对应的背景图;将所述前景图和所述背景图进行融合,得到包含先验知识的场景图;基于图嵌入技术对所述场景图进行...

【专利技术属性】
技术研发人员:王勇解永春李林峰于欣欣王敏陈奥王殿佑
申请(专利权)人:北京控制工程研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1