智能体探索策略的确定方法、装置、智能体及存储介质制造方法及图纸

技术编号:37709860 阅读:9 留言:0更新日期:2023-06-02 00:01
本公开是关于一种智能体探索策略的确定方法、装置、智能体及存储介质,应用于机器学习技术领域,用于确定智能体的探索策略,探索策略包括基于预设网络模型的探索策略。智能体探索策略的确定方法包括:获取智能体的历史轨迹集;基于预设网络模型的预设网络参数,确定智能体的预测轨迹集;确定预测轨迹集和历史轨迹集之间的距离参数;基于距离参数,确定预设网络参数的目标值;根据预设网络参数的目标值,确定智能体的目标探索策略。本公开中通过预测轨迹集和历史轨迹集之间的距离参数来确定预设网络参数,能够使智能体探索更多未知区域,从而使智能体摆脱局部最优策略,学习到全局最优策略,极大程度提高智能体对新轨迹的探索能力。力。力。

【技术实现步骤摘要】
智能体探索策略的确定方法、装置、智能体及存储介质


[0001]本公开涉及强化学习与智能体进化策略
,尤其涉及一种智能体探索策略的确定方法、装置、智能体及存储介质。

技术介绍

[0002]随着深度强化学习算法在各个领域的发展,智能体能够从原始感觉数据获得复杂的操纵和运动技能,例如用原始像素输入玩雅达利游戏,掌握围棋游戏等。但是,这些深度强化学习算法在具有稀疏或延迟奖励、大状态空间和欺骗性局部优化的任务中存在表现不佳的问题,针对大规模稀疏奖励的问题。相关技术中,为了鼓励智能体在环境中进行充分的探索,会在策略网络输出的行动中加入从高斯分布或Ornstein

Unlenbeck过程等随机分布中采样的噪声,鼓励智能体访问其很少或从未访问过的状态,以便引导智能体进入未知区域;或者使用最大熵方法在现有状态下采取新的行动,允许智能体在给定状态下通过鼓励行动的高熵分布更好地探索环境。但是,相关技术中的方法在具有欺骗性或稀少的奖励的探索任务中可能会导致次优行为,因此没有取得令人满意的结果。

技术实现思路

[0003]为克服相关技术中存在的问题,本公开提供一种智能体探索策略的确定方法、装置、智能体及存储介质。
[0004]根据本公开实施例的第一方面,提供一种智能体探索策略的确定方法,所述探索策略包括基于预设网络模型的探索策略,所述确定方法包括:
[0005]获取所述智能体的历史轨迹集,所述历史轨迹集为历史状态

动作分布集合;
[0006]基于所述预设网络模型的预设网络参数,确定所述智能体的预测轨迹集,所述预测轨迹集为预测状态

动作分布集合;
[0007]确定所述预测轨迹集和所述历史轨迹集之间的距离参数;
[0008]基于所述距离参数,确定所述预设网络参数的目标值;
[0009]根据所述预设网络参数的目标值,确定所述智能体的目标探索策略。
[0010]在一示例性实施例中,所述基于所述距离参数,确定所述预设网络参数的目标值,包括:
[0011]根据所述距离参数和所述预设网络模型的奖励函数,确定所述预设网络模型的目标函数;所述目标函数和所述奖励函数均为基于所述预设网络参数的函数;
[0012]将所述目标函数的取值为最大值时所述预设网络参数的取值确定为所述预设网络参数的目标值。
[0013]在一示例性实施例中,所述根据所述距离参数和所述预设网络模型的奖励函数,确定所述预设网络模型的目标函数,包括:
[0014]通过以下公式确定所述目标函数:
[0015][0016]其中,θ表示所述预设网络参数,L(θ)表示所述目标函数,表示所述奖励函数,ρ
π
表示所述预测状态

动作分布,ρ
μ
表示所述历史状态

动作分布,D
MMD

π
,ρ
μ
)表示所述距离参数,α表示权重。
[0017]在一示例性实施例中,所述将所述目标函数的取值为最大值时所述预设网络参数的取值确定为所述预设网络参数的目标值,包括:
[0018]计算所述目标函数的梯度;
[0019]基于梯度估计算法,确定所述目标函数的取值为最大值时所述预设网络参数的取值。
[0020]在一示例性实施例中,所述基于所述预设网络模型的预设网络参数,确定所述智能体的预测轨迹集,包括:
[0021]对所述预设网络参数进行多次采样,得到所述预设网络参数的多个采样值;
[0022]将所述预设网络参数的多个采样值输入预设网络模型中,得到所述预测轨迹集。
[0023]在一示例性实施例中,所述对所述预设网络参数进行多次采样,得到所述预设网络参数的采样值,包括:
[0024]基于正态分布进行采样:
[0025][0026]其中,表示所述正态分布,σ表示所述正态分布的标准差,I表示单位矩阵,σ2I表示所述正态分布的协方差矩阵,n表示采样的次数,∈
i
表示第i次采样值;
[0027]通过以下公式确定所述预设网络参数的采样值:
[0028]θ
i
=θ+∈
i
[0029]其中,θ
i
表示第i次采样所述预设网络参数的采样值,θ表示所述预设网络参数。
[0030]在一示例性实施例中,所述确定所述预测轨迹集和所述历史轨迹集之间的距离参数,包括:
[0031]确定所述预测轨迹集的每个所述预测状态

动作分布和所述历史轨迹集之间的距离参数。
[0032]根据本公开实施例的第二方面,提供一种智能体探索策略的确定装置,所述探索策略包括基于预设网络模型的探索策略,所述确定装置包括:
[0033]获取模块,被配置为获取所述智能体的历史轨迹集,所述历史轨迹集包括历史状态

动作分布集合;
[0034]第一确定模块,被配置为基于所述预设网络模型的预设网络参数,确定所述智能体的预测轨迹集,所述预测轨迹集包括预测状态

动作分布集合;
[0035]第二确定模块,被配置为确定所述预测轨迹集和所述历史轨迹集之间的距离参数;
[0036]第三确定模块,被配置为基于所述距离参数,确定所述预设网络参数的目标值;
[0037]第四确定模块,被配置为根据所述预设网络参数的目标值,确定所述智能体的目标探索策略。
[0038]在一示例性实施例中,所述第三确定模块还被配置为:
[0039]根据所述距离参数和所述预设网络模型的奖励函数,确定所述预设网络模型的目标函数;所述目标函数和所述奖励函数均为基于所述预设网络参数的函数;
[0040]将所述目标函数的取值为最大值时所述预设网络参数的取值确定为所述预设网络参数的目标值。
[0041]在一示例性实施例中,所述第三确定模块还被配置为:
[0042]通过以下公式确定所述目标函数:
[0043][0044]其中,θ表示所述预设网络参数,L(θ)表示所述目标函数,表示所述奖励函数,ρ
π
表示所述预测状态

动作分布,ρ
μ
表示所述历史状态

动作分布,D
MMD

π
,ρ
μ
)表示所述距离参数,α表示权重。
[0045]在一示例性实施例中,所述第三确定模块还被配置为:
[0046]计算所述目标函数的梯度;
[0047]基于梯度估计算法,确定所述目标函数的取值为最大值时所述预设网络参数的取值。
[0048]在一示例性实施例中,所述第一确定模块还被配置为:
[0049]对所述预设网络参数进行多次采样,得到所述预设网络参数的多个采样值;
[0050]将所述预设网络参数的多个采样值输入本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种智能体探索策略的确定方法,其特征在于,所述探索策略包括基于预设网络模型的探索策略,所述确定方法包括:获取所述智能体的历史轨迹集,所述历史轨迹集为历史状态

动作分布集合;基于所述预设网络模型的预设网络参数,确定所述智能体的预测轨迹集,所述预测轨迹集为预测状态

动作分布集合;确定所述预测轨迹集和所述历史轨迹集之间的距离参数;基于所述距离参数,确定所述预设网络参数的目标值;根据所述预设网络参数的目标值,确定所述智能体的目标探索策略。2.根据权利要求1所述的智能体探索策略的确定方法,其特征在于,所述基于所述距离参数,确定所述预设网络参数的目标值,包括:根据所述距离参数和所述预设网络模型的奖励函数,确定所述预设网络模型的目标函数;所述目标函数和所述奖励函数均为基于所述预设网络参数的函数;将所述目标函数的取值为最大值时所述预设网络参数的取值确定为所述预设网络参数的目标值。3.根据权利要求2所述的智能体探索策略的确定方法,其特征在于,所述根据所述距离参数和所述预设网络模型的奖励函数,确定所述预设网络模型的目标函数,包括:通过以下公式确定所述目标函数:其中,θ表示所述预设网络参数,L(θ)表示所述目标函数,表示所述奖励函数,ρ
π
表示所述预测状态

动作分布,ρ
μ
表示所述历史状态

动作分布,D
MMD

π
,ρ
μ
)表示所述距离参数,α表示权重。4.根据权利要求2所述的智能体探索策略的确定方法,其特征在于,所述将所述目标函数的取值为最大值时所述预设网络参数的取值确定为所述预设网络参数的目标值,包括:计算所述目标函数的梯度;基于梯度估计算法,确定所述目标函数的取值为最大值时所述预设网络参数的取值。5.根据权利要求1所述的智能体探索策略的确定方法,其特征在于,所述基于所述预设网络模型的预设网络参数,确定所述智能体的预测轨迹集,包括:对所述预设网络参数进行多次采样,得到所述预设网络参数...

【专利技术属性】
技术研发人员:吴发国张筱刘健翔姚望
申请(专利权)人:北京航空航天大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1