System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术属于离线强化学习和序列决策,具体涉及一种基于逆扩散引导策略的离线强化学习方法。
技术介绍
1、强化学习通过试错的方式能够有效解决序列决策问题,目前已经在游戏领域取得了巨大的成功。然而,与环境的在线交互模式限制了强化学习在现实世界的进一步应用,因为在一些现实场景下进行在线交互效率低下,并且可能存在安全隐患。例如:在现实世界中训练一个机器人行走可能花费数周时间,每当其摔倒都需要人为地进行状态复位。而在自动驾驶任务中,智能车在学习过程中可能对周围的人或其它车辆造成伤害。离线强化学习不需要与环境的交互过程,只在一个静态经验数据集中去学习策略,为强化学习在现实世界中的应用提供了更多的可能。
2、然而,只在一个静态经验数据集中学习好的策略并不容易,直接将异策略在线强化学习算法应用于离线设定并不能取得好的效果。强化学习算法的性能依赖于值函数估计的准确性,值函数估计过程中需要根据学习策略采样新的动作用于自举更新。当根据学习策略采样出的动作没有在经验数据集中出现过时,这个动作的价值会被错误地高估。尽管这个问题同样存在于异策略在线强化学习算法中,但在线设定下可以通过与环境的交互观测到这个动作的真实价值来进行误差修正;而在离线设定下,这个高估只会随着自举过程的进行而被无限放大,最终导致策略学习过程的失败。上述问题在离线强化学习中被总结为由分布偏移导致的外推误差。为了减小外推误差,离线强化学习需要约束学习策略在行为策略支持集内选择动作。
3、经典的做法是通过散度度量策略分布之间的距离,然后在策略训练过程中将这个距离作为
4、另一种做法是直接对行为策略进行建模,然后从中采样多个动作,选择其中能使回报最大的动作予以执行。但采样操作同样会受到行为策略密度的影响,只有每次采样无穷多个动作时,才能始终获得行为策略支持集内的最优动作。然而,进行无穷次采样是不切实际的,并不适用于现实的工业场景。
技术实现思路
1、专利技术目的:针对以上问题,本专利技术提出一种基于逆扩散引导策略的离线强化学习方法,对行为策略进行建模,避免了现有方法中的多次采样过程,通过引导采样可以直接获得行为策略支持集内的最优动作。
2、技术方案:为实现本专利技术的目的,本专利技术所采用的技术方案是:一种基于逆扩散引导策略的离线强化学习方法,包括以下步骤:
3、建立扩散模型网络、扰动网络、逆扩散引导策略网络和价值网络,利用扩散模型表达行为策略,从行为策略支持集内采样动作。
4、分别建立扰动网络、逆扩散引导策略网络和价值网络对应的目标网络,各个目标网络结构与所对应的原网络结构一致。
5、训练逆扩散引导策略引导采样过程,通过单次采样过程直接获得行为策略支持集内的最优动作。
6、在最优动作位于行为策略支持集外时,给采样出的动作添加可训练扰动。
7、所述的训练逆扩散引导策略引导采样过程包括:
8、利用经验池中的经验样本迭代更新扩散模型网络参数、价值网络参数、逆扩散引导策略网络参数、扰动网络参数以及各目标网络参数,使损失函数最小且目标函数最大。
9、通过更新得到的逆扩散引导策略网络引导扩散模型网络生成最优动作,获得最优策略;引导过程如下:
10、根据逆扩散引导策略网络采样得到逆扩散初始动作,将逆扩散初始动作输入到扩散模型网络,生成得到最优动作。
11、进一步的,建立扩散模型网络εθ、扰动网络ξω以及逆扩散引导策略网络建立两个相互独立的价值网络和和分别表示价值网络1和价值网络2;初始化网络参数,包括:扩散时间步i、第i步的扩散动作ai、第i-1步的扩散动作ai-1、状态s、扩散模型网络参数θ、扰动模型参数ω、逆扩散引导策略网络参数价值网络1参数v1和价值网络2参数v2;所有网络均为含有两个隐藏层,且隐藏层神经元数量为256的多层感知机结构;网络参数的初始化方式为随机初始化。
12、进一步的,分别建立扰动网络、逆扩散引导策略网络和两个独立价值网络对应的目标网络和和分别表示扰动网络、逆扩散引导策略网络、价值网络1和价值网络2对应的目标网络参数;目标网络参数的初始化方法为:将所对应的原网络参数直接赋值给目标网络参数
13、进一步的,利用经验池中的经验样本(s,a)对扩散模型网络参数θ进行更新,更新方法为通过梯度下降法最小化如下的损失函数:
14、
15、其中,表示扩散模型网络损失函数,表示期望符号,u表示离散集{1,…,n}上的均匀分布,n表示最大扩散步,ε表示预定义噪声,~表示采样操作,表示标准高斯分布,表示预定义加噪系数,a表示从经验池中采样出的动作。
16、进一步的,利用经验池中的经验样本(s,a,s′)对价值网络参数v1和v2进行更新,更新方法为通过梯度下降法最小化如下的损失函数:
17、
18、
19、其中,和分别表示价值网络1和价值网络2的损失函数,a0表示更新价值网络参数时采样的下一动作,s′表示经验池中的下一状态,表示价值网络1在输入为(s,a)时的输出,表示价值网络2在输入为(s,a)时的输出,表示经过引导的扩散模型目标网络在s′处的输出,r表示奖励函数,γ为超参数,表示回报折扣率,表示值函数目标k的输出,表示扰动模型目标网络在输入为(s′,a0)时的输出。
20、进一步的,利用经验池d中的经验样本对逆扩散引导策略网络参数和扰动网络参数ω进行更新,更新方法为通过梯度上升最大化如下的目标函数:
21、
22、
23、其中,和分别表示逆扩散引导策略网络和扰动网络的目标函数;
24、表示或
25、为价值网络1在输入为时的输出;
26、为价值网络2在输入为时的输出;
27、表示经过引导的扩散模型网络在s处的输出,ξω(s,a0)表示扰动模型网络在输入为(s,a0)时的输出。
28、进一步的,更新目标网络的参数时采用如下的更新方式:
29、首先,分别计算:和然后,将上述计算的结果分别赋值给:和其中,表示目标网络更新率。
30、有益效果:与现有技术相比,本专利技术的技术方案具有以下有益的技术效果:
31、本专利技术针对离线强化学习中的多次采样问题,提出一种基于逆扩散引导策略的离线强化学习方法。(1)扩散模型可以有效地表达行为策略的多模态分布,使生成的动作准确地本文档来自技高网...
【技术保护点】
1.一种基于逆扩散引导策略的离线强化学习方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的基于逆扩散引导策略的离线强化学习方法,其特征在于,建立扩散模型网络εθ、扰动网络ξω以及逆扩散引导策略网络建立两个相互独立的价值网络和和分别表示价值网络1和价值网络2;
3.根据权利要求2所述的基于逆扩散引导策略的离线强化学习方法,其特征在于,分别建立扰动网络、逆扩散引导策略网络和两个独立价值网络对应的目标网络和
4.根据权利要求3所述的基于逆扩散引导策略的离线强化学习方法,其特征在于,利用经验池中的经验样本(s,a)对扩散模型网络参数θ进行更新,更新方法为通过梯度下降法最小化如下的损失函数:
5.根据权利要求4所述的基于逆扩散引导策略的离线强化学习方法,其特征在于,利用经验池中的经验样本(s,a,s′)对价值网络参数v1和v2进行更新,更新方法为通过梯度下降法最小化如下的损失函数:
6.根据权利要求5所述的基于逆扩散引导策略的离线强化学习方法,其特征在于,利用经验池中的经验样本对逆扩散引导策略网络参数和扰动网络参数ω进行更
7.根据权利要求3-6任一所述的基于逆扩散引导策略的离线强化学习方法,其特征在于,更新目标网络的参数时采用如下的更新方式:
...【技术特征摘要】
1.一种基于逆扩散引导策略的离线强化学习方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的基于逆扩散引导策略的离线强化学习方法,其特征在于,建立扩散模型网络εθ、扰动网络ξω以及逆扩散引导策略网络建立两个相互独立的价值网络和和分别表示价值网络1和价值网络2;
3.根据权利要求2所述的基于逆扩散引导策略的离线强化学习方法,其特征在于,分别建立扰动网络、逆扩散引导策略网络和两个独立价值网络对应的目标网络和
4.根据权利要求3所述的基于逆扩散引导策略的离线强化学习方法,其特征在于,利用经验池中的经验样本(s,a)对扩散模型网络参数θ进行更新,更新...
【专利技术属性】
技术研发人员:王雪松,张佳志,程玉虎,李会军,赵忠祥,
申请(专利权)人:中国矿业大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。