System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于时间反演对称性的离线强化学习方法及装置制造方法及图纸_技高网
当前位置: 首页 > 专利查询>清华大学专利>正文

基于时间反演对称性的离线强化学习方法及装置制造方法及图纸

技术编号:44120119 阅读:4 留言:0更新日期:2025-01-24 22:41
本发明专利技术提供一种基于时间反演对称性的离线强化学习方法及装置,其中的方法包括:获取当前时刻状态,并将当前时刻状态编码为当前时刻状态的低维表示;基于预先训练的策略网络,根据当前时刻状态的低维表示,预测下一时刻状态的低维表示;基于预先训练的逆动力学模型,根据当前时刻状态的低维表示和下一时刻状态的低维表示,预测当前时刻状态对应动作的低维表示;根据当前时刻状态对应动作的低维表示,获取当前时刻状态对应的目标动作;其中,策略网络和逆动力学模型基于时间反演对称性约束进行训练优化得到,时间反演对称性约束基于前向动力学模型和反向动力学模型进行设置得到。该方法通过在隐空间中提取数据的时间反演对称性这一性特性,并基于时间反演对称性约束训练优化策略网络和逆动力学模型,使得最终隐空间中低维表示的预测更加可靠和稳定,有效提升了强化学习算法在小样本场景下的性能表现,并提升了样本利用率。

【技术实现步骤摘要】

本专利技术涉及机器学习领域,尤其涉及一种基于时间反演对称性的离线强化学习方法及装置


技术介绍

1、现有的离线强化学习(offline rl)算法面临着以下挑战(1)-(3)。

2、(1)性能表现不足。现有的离线rl算法在许多任务上表现仍不如在线rl算法,尤其是对于复杂且具有长期依赖性的环境。这主要是因为离线rl算法无法从环境中直接收集样本来更新模型,只能依赖预先收集的历史数据,导致其学习能力受限。

3、(2)样本需求量大。离线rl算法训练通常需要大量的历史数据才能有效地学习,巨大的样本需求限制了算法在现实世界中的应用,因为收集高质量的离线数据通常成本高昂且耗时长。

4、(3)样本利用率低。现有的离线rl算法在利用历史数据方面存在不足。很多时候,训练数据中包含大量的噪声数据和无关信息,算法难以有效地从中学习到有用的决策策略。

5、上述技术挑战严重阻碍了离线强化学习技术的推广应用,迫切需要提出更有效、更鲁棒的解决方案。

6、因此,解决现有离线强化学习算法的性能表现不佳,所需样本量大且样本利用率不高的问题,显得十分必要。


技术实现思路

1、本专利技术提供一种基于时间反演对称性的离线强化学习方法及装置,用以克服现有离线强化学习算法的性能表现不佳,所需样本量大且样本利用率不高的缺陷,有效提升强化学习算法在小样本场景下的性能表现,并提高样本利用率。

2、一方面,本专利技术提供一种基于时间反演对称性的离线强化学习方法,包括:获取当前时刻状态,并将当前时刻状态编码为当前时刻状态的低维表示;基于预先训练的策略网络,根据当前时刻状态的低维表示,预测下一时刻状态的低维表示;基于预先训练的逆动力学模型,根据当前时刻状态的低维表示和下一时刻状态的低维表示,预测当前时刻状态对应动作的低维表示;根据当前时刻状态对应动作的低维表示,获取当前时刻状态对应的目标动作;其中,所述策略网络和所述逆动力学模型基于时间反演对称性约束进行训练优化得到,所述时间反演对称性约束基于前向动力学模型和反向动力学模型进行设置得到。

3、进一步地,所述将当前时刻状态编码为当前时刻状态的低维表示,具体包括:基于预先训练的状态编码器,对所述当前时刻状态进行编码处理,得到当前时刻状态的低维表示。

4、进一步地,训练优化逆动力学模型,包括:确定离线数据集,所述离线数据集包括连续历史时刻的状态、动作及对应的奖励;基于所述离线数据集,通过前向动力学模型损失函数、反向动力学损失函数、逆动力学模型损失函数以及时间反演对称性约束对逆动力学模型进行迭代优化,得到预先训练的逆动力学模型。

5、进一步地,训练优化逆动力学模型,具体包括:将离线数据集中的历史当前时刻状态输入至状态编码器中,得到历史当前时刻状态的低维表示;以及,将离线数据集中的历史下一时刻状态输入至状态编码器中,得到历史下一时刻状态的低维表示;将历史当前时刻状态的低维表示和历史下一时刻状态的低维表示输入至逆动力学模型中,得到历史当前时刻状态下对应动作的隐表示;将历史当前时刻状态的低维表示和历史当前时刻状态下对应动作的隐表示一同输入至前向动力学模型中,得到历史当前时刻状态的低维表示对应的前向变化量;以及,将历史下一时刻状态的低维表示和历史当前时刻状态下对应动作的隐表示一同输入至反向动力学模型中,得到历史当前时刻状态的低维表示对应的反向变化量;对历史当前时刻状态的低维表示对应的前向变化量进行解码,得到原始状态空间的前向变化量;以及,对历史当前时刻状态的低维表示对应的反向变化量进行解码,得到原始状态空间的反向变化量;基于离线数据集、解码得到的原始状态空间的前向变化量和反向变化量、历史当前时刻状态的低维表示和历史下一时刻状态的低维表示、历史当前时刻状态下对应动作的隐表示,对逆动力学模型进行迭代优化,得到预先训练的逆动力学模型。

6、进一步地,所述前向动力学损失函数表示如下:

7、

8、所述反向动力学损失函数表示如下:

9、

10、所述逆动力学模型损失函数表示如下:

11、

12、所述时间反演对称性约束表示如下:

13、

14、其中,表示离线数据集中的历史当前时刻状态,表示离线数据集中的历史下一时刻状态,表示历史当前时刻隐状态对原始维度状态的偏微分,表示历史下一时刻隐状态对原始维度状态的偏微分,表示解码得到的前向变化量,表示解码得到的反向变化量,表前向动力学模型输出的历史当前时刻隐状态对应的变化量,表示历史当前时刻状态的低维表示,表示逆动力学模型输出的历史当前时刻状态下对应动作的隐表示,表示反向动力学模型输出的历史下一时刻隐状态对应的变化量,表示离线数据集中历史当前时刻状态对应的动作,表示历史下一时刻状态的低维表示,,表示离线数据集中的奖励,表示折扣因子,表示历史下一时刻状态的低维表示的价值预测,表示历史当前时刻状态的低维表示的价值预测,表示动作解码器。

15、进一步地,训练优化策略网络,具体包括:基于历史当前时刻状态的低维表示、历史下一时刻状态的低维表示以及历史当前时刻状态下对应动作的隐表示,通过预设损失函数迭代优化策略网络,得到预先训练的策略网络。

16、进一步地,所述预设损失函数表示如下:

17、

18、其中,表示隐空间中的价值预测,表示策略网络,表示离线数据集,表示历史当前时刻状态,表示历史下一时刻状态,表示策略网络根据历史当前时刻状态的低维表示预测得到的历史下一时刻状态的低维表示,表示控制策略约束项的权重,表示历史下一时刻状态的低维表示,表示反演对称性约束,表示逆动力学模型输出的历史当前时刻状态下对应动作的隐表示。

19、第二方面,本专利技术还提供一种基于时间反演对称性的离线强化学习装置,包括:编码模块,用于获取当前时刻状态,并将当前时刻状态编码为当前时刻状态的低维表示;第一预测模块,用于基于预先训练的策略网络,根据当前时刻状态的低维表示,预测下一时刻状态的低维表示;第二预测模块,用于基于预先训练的逆动力学模型,根据当前时刻状态的低维表示和下一时刻状态的低维表示,预测当前时刻状态对应动作的低维表示;目标动作获取模块,用于根据当前时刻状态对应动作的低维表示,获取当前时刻状态对应的目标动作;其中,所述策略网络和所述逆动力学模型基于时间反演对称性约束进行训练优化得到,所述时间反演对称性约束基于前向动力学模型和反向动力学模型进行设置得到。

20、第三方面,本专利技术还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述任一种所述的基于时间反演对称性的离线强化学习方法。

21、第四方面,本专利技术还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述的基于时间反演对称性的离线强化学习方法。

22、本专利技术提供的基于时间反演对称性的离线本文档来自技高网...

【技术保护点】

1.一种基于时间反演对称性的离线强化学习方法,其特征在于,包括:

2.根据权利要求1所述的基于时间反演对称性的离线强化学习方法,其特征在于,所述将当前时刻状态编码为当前时刻状态的低维表示,具体包括:

3.根据权利要求1所述的基于时间反演对称性的离线强化学习方法,其特征在于,训练优化逆动力学模型,包括:

4.根据权利要求3所述的基于时间反演对称性的离线强化学习方法,其特征在于,训练优化逆动力学模型,具体包括:

5.根据权利要求3所述的基于时间反演对称性的离线强化学习方法,其特征在于,所述前向动力学损失函数表示如下:

6.根据权利要求4所述的基于时间反演对称性的离线强化学习方法,其特征在于,训练优化策略网络,具体包括:

7.根据权利要求6所述的基于时间反演对称性的离线强化学习方法,其特征在于,所述预设损失函数表示如下:

8.一种基于时间反演对称性的离线强化学习装置,其特征在于,包括:

9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的基于时间反演对称性的离线强化学习方法。

10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的基于时间反演对称性的离线强化学习方法。

...

【技术特征摘要】

1.一种基于时间反演对称性的离线强化学习方法,其特征在于,包括:

2.根据权利要求1所述的基于时间反演对称性的离线强化学习方法,其特征在于,所述将当前时刻状态编码为当前时刻状态的低维表示,具体包括:

3.根据权利要求1所述的基于时间反演对称性的离线强化学习方法,其特征在于,训练优化逆动力学模型,包括:

4.根据权利要求3所述的基于时间反演对称性的离线强化学习方法,其特征在于,训练优化逆动力学模型,具体包括:

5.根据权利要求3所述的基于时间反演对称性的离线强化学习方法,其特征在于,所述前向动力学损失函数表示如下:

6.根据权利要求4所述的基于时间反演对称性的离线强化学习方法...

【专利技术属性】
技术研发人员:詹仙园成鹏张策
申请(专利权)人:清华大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1