基于强化学习的机器人回报函数的自适应方法技术

技术编号：36886650 阅读：12 留言：0更新日期：2023-03-15 21:36

本发明专利技术公开了基于强化学习的机器人回报函数的自适应方法，可以根据机器人与环境的交互轨迹学习到回报值，从而指导强化学习算法优化控制策略，避免了回报模型的人工设计干预，能够通过自适应的回报模型提高强化学习在不同场景下的行走控制更加高效。同场景下的行走控制更加高效。同场景下的行走控制更加高效。

全部详细技术资料下载

【技术实现步骤摘要】
基于强化学习的机器人回报函数的自适应方法

[0001]本专利技术涉及一种机器学习
，具体涉及基于强化学习的机器人回报函数的自适应方法。

技术介绍

[0002]目前机器人行走的控制主要基于传统控制技术开展，但传统控制技术对于机器人行走线路的规划单一，存在线路规划不灵活、复杂场景缺乏应对策略等问题。随着深度学习技术和强化学习的迅猛发展，利用深度神经网络强大的特征学习能力，能够从机器人与外部环境的交互数据中学习到大量行走控制相关的特征，结合强化学习对机器人行走问题的建模，能够实现机器人行走过程中规避障碍物，但是仍然存在需要人工设计交互过程中的回报问题。

技术实现思路

[0003]为了至少克服现有技术中的上述不足，本申请的目的在于提供基于强化学习的机器人回报函数的自适应方法。
[0004]本申请实施例提供了基于强化学习的机器人回报函数的自适应方法，包括：
[0005]使用Actor
‑
Critic网络中的Actor策略控制机器人与外部环境交互获取轨迹数据，并将所述轨迹数据存入环境缓冲池中；
[0006]通过所述环境缓冲池中的数据对回报模型和所述Actor
‑
Critic网络进行更新；所述回报模型基于所述机器人与外部环境交互时发生的状态转移时产生的信息量构建；
[0007]根据更新后的所述Actor
‑
Critic网络控制所述机器人与外部环境交互并获取新的轨迹数据更新所述回报模型和所述Actor
‑
Cr...

【技术保护点】

【技术特征摘要】
1.基于强化学习的机器人回报函数的自适应方法，其特征在于，包括：使用Actor
‑
Critic网络中的Actor策略控制机器人与外部环境交互获取轨迹数据，并将所述轨迹数据存入环境缓冲池中；通过所述环境缓冲池中的数据对回报模型和所述Actor
‑
Critic网络进行更新；所述回报模型基于所述机器人与外部环境交互时发生的状态转移时产生的信息量构建；根据更新后的所述Actor
‑
Critic网络控制所述机器人与外部环境交互并获取新的轨迹数据更新所述回报模型和所述Actor
‑
Critic网络。2.根据权利要求1所述的基于强化学习的机器人回报函数的自适应方法，其特征在于，所述回报函数包括编码器和解码器；通过所述环境缓冲池中的数据对回报模型进行更新包括：将所述环境缓冲池中当前的状态和动作作为第一输入数据输入所述编码器，并通过被配置于所述回报模型的神经网络的全连接层和激活层对所述第一输入数据中的信息进行确保信息完整性的压缩，并由所述编码器的最后一层网络输出多维度高斯分布的均值和方差作为第一输出数据；通过重参数方法从所述第一输出数据中采样出第二输入数据输入所述解码器，并由所述解码器的最后的全连接层输出下一时刻状态的均值和方差作为第二输出数据；使用从所述环境缓冲池中采样到的下一时刻状态和所述第二输出数据对所述解码器和所述编码器进行监督学习训练。3.根据权利要求2所述的基于强化学习的机器人回报函数的自适应方法，其特征在于，通过被配置于所述回报模型的神经网络的全连接层和激活层对所述第一输入数据中的信息进行确保信息完整性的压缩采用下式进行：息进行确保信息完整性的压缩采用下式进行：式中，z为压缩后的信息，KL为KL散度，q(z)为压缩之后信息的先验概率，s为状态值，a为动作值，p(z∣s,a)为通过s和a压缩到z时的后验概率，μ1为编码器输出的均值，σ1为编码器输出的方差。4.根据权利要求3所述的基于强化学习的机器人回报函数的自适应方法，其特征在于，由所述解码器的最后的全连接层输出下一时刻状态的均值和方差作为第二输出数据采用下式进行：式中，s
′
为下一时刻状态，s
′
i
为从缓冲池中采样出来的下一时刻状态，μ2为解码器中最后一层全连接网络输出的均值，σ2为解码器中最后一层全连接网络输出的方差。5.根据权利要求4所述的基于强化学习的机器人回报函数的自适应方法，其特征在于，所述回报模型的优化函数基于所述编码器和所述解码器实现，且所述优化函数采用下式：
式中，μ1为编码器输出的均值，σ1为编码器输出的方差；μ2为所述解码器输出的下一时刻状态的均值，σ...

【专利技术属性】
技术研发人员：杨智友，符明晟，张帆，屈鸿，
申请(专利权)人：电子科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人