一种基于离线环境交互的机器人控制方法技术

技术编号：34244961 阅读：20 留言：0更新日期：2022-07-24 10:08

本发明专利技术公开的一种基于离线环境交互的机器人控制方法，包括通过摄像头采集环境信息，生成目标行动者网络，通过离线数据集建立目标评论家网络，将目标行动者网络输入目标评论家网络进行更新；采集当前评论家网络，将目标评论家网络与当前评论家网络进行比较，得到偏差率；判断所述偏差率是否大于预设偏差率阈值，若大于，则生成损失函数，通过损失函数对当前评论家网络进行更新，得到更新后的当前评论家网络；根据更新后的当前评论家网络生成截断固定原子数量；通过截断固定原子数量生成目标值输入当前行动者网络；通过当前行动者网络控制机器人执行相应的动作。机器人执行相应的动作。机器人执行相应的动作。

A robot control method based on off-line environment interaction

全部详细技术资料下载

【技术实现步骤摘要】
一种基于离线环境交互的机器人控制方法

[0001]本专利技术涉及机器人控制领域，更具体的，涉及一种基于离线环境交互的机器人控制方法。

技术介绍

[0002]人工智能在互联网、智能云计算、自动驾驶等领域有着强大的产能推动力。机器学习的一个重要研究领域是强化学习。强化学习研究的是智能体如何感知环境并能够采取最优的行动，通常采用最新的策略与环境进行交互并收集经验，其目标是最大化累计回报来探索当前环境的最优策略。但传统强化学习无法感知高维状态动作空间，难以在复杂现实环境应用。随着硬件计算能力的指数提升，深度学习取得了重大的突破，拥有组合多个非线性网络层来提取高维度数据特征的能力。因此深度强化学习将深度学习的高维特征提取能力和强化学习的序贯决策能力相结合，是目前解决高维环境最优策略任务的主要方法。
[0003]深度强化学习算法的智能体与在线环境进行交互，通过收集在线交互经验样本来训练得到最优的策略。但随着DRL算法逐渐应用到现实工业技术上，发现算法很难落地在机器人技术以及自动驾驶技术等问题。因为与现实环境在线交互收集大量样本的方式，可能会极大地降低采集样本的效率，并且容易导致意想不到的行为。同时，在仿真环境中运行在线强化学习算法，则需要具有高保真度的仿真环境，而这种环境建造成本极其昂贵且难度巨大。对于现实中存在的大量已收集的在线交互数据，离线强化学习也称批处理强化学习，其目标是探索如何利用收集得到的交互数据(即用某个在线策略与环境交互保留后的经验样本)中学习最优策略，在没有任何其他在线交互的情况下，仅利用先前收集到的数...

【技术保护点】

【技术特征摘要】
1.一种基于离线环境交互的机器人控制方法，其特征在于，包括如下步骤：S1，通过摄像头采集环境信息，生成目标行动者网络，S2，通过离线数据集建立目标评论家网络，将目标行动者网络输入目标评论家网络进行更新；S3，采集当前评论家网络，将目标评论家网络与当前评论家网络进行比较，得到偏差率；S4，判断所述偏差率是否大于预设偏差率阈值，S5，若大于，则生成损失函数，通过损失函数对当前评论家网络进行更新，得到更新后的当前评论家网络；S6，根据更新后的当前评论家网络生成截断固定原子数量；S7，通过截断固定原子数量生成目标值输入当前行动者网络；S8，通过当前行动者网络控制机器人执行相应的动作。2.根据权利要求1所述的一种基于离线环境交互的机器人控制方法，其特征在于，目标评论家网络为两个，通过两个评论家神经网络来更新Q(s,a)，两个网络的参数记为θ1,θ2，目标函数的更新公式为：r为样本记录的离线环境回报值，γ是回报衰减度，通过计算更新公式，来更新现在的目标值y；缓解高估问题的同时，为目标动作添加截断噪声：通过μ(s
′
,θ
′
)评论家获取动作值，并且加入ε截断噪声，获取到下一步动作3.根据权利要求1所述的一种基于离线环境交互的机器人控制方法，其特征在于，使用已收集未知策略交互样本的离线数据集Β；初始化总迭代次数T，折扣因子γ，偏移量τ＝0.0001，c＝0.5，训练过程控制头最大范围e
max
，已经记录的最小范围e
min
，当前值e；VEA模型参数循环针对情节中每一时间步；从数据集Β中取随机批量样本(s,a,r,s
′
)；根据编码输入s,a，解码输出计算值函数：z～N(μ,σ)更新VEA模型参数：4.根据权利要求3所述的一种基于离线环境交互的机器人控制方法，其特征在于...

【专利技术属性】
技术研发人员：刘全，欧阳震，朱斐，
申请(专利权)人：苏州大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人