一种序列拨推采样归置策略迭代生成学习方法及系统技术方案

技术编号：35262891 阅读：22 留言：0更新日期：2022-10-19 10:23

本发明专利技术公开了一种序列拨推采样归置策略迭代生成学习方法，用于在有限的工作空间、丰富的碰撞和高度耦合的情况下生成连续的推送动作，将随机分散在有限容器内的任意形状的物体自主归置，从而为未来的未知物体挤出尽可能多的空间，自主实现最大化装箱。本方法采用任务和运动规划思想，将任务学习抽象为一个两层问题。高层任务规划使用基于近端策略优化(PPO)的强化学习进行顺序推送决策。在底层运动规划中，采用传统的轨迹线性规划方法结合碰撞检测生成机器人推送操作。本方法能够以高效灵活的方式排列未知对象，同时将策略学习和机械臂控制解耦，从而具有更好的从仿真到现实世界的可移植性。界的可移植性。界的可移植性。

全部详细技术资料下载

【技术实现步骤摘要】
一种序列拨推采样归置策略迭代生成学习方法及系统

[0001]本专利技术涉及机器学习应用领域。尤其涉及一种序列拨推采样归置策略迭代生成学习方法及系统，适用于对无人料仓包装、物流装箱、地外自主天体采样等。

技术介绍

[0002]通过机械臂收集和归置物体在料仓包装、物流和其他工业领域有着广泛的应用。另一个潜在的应用是在地外天体科学采样中，地外机器人收集有趣的样本并将其打包到一个容器中，以便科学研究。在这些应用中，当工作场景高度结构化时，可以通过预定义的标识符，使得机器人实现高精度的定位和操作。然而，当在非结构化的开放场景中工作时，如无人超市，顾客干扰机器人，或在地外进行科学探索时，机械臂的性能通常会以某种方式受到影响。这里的一些挑战包括未知和不规则的物体、不精确的测量和操控的不确定性，因此需要系统具备高度的适应性和鲁棒性。
[0003]近年来，随着深度学习和强化学习的发展，人们提出了各种各样的抓取方法，并建立了许多抓取系统，这表明机器人可以通过深度学习或深度强化学习从原始观察中学习抓取。然而，随机分布和稀疏分布对象的自主归置仍然是一个开放的研究领域。首先，物体的材质和形状是未知的，需要机器人具有良好的适应性，其次，由于归置过程中的推拨与环境有丰富的接触，有时无法达到期望的理想位置。因此，机器人被期望能够针对不断变化的状态进行主动地调节，第三，由于物体的特殊结构和不同形状的互补性，而且置任务往往受到有限空间的约束，因此当前的动作可能与次动作序列的有短期或长期的相关性。面对这三种难题，...

【技术保护点】

【技术特征摘要】
1.一种序列拨推采样归置策略迭代生成学习方法，其特征在于包括：设计实验应用场景，通过机械臂腕部的手眼相机实现工作空间的图像采集，通过机械臂末端的双指夹持器来执行归置动作；通过所述手眼相机获取工作空间的4通道RGB
‑
D图像，根据工作空间预定义边界和手眼相机内外参数将4通道RGB
‑
D图像矫正到俯视视角，输出Heightmap s
rgbd
；进行高层任务决策规划设计：搭建图像特征提取层，将获取的s
rgbd
提取成高维特征向量s
t
，作为强化学习的状态输入；采用基于近端策略优化PPO的强化学习进行顺序推送决策，生成拨推动作策略；进行底层动作规划设计：设计合理的归置动作；针对生成的拨推动作策略，规划机械臂运动轨迹，并进行碰撞力检测；通过机械臂控制器实现动作执行；根据物理场景搭建虚拟仿真训练场景，设置动力学参数，进行学习训练，生成智能体网络；将智能体网络迁移到物理试验中，验证本序列拨推归置策略生成方法的性能。2.根据权利要求1所述的一种序列拨推采样归置策略迭代生成学习方法，其特征在于：设计应用场景，具体为：假设工作空间预定义边界为已知，物体归置的容器为长方体箱子，待归置物体随机放置于工作空间内，待归置物体的质量、形状、颜色均为未知；机械臂腕部设置手眼相机，实现工作空间的图像采集，相机内外参数为已知；机械臂末端设置有双指夹持器，用于执行归置动作；机械臂内设置力传感器，用于碰撞力检测。3.根据权利要求1所述的一种序列拨推采样归置策略迭代生成学习方法，其特征在于：所述搭建图像特征提取层，将获取的s
rgbd
提取成高维特征向量s
t
，作为强化学习的状态输入，具体为：所述图像特征提取层，包括三个特征提取单元和两个全连接的层；每个特征提取单元由卷积层、重叠池化层和残差模块组成；首先使用卷积层、非线性激活函数和批量归一化来提取特征，然后将特征输入重叠池化层，从而减小输出的大小并提高预测精度。最后，添加两个残差模块进行恒等映射以避免深层神经网络的退化；特征提取层从4通道RGB
‑
D Heightmap s
rgbd
提取特征，并映射到128维表示。4.根据权利要求3所述的一种序列拨推采样归置策略迭代生成学习方法，其特征在于：所述采用基于近端策略优化的强化学习进行顺序推送决策，具体为：近端策略优化PPO包括一个优化随机策略的决策网络和一个近似值函数的评价网络；决策网络和评价网络都是由一个三层的多层感知器MLP构建，该多层感知器MLP有两个大小为512和256的隐藏层；将以下损失函数作为优化目标其中，)为当前策略π
θ
和旧策略的比值，a
t
为当前动作，s
t
为当前状态，为优势函数，ε为超参数，表示对有限批次样本的平均值，clip为裁剪函数，确定了r
t
(θ)的上限1+ε和下限1
‑
ε。
5.根据权利要求4所述的一种序列拨推采样归置策略迭代生成学习方法，其特征在于：所述设计合理的归置动作，具体为：将每个时间...

【专利技术属性】
技术研发人员：汤亮，刘昊，黄煌，谢心如，
申请(专利权)人：北京控制工程研究所，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人