一种序列拨推采样归置策略迭代生成学习方法及系统技术方案

技术编号:35262891 阅读:22 留言:0更新日期:2022-10-19 10:23
本发明专利技术公开了一种序列拨推采样归置策略迭代生成学习方法,用于在有限的工作空间、丰富的碰撞和高度耦合的情况下生成连续的推送动作,将随机分散在有限容器内的任意形状的物体自主归置,从而为未来的未知物体挤出尽可能多的空间,自主实现最大化装箱。本方法采用任务和运动规划思想,将任务学习抽象为一个两层问题。高层任务规划使用基于近端策略优化(PPO)的强化学习进行顺序推送决策。在底层运动规划中,采用传统的轨迹线性规划方法结合碰撞检测生成机器人推送操作。本方法能够以高效灵活的方式排列未知对象,同时将策略学习和机械臂控制解耦,从而具有更好的从仿真到现实世界的可移植性。界的可移植性。界的可移植性。

【技术实现步骤摘要】
一种序列拨推采样归置策略迭代生成学习方法及系统


[0001]本专利技术涉及机器学习应用领域。尤其涉及一种序列拨推采样归置策略迭 代生成学习方法及系统,适用于对无人料仓包装、物流装箱、地外自主天体 采样等。

技术介绍

[0002]通过机械臂收集和归置物体在料仓包装、物流和其他工业领域有着广泛 的应用。另一个潜在的应用是在地外天体科学采样中,地外机器人收集有趣 的样本并将其打包到一个容器中,以便科学研究。在这些应用中,当工作场 景高度结构化时,可以通过预定义的标识符,使得机器人实现高精度的定位 和操作。然而,当在非结构化的开放场景中工作时,如无人超市,顾客干扰 机器人,或在地外进行科学探索时,机械臂的性能通常会以某种方式受到影 响。这里的一些挑战包括未知和不规则的物体、不精确的测量和操控的不确 定性,因此需要系统具备高度的适应性和鲁棒性。
[0003]近年来,随着深度学习和强化学习的发展,人们提出了各种各样的抓取 方法,并建立了许多抓取系统,这表明机器人可以通过深度学习或深度强化 学习从原始观察中学习抓取。然而,随机分布和稀疏分布对象的自主归置仍 然是一个开放的研究领域。首先,物体的材质和形状是未知的,需要机器人 具有良好的适应性,其次,由于归置过程中的推拨与环境有丰富的接触,有 时无法达到期望的理想位置。因此,机器人被期望能够针对不断变化的状态 进行主动地调节,第三,由于物体的特殊结构和不同形状的互补性,而且置 任务往往受到有限空间的约束,因此当前的动作可能与次动作序列的有短期 或长期的相关性。面对这三种难题,传统的精确量化的方式往往无法很好的 解决。
[0004]综上,需要一种序列拨推采样归置策略迭代生成学习方法,基于人工智 能的方式,结合有限精度的传感器信息,利用机械臂操控将随机分散在有限 容器内的任意形状的物体自主归置,从而为未来的未知物体挤出尽可能多的 空间,自主实现最大化装箱。

技术实现思路

[0005]本专利技术所解决的技术问题是:克服现有技术不足,提供了一种序列拨推 采样归置策略迭代生成学习方法,用于在有限的工作空间、丰富的碰撞和高 度耦合的情况下生成连续的推送动作,实现有限容器内的随机分散物体自主 归置。
[0006]本专利技术的技术解决方案是:
[0007]一种序列拨推采样归置策略迭代生成学习方法,包括:
[0008]步骤1:设计实验应用场景,通过机械臂腕部的手眼相机实现工作空间 的图像采集,通过机械臂末端的双指夹持器来执行归置动作;
[0009]步骤2:通过所述手眼相机获取工作空间的4通道RGB

D图像,根据工 作空间预定义边界和手眼相机内外参数将4通道RGB

D图像矫正到俯视视角, 输出Heightmap s
rgbd

[0010]步骤3:进行高层任务决策规划设计:搭建图像特征提取层,将获取的 s
rgbd
提取成高维特征向量s
t
,作为强化学习的状态输入;采用基于近端策略 优化PPO的强化学习进行
顺序推送决策,生成拨推动作策略;
[0011]步骤4:进行底层动作规划设计:设计合理的归置动作;针对步骤3中 生成的拨推动作策略,规划机械臂运动轨迹,并进行碰撞力检测;通过机械 臂控制器实现动作执行;
[0012]步骤5:根据物理场景搭建虚拟仿真训练场景,设置动力学参数,进行 学习训练,生成智能体网络;
[0013]步骤6:将步骤5中智能体网络迁移到物理试验中,验证本序列拨推归 置策略生成方法的性能。
[0014]进一步的,设计应用场景,具体为:假设工作空间预定义边界为已知, 物体归置的容器为长方体箱子,待归置物体随机放置于工作空间内,待归置 物体的质量、形状、颜色均为未知;机械臂腕部设置手眼相机,实现工作空 间的图像采集,相机内外参数为已知;机械臂末端设置有双指夹持器,用于 执行归置动作;机械臂内设置力传感器,用于碰撞力检测。
[0015]进一步的,所述搭建图像特征提取层,将获取的s
rgbd
提取成高维特征向 量s
t
,作为强化学习的状态输入,具体为:
[0016]所述图像特征提取层,包括三个特征提取单元和两个全连接的层;每个 特征提取单元由卷积层、重叠池化层和残差模块组成;
[0017]首先使用卷积层、非线性激活函数和批量归一化来提取特征,然后将特 征输入重叠池化层,从而减小输出的大小并提高预测精度。最后,添加两个 残差模块进行恒等映射以避免深层神经网络的退化;特征提取层从4通道 RGB

D Heightmap s
rgbd
提取特征,并映射到128维表示。
[0018]进一步的,所述采用基于近端策略优化的强化学习进行顺序推送决策, 具体为:
[0019]近端策略优化PPO包括一个优化随机策略的决策网络和一个近似值函数 的评价网络;
[0020]决策网络和评价网络都是由一个三层的多层感知器MLP构建,该多层感 知器MLP有两个大小为512和256的隐藏层;
[0021]将以下损失函数作为优化目标
[0022][0023]其中,为当前策略π
θ
和旧策略的比值,a
t
为当 前动作,s
t
为当前状态,为优势函数,ε为超参数,表示对有限批次样本 的平均值,clip为裁剪函数,确定了r
t
(θ)的上限1+ε和下限1

ε。
[0024]进一步的,所述设计合理的归置动作,具体为:
[0025]将每个时间步推送动作的表示定义为a
t
=[x
pix
,y
pix
,d],其中[x
pix
,y
pix
] 对应于从容器区域映射的动作网格空间的像素坐标,d是推动动作的方向, 将平面中的连续推动方向离散为八个可选方向,闭合二指末端的宽面作为拨 推的执行面。
[0026]进一步的,所述针对步骤3中生成的拨推动作策略,规划机械臂运动轨 迹,并进行碰撞力检测,具体为:一次推送的完整过程包括:网络输出所需 的推送位置和方向;夹持器在所需位置上方垂直移动和停止;夹持器垂直移 动到所需的推动位置;夹持器沿所需方向沿直线移动固定距离;如果抓取器 到达目的地或从力传感器获得反馈,则抓取器停止;机械臂的运动采用传统 的线性规划方法。
[0027]进一步的,所述通过机械臂控制器实现动作执行,具体为采用多线程 方式执行机械臂控制,实现控制与力反馈的结合。
[0028]进一步的,所述根据物理场景搭建虚拟仿真训练场景,设置动力学参 数,进行学习训练,一次学习过程如下:从s
rgbd
中提取特征s
t
输入决策网 络,决策网络生成决策π
θ
并选择动作a
t
,根据动作指令执行拨推本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种序列拨推采样归置策略迭代生成学习方法,其特征在于包括:设计实验应用场景,通过机械臂腕部的手眼相机实现工作空间的图像采集,通过机械臂末端的双指夹持器来执行归置动作;通过所述手眼相机获取工作空间的4通道RGB

D图像,根据工作空间预定义边界和手眼相机内外参数将4通道RGB

D图像矫正到俯视视角,输出Heightmap s
rgbd
;进行高层任务决策规划设计:搭建图像特征提取层,将获取的s
rgbd
提取成高维特征向量s
t
,作为强化学习的状态输入;采用基于近端策略优化PPO的强化学习进行顺序推送决策,生成拨推动作策略;进行底层动作规划设计:设计合理的归置动作;针对生成的拨推动作策略,规划机械臂运动轨迹,并进行碰撞力检测;通过机械臂控制器实现动作执行;根据物理场景搭建虚拟仿真训练场景,设置动力学参数,进行学习训练,生成智能体网络;将智能体网络迁移到物理试验中,验证本序列拨推归置策略生成方法的性能。2.根据权利要求1所述的一种序列拨推采样归置策略迭代生成学习方法,其特征在于:设计应用场景,具体为:假设工作空间预定义边界为已知,物体归置的容器为长方体箱子,待归置物体随机放置于工作空间内,待归置物体的质量、形状、颜色均为未知;机械臂腕部设置手眼相机,实现工作空间的图像采集,相机内外参数为已知;机械臂末端设置有双指夹持器,用于执行归置动作;机械臂内设置力传感器,用于碰撞力检测。3.根据权利要求1所述的一种序列拨推采样归置策略迭代生成学习方法,其特征在于:所述搭建图像特征提取层,将获取的s
rgbd
提取成高维特征向量s
t
,作为强化学习的状态输入,具体为:所述图像特征提取层,包括三个特征提取单元和两个全连接的层;每个特征提取单元由卷积层、重叠池化层和残差模块组成;首先使用卷积层、非线性激活函数和批量归一化来提取特征,然后将特征输入重叠池化层,从而减小输出的大小并提高预测精度。最后,添加两个残差模块进行恒等映射以避免深层神经网络的退化;特征提取层从4通道RGB

D Heightmap s
rgbd
提取特征,并映射到128维表示。4.根据权利要求3所述的一种序列拨推采样归置策略迭代生成学习方法,其特征在于:所述采用基于近端策略优化的强化学习进行顺序推送决策,具体为:近端策略优化PPO包括一个优化随机策略的决策网络和一个近似值函数的评价网络;决策网络和评价网络都是由一个三层的多层感知器MLP构建,该多层感知器MLP有两个大小为512和256的隐藏层;将以下损失函数作为优化目标其中,)为当前策略π
θ
和旧策略的比值,a
t
为当前动作,s
t
为当前状态,为优势函数,ε为超参数,表示对有限批次样本的平均值,clip为裁剪函数,确定了r
t
(θ)的上限1+ε和下限1

ε。
5.根据权利要求4所述的一种序列拨推采样归置策略迭代生成学习方法,其特征在于:所述设计合理的归置动作,具体为:将每个时间...

【专利技术属性】
技术研发人员:汤亮刘昊黄煌谢心如
申请(专利权)人:北京控制工程研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1