【技术实现步骤摘要】
一种序列拨推采样归置策略迭代生成学习方法及系统
[0001]本专利技术涉及机器学习应用领域。尤其涉及一种序列拨推采样归置策略迭 代生成学习方法及系统,适用于对无人料仓包装、物流装箱、地外自主天体 采样等。
技术介绍
[0002]通过机械臂收集和归置物体在料仓包装、物流和其他工业领域有着广泛 的应用。另一个潜在的应用是在地外天体科学采样中,地外机器人收集有趣 的样本并将其打包到一个容器中,以便科学研究。在这些应用中,当工作场 景高度结构化时,可以通过预定义的标识符,使得机器人实现高精度的定位 和操作。然而,当在非结构化的开放场景中工作时,如无人超市,顾客干扰 机器人,或在地外进行科学探索时,机械臂的性能通常会以某种方式受到影 响。这里的一些挑战包括未知和不规则的物体、不精确的测量和操控的不确 定性,因此需要系统具备高度的适应性和鲁棒性。
[0003]近年来,随着深度学习和强化学习的发展,人们提出了各种各样的抓取 方法,并建立了许多抓取系统,这表明机器人可以通过深度学习或深度强化 学习从原始观察中学习抓取。然而,随机分布和稀疏分布对象的自主归置仍 然是一个开放的研究领域。首先,物体的材质和形状是未知的,需要机器人 具有良好的适应性,其次,由于归置过程中的推拨与环境有丰富的接触,有 时无法达到期望的理想位置。因此,机器人被期望能够针对不断变化的状态 进行主动地调节,第三,由于物体的特殊结构和不同形状的互补性,而且置 任务往往受到有限空间的约束,因此当前的动作可能与次动作序列的有短期 或长期的相关性。面对这三种难题, ...
【技术保护点】
【技术特征摘要】
1.一种序列拨推采样归置策略迭代生成学习方法,其特征在于包括:设计实验应用场景,通过机械臂腕部的手眼相机实现工作空间的图像采集,通过机械臂末端的双指夹持器来执行归置动作;通过所述手眼相机获取工作空间的4通道RGB
‑
D图像,根据工作空间预定义边界和手眼相机内外参数将4通道RGB
‑
D图像矫正到俯视视角,输出Heightmap s
rgbd
;进行高层任务决策规划设计:搭建图像特征提取层,将获取的s
rgbd
提取成高维特征向量s
t
,作为强化学习的状态输入;采用基于近端策略优化PPO的强化学习进行顺序推送决策,生成拨推动作策略;进行底层动作规划设计:设计合理的归置动作;针对生成的拨推动作策略,规划机械臂运动轨迹,并进行碰撞力检测;通过机械臂控制器实现动作执行;根据物理场景搭建虚拟仿真训练场景,设置动力学参数,进行学习训练,生成智能体网络;将智能体网络迁移到物理试验中,验证本序列拨推归置策略生成方法的性能。2.根据权利要求1所述的一种序列拨推采样归置策略迭代生成学习方法,其特征在于:设计应用场景,具体为:假设工作空间预定义边界为已知,物体归置的容器为长方体箱子,待归置物体随机放置于工作空间内,待归置物体的质量、形状、颜色均为未知;机械臂腕部设置手眼相机,实现工作空间的图像采集,相机内外参数为已知;机械臂末端设置有双指夹持器,用于执行归置动作;机械臂内设置力传感器,用于碰撞力检测。3.根据权利要求1所述的一种序列拨推采样归置策略迭代生成学习方法,其特征在于:所述搭建图像特征提取层,将获取的s
rgbd
提取成高维特征向量s
t
,作为强化学习的状态输入,具体为:所述图像特征提取层,包括三个特征提取单元和两个全连接的层;每个特征提取单元由卷积层、重叠池化层和残差模块组成;首先使用卷积层、非线性激活函数和批量归一化来提取特征,然后将特征输入重叠池化层,从而减小输出的大小并提高预测精度。最后,添加两个残差模块进行恒等映射以避免深层神经网络的退化;特征提取层从4通道RGB
‑
D Heightmap s
rgbd
提取特征,并映射到128维表示。4.根据权利要求3所述的一种序列拨推采样归置策略迭代生成学习方法,其特征在于:所述采用基于近端策略优化的强化学习进行顺序推送决策,具体为:近端策略优化PPO包括一个优化随机策略的决策网络和一个近似值函数的评价网络;决策网络和评价网络都是由一个三层的多层感知器MLP构建,该多层感知器MLP有两个大小为512和256的隐藏层;将以下损失函数作为优化目标其中,)为当前策略π
θ
和旧策略的比值,a
t
为当前动作,s
t
为当前状态,为优势函数,ε为超参数,表示对有限批次样本的平均值,clip为裁剪函数,确定了r
t
(θ)的上限1+ε和下限1
‑
ε。
5.根据权利要求4所述的一种序列拨推采样归置策略迭代生成学习方法,其特征在于:所述设计合理的归置动作,具体为:将每个时间...
【专利技术属性】
技术研发人员:汤亮,刘昊,黄煌,谢心如,
申请(专利权)人:北京控制工程研究所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。