一种杂乱场景下机器人自主拾取与放置位姿获取方法技术

技术编号：41494287 阅读：10 留言：0更新日期：2024-05-30 14:39

本发明专利技术公开了一种杂乱场景下机器人自主拾取与放置位姿获取方法，该方案将相机获取的工作场景彩色、深度图像作为输入，利用语义分割模型获取目标信息并加强输入信息表征能力，采用一种演员‑评论家形式的深度强化学习方法自主移除障碍物探索目标物体位姿，再利用基于深度特征模板匹配的方法获取目标放置位姿，最后拾取放置物体到特定位姿，该方案可以实现在复杂场景中探索出被遮挡目标物体并放置到特定的位姿。该方案实现了依据拾取位姿对目标放置位姿的高精度定位，在杂乱场景中目标拾取成功率可达80％以上，从整体提高了目标放置位姿获取任务的成功率和稳定性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及杂乱场景下机械臂抓取放置物体领域，具体为一种杂乱场景下机器人自主拾取与放置位姿获取方法。

技术介绍

1、机器人传统抓取放置任务已经得到了深入的研究，并在结构化场景中取得了巨大的成功。传统系统使用已知对象的先验知识，如机械手和物体的3d模型及其物理特性，为已知物体抓取找到稳定的力闭合，再设计脚本规划和运动控制。虽然这些系统在结构化环境(如制造业)中是稳健的，但在非结构化环境(例如物流、农业、家庭)中目标物体常会被障碍物遮挡，传统系统很难部署。该方法在面对目标不可见等杂乱场景时采取先探索拾取目标后匹配放置的方式执行，能有效部署在非结构化场景中。

2、在探索拾取目标任务中，最近的数据驱动方法利用学习算法和数据(从人类或物理实验中收集)，将视觉观察直接映射到动作表示。该方法是数据驱动和模型不可知的，学习模型是通过自我监督来训练的。为了减轻杂乱场景带来的不确定性和碰撞，在模型驱动方法和数据驱动方法中都研究了使用不可感知的操作来避免碰撞，如推送。随着推动的增加，推动抓取系统得到了改进。与这些方法类似，该方法学习了推抓协同策略重新排列杂乱场景中的物体以便于无碰撞拾取目标，但进一步考虑了场景复杂性，该方法没有假设目标的初始可见性，而是利用实例推送的优势在具有挑战性的杂乱场景中探索目标实例。

3、在匹配放置任务中，通常采用以目标对象为中心的表达。在视觉伺服控制方面，人们对目标检测和位姿估计进行了大量研究，这些方法通常需要特定于对象的训练数据，包括关键点和密集描述符在内的替代表示已被证明能够进行类别级概括并表示

技术实现思路

1、本专利技术提供了一种基于强化学习的杂乱场景下机器人自主拾取与放置位姿获取方法，实现在复杂场景中探索出被遮挡目标物体并放置到特定的位姿。

2、本专利技术提出的技术方案如下：

3、一方面，一种基于强化学习的杂乱场景下机器人自主拾取位姿获取方法，包括如下步骤：

4、s1、获取工作空间中目标随机杂乱堆放且被障碍物遮挡场景的图像；

5、s2、利用已知的相机外参对s1获得的图像做正交投影以及语义分割，得到彩色、深度高度图以及目标掩码，并对彩色、深度高度图以及目标掩码作等角旋转得到图像作为视觉观察；

6、利用已知的相机外参对图像做正交投影得到彩色、深度高度图，并使用鲁棒的语义分割模块来注释感兴趣的对象并检测目标的存在，得到目标预测掩码，将彩色高度图、深度高度图以及目标预测掩码做等角度旋转，得到不同角度的高度图像作为视觉观察；

7、s3、构建并训练基于演员-评论家深度强化学习的目标拾取位姿获取模型；

8、所述基于演员-评论家深度强化学习的目标拾取位姿获取模型由一个评论家网络和两个演员执行器组成，两个演员执行器分别为基于贝叶斯的演员执行器和基于分类器的演员执行器；

9、所述目标拾取位姿获取模型训练过程中，以视觉观察作为强化学习状态表示，评论家网络依据状态信息评判所有潜在动作，演员执行器根据所有动作的得分和经验知识执行该状态下的最佳动作，改变当前状态得到下一个状态，以此往复，得到演员执行器的执行动作序列，移除障碍物后，演员执行器下一执行动作对应的位姿，作为最终获取最佳拾取位姿；在每一次迭代训练中视觉观察为输入信息，输出信息为机器人依据当前状态下做出的非抓握动作和/或抓握动作；

10、潜在动作是指预先设定的像素对应的机器人的规范动作；

11、一个状态就是一个时刻的视觉观察，非抓握动作是指推送，抓握动作是指抓取，因为每一次动作执行后，场景发生变化，机器人根据变化后的场景执行动作，场景变化的不可预知造成动作是不可预知的，所以机器人是自主的；

12、s4、将实时获取的图像按照s2处理后得到的视觉观察，输入训练好的目标拾取位姿获取模型，输出一系列不可预知的动作序列，通过不可预知的动作序列重新排列目标周围杂乱的物体来移除障碍物探索目标，直至目标周围空间满足无碰撞抓握时，获取该状态下的执行动作对应的目标最佳拾取位姿。

13、进一步地，所述评论家网络将视觉观察映射到机器人动作的预期回报来衡量所有可执行动作的q值，q值越大说明机器人在该位姿执行动作后得到的奖励回报越大；

14、演员执行器依据评论家网络得出的所有可执行动作的q值和预先设定的经验知识选择最佳动作执行：

15、若语义分割模块输出的预测掩码图像没有包含目标，则判定目标不可见，基于贝叶斯的演员执行器则会依据障碍物先验概率和通用推动作的q值预测执行最佳探索推送，来探索目标；

16、反之，若语义分割模块输出的预测掩码图像包含目标，则判定目标可见，基于分类器的演员执行器则会依据抓动作的q值和推动作的q值预测协调面向目标的推、抓动作。

17、对深度高度图进行等角度逆时针旋转16次，得到16个不同角度的高度图，用来表征执行动作的不同方向。

18、进一步地，所述评论家网络采用深度q函数强化学习网络，包括卷积层，特征提取层和推/抓网络层(全卷积网络)，所述评论家网络以不同角度的彩色高度图像、深度高度图像和目标预测掩码作为强化学习状态表示并作为输入，输出视觉状态空间到动作空间的逐像素映射，即每一个可执行动作的q值。

19、q值可以有效地评判演员执行器动作的优劣；

20、进一步地，所述演员执行器通过将评论家网络输出的可执行动作的q值与经验知识相结合，获取两个演员执行器在不同场景中需要做出的推或抓动作；

21、基于贝叶斯的演员执行器使用通用推动作q值分布与障碍物先验概率分布的乘积作为探索动作的先验概率，并在最近的三次目标探索失败动作位姿构建一个具有低峰值的多模态高斯核，核函数表示为上次探索失败动作的概率，每次执行都以上次的探索失败动作概率作为条件得到探索动作后验概率，机器人根据后验概率执行探索动作；

22、其中，通用推动作q值分布通过将常数全1掩码送入评论家网络获得，概率常数全1掩码表示将工作空间中的所有对象表示为潜在目标；障碍物先验以概率图的形式对障碍物进行编码得到，障碍物先验概率分布编码了关于障碍物在预期推动方向上边缘的先验；

23、基于二元分类器的演员执行器将最大推送动作q值、最大抓取动作q值、目标边界占用率、目标边界占用阈值和连续抓取失败的次数作为输入，若目标可见，通过基于二元分类器的演员执行器来实现最佳推动作或最佳抓动作，选取并执行。

24、两个执行器，一个是探索推动作序列，一个是推抓结合动作序列；

25、第二方面，一种基于强化学习的杂乱场景下机器人自主放置位姿获取方法，其特征在本文档来自技高网...

【技术保护点】

1.一种杂乱场景下机器人自主拾取位姿获取方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的方法，其特征在于，所述评论家网络将视觉观察映射到机器人动作的预期回报来衡量所有可执行动作的Q值，Q值越大说明机器人在该位姿执行动作后得到的奖励回报越大；

3.根据权利要求1所述的方法，其特征在于，所述评论家网络采用深度Q函数强化学习网络，包括卷积层，特征提取层和推/抓网络层，所述评论家网络以不同角度的彩色高度图像、深度高度图像和目标预测掩码作为强化学习状态表示并作为输入，输出视觉状态空间到动作空间的逐像素映射，即每一个可执行动作的Q值。

4.根据权利要求1所述的方法，其特征在于，所述演员执行器通过将评论家网络输出的可执行动作的Q值与经验知识相结合，获取两个演员执行器在不同场景中需要做出的推或抓动作；

5.一种杂乱场景下机器人自主放置位姿获取方法，其特征在于，首先采用权利要求1-4任一项所述的方法，获取目标最佳拾取位姿；

6.根据权利要求5所述的方法，其特征在于，对放置区域图像进行特征提取前进行预处理，具体是指将放置区域的深度

7.根据权利要求5所述的方法，其特征在于，通过深度特征模板匹配预测目标空间位移是指，将目标物体局部区域经过特征提取得到目标局部深度特征后，将目标局部深度特征旋转为多个方向作为模板去匹配放置区域深度特征，将目标局部深度特征逐一叠加到放置区域深度特征，通过卷积运算找出具备最高特征相关性的区域，以匹配出目标最佳放置位姿。

8.根据权利要求5所述的方法，其特征在于，所述特征提取网络为双流前馈FCN网络，输入数据为拾取和放置区域的视觉观察信息，所述拾取和放置区域的视觉观察信息包括拾取局部区域深度图像和放置区域深度图像，输出为目标局部区域深度特征和放置区域深度特征；

9.根据权利要求8所述的方法，其特征在于，特征提取网络在训练过程中，将每个动作分解为两个训练标签，分别用于生成二进制独热像素映射；训练损失为所有独热像素映射与拾取放置预测成功率之间的交叉熵，每个回归通道上使用Huber损失进行训练。

10.根据权利要求7所述的方法，其特征在于，所述通过深度特征模板匹配预测目标空间位移，是指将与放置成功相关的像素级数值的相关性计算作为卷积运算，裁剪的局部特征被视为卷积核，将放置区域深度特征和卷积核进行逐元素相乘，并将结果求和，从而生成输出最佳放置局部特征图，放置局部区域的中心为最佳放置位姿。

...

【技术特征摘要】

1.一种杂乱场景下机器人自主拾取位姿获取方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的方法，其特征在于，所述评论家网络将视觉观察映射到机器人动作的预期回报来衡量所有可执行动作的q值，q值越大说明机器人在该位姿执行动作后得到的奖励回报越大；

3.根据权利要求1所述的方法，其特征在于，所述评论家网络采用深度q函数强化学习网络，包括卷积层，特征提取层和推/抓网络层，所述评论家网络以不同角度的彩色高度图像、深度高度图像和目标预测掩码作为强化学习状态表示并作为输入，输出视觉状态空间到动作空间的逐像素映射，即每一个可执行动作的q值。

4.根据权利要求1所述的方法，其特征在于，所述演员执行器通过将评论家网络输出的可执行动作的q值与经验知识相结合，获取两个演员执行器在不同场景中需要做出的推或抓动作；

5.一种杂乱场景下机器人自主放置位姿获取方法，其特征在于，首先采用权利要求1-4任一项所述的方法，获取目标最佳拾取位姿；

6.根据权利要求5所述的方法，其特征在于，对放置区域图像进行特征提取前进行预处理，具体是指将放置区域的深度图像做处理，利用深度信息映射到一个三维点云，其中对于每个像素，使用深度值将其映射到相应的三维空间坐标，形成点云数据；然后利用正交投影将生成的三维点云数据映射到二维平面上，其中每个像素代表三维空间中的...

【专利技术属性】
技术研发人员：张辉，郭朝建，江一鸣，李康，许智文，陈为立，尹松涛，黄长庆，
申请(专利权)人：湖南大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人