一种抓取可供性改进Q网络的推动-抓取奖励设计方法技术

技术编号：42571141 阅读：11 留言：0更新日期：2024-08-29 00:37

本发明专利技术涉及机器人抓取技术领域，具体公开了一种抓取可供性改进Q网络的推动‑抓取奖励设计方法，通过采集工作场景的RGB‑D图像信息经投影变换获取彩色高度图像、深度高度图像，分别输入到推动网络和抓取网络以及预训练好的抓取可供性网络内，依次产生像素级别的累积奖励期望值Q<subgt;push</subgt;、Q<subgt;grasp</subgt;和可供性值A<subgt;grasp</subgt;；选取场景中最小抓取对象像素值占比计算出的抓取可供性数值为设定阈值，进一步判断是否存在可供性数值不小于1的像素数量超过设定阈值的情况选择采取抓取操作或执行推动动作，实现提高抓取和推动行为评估的合理性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及机器人抓取，具体涉及一种抓取可供性改进q网络的推动-抓取奖励设计方法。

技术介绍

1、越来越多的研究人员将深度强化学习算法应用在非结构化的机器人抓取任务上，通过自监督的方式让机器人与工作环境进行交互，从重复的交互中逐渐学会抓取技能，基于深度强化学习的抓取方法可以在一定程度上提升机器人的自适应抓取能力；采用结合推动与抓取的策略为解决复杂环境下物体的抓取提供了一个重要思路。

2、在实际操作中，往往可以将紧密堆叠的物体先推到相互分离的状态，然后再进行后续抓取工作，这样可以显著提高抓取成功率；因此如何将这两个任务建模成统一的多任务框架，实现协同推动和抓取是解决问题的一个很有前景的方向。

3、为了解决上述技术问题一些研究者提出了基于深度强化学习的协同推动抓取策略，如基于深度q网络的视觉推动抓取(visual pushing for grasping,vpg)模型。vpg模型通过抓取动作和推动动作的协同操作来完成对紧密堆叠物体的抓取任务，它通过建立全卷积神经网络来预测所有像素点的q值，比较抓取动作和推动动作的q值，用贪婪策略选取最大动作q值并执行该动作。该方法通过推动动作改变物体的位置分布，提高抓取效率，然而其奖励函数的稀疏性导致算法前期收敛速度较慢。当前基于强化学习的推动-抓取算法仍然存在着对推动动作有效性评估不足、推抓协同效率低、抓取成功率较低等问题。

技术实现思路

1、本专利技术的目的在于提供一种抓取可供性改进q网络的推动-抓取奖励设计方法，解决以下技术问题：

2、怎样降低抓取区域内抓取对象相互堆叠而造成抓取成功率不高的问题，提高抓取和推动行为评估的合理性。

3、本专利技术的目的可以通过以下技术方案实现：

4、一种抓取可供性改进q网络的推动-抓取奖励设计方法，所述方法包括：

5、s1、采集工作场景的rgb-d图像信息经投影变换获取彩色高度图像、深度高度图像；

6、s2、将彩色高度图像和深度高度图像作为输入，分别输入到推动网络fcnpush和抓取网络fcngrasp以及预训练好的抓取可供性网络内，依次产生像素级别的累积奖励期望值qpush、qgrasp和可供性值agrasp；

7、s3、判断推动动作执行后可供性变化量是否超过设定阈值：

8、若是，则给予该推动动作正向奖励；

9、若否，则不给予动作奖励；

10、选取场景中最小抓取对象像素值占比计算出的抓取可供性数值为设定阈值，进一步判断是否存在可供性数值不小于1的像素数量超过设定阈值的情况：

11、若存在，那么优先对场景中可供抓取的物体采取抓取操作；反之执行推动动作。

12、优选地，所述抓取可供性网络的构建方式为：

13、在imagenet上预训练一个并行的121层densenet网络；

14、进行通道联级，再加上2个额外的1×1卷积层与非线性激活函数(relu)和空间批归一化处理后进行上采样；

15、通过一个densenet网络将高度图的颜色通道作为输入，另一个densenet网络将高度图的深度通道作为输入。

16、优选地，所述抓取可供性网络的预训练方式为：

17、对vpg训练过程中的不少于3000次操作进行数据收集，收集彩色高度图像和深度高度图像以及执行动作的角度和像素位置信息，创建与输入图像大小相同的零矩阵，建立抓取动作可供性的标签；

18、对于抓取动作：如果机器人夹爪手指之间对端距离超过设定阈值，那么该抓取动作的像素位置点标签设置为1；

19、将抓取动作可供性标签、抓取动作的彩色高度图像和深度高度图像以及像素位置信息分别输入搭建好的网络模型内；

20、提取图像相关特征进行特征拼接后经过归一化和卷积处理，然后上采样获取抓取可供性预测数值，并使用huber损失函数进行迭代训练；

21、所述损失函数计算公式为：

22、

23、其中，θi是迭代i次时神经网络的参数，为目标网络参数且在每次更新时保持固定；只通过单个像素p在网络中反向传递梯度，通过网络前向传播计算执行动作ai的可供性数值预测；所有其他像素在迭代i次时反向传播损失为0。

24、优选地，所述步骤s1中彩色高度图像、深度高度图像的获取方式为：

25、在当前时刻t下，由深度相机采集工作场景的rgb-d图像，将彩色图像与深度图像的每个像素通过内外参矩阵从相机坐标系转换到机械臂坐标系下，得到一系列点云，然后将属于工作环境内的点云沿重力方向映射到二维平面，得到彩色图像高度图与深度图像高度图。

26、优选地，所述步骤s2中：

27、对推动动作前后场景的16个方向的可供性图像进行累加并作差与设定阈值比较，来构建推动动作的奖励函数；对于推动动作前后抓取可供性数值变化量大于可供性设定阈值的推动动作，其奖励设为0.5，其他为0，推动动作奖励函数的计算公式为：

28、

29、其中，i为可供性图像对应的方向索引，ct为推动动作前的彩色高度图，dt为推动动作前的深度高度图，ct+1为推动动作后的彩色高度图，dt+1为推动动作后的深度高度图，ai(ct+1，dt+1)为执行推动动作后的第i个方向的可供性图像，ai(ct，dt)为执行推动动作前的第i个方向的可供性图像，ζ为本实施例设置的可供性阈值。

30、优选地，还包括：对抓取动作的奖励函数的设计：

31、对于抓取动作而言，采用稀疏的奖励函数，计算公式为：

32、

33、优选地，所述步骤s3中实现推动和抓取协同策略的公式为：

34、

35、其中，st建模为当前时刻t场景下的rgb-d高度图图像，θ是目标q网络的参数，qpush(st，apush，θ)为推动动作累计奖励期望，qgrasp(st，agrasp，θ)为抓取动作累计奖励期望，count为可供性图像数值不小于1的像素个数，affordance_threshold为抓取可供性阈值。

36、优选地，基于所述方法设置了推动动作的奖励函数和推动与抓取策略的协同机制模型，所述模型包括基于深度q网络的视觉推动抓取模块和预训练好的抓取可供性网络模块。

37、本专利技术的有益效果：

38、(1)本专利技术在vpg基础上，通过引入抓取可供性网络对推动奖励进行重新设计，并且采用更优的决策方法选择推动和抓取动作，提出了基于抓取可供性改进的推动奖励；能够更好地评估推动行为的有效性，让抓取对象周围产生更多的可供性区域。

39、(2)本专利技术通过训练一个抓取可供性网络，从抓取可供性角度出发为推动操作任务设计一个新的推动奖励机制用于评估推动行为的合理性，用推动前后抓取对象周边可供性区域的增减来判断推动行为的有效性，提出了一个新型的推动与抓取策略的协同机制模型，该模型包括基于深度q网络的视觉推动抓取模本文档来自技高网...

【技术保护点】

1.一种抓取可供性改进Q网络的推动-抓取奖励设计方法，其特征在于，所述方法包括：

2.根据权利要求1所述的一种抓取可供性改进Q网络的推动-抓取奖励设计方法，其特征在于：所述抓取可供性网络的构建方式为：

3.根据权利要求1所述的一种抓取可供性改进Q网络的推动-抓取奖励设计方法，其特征在于：所述抓取可供性网络的预训练方式为：

4.根据权利要求1所述的一种抓取可供性改进Q网络的推动-抓取奖励设计方法，其特征在于：所述步骤S1中彩色高度图像、深度高度图像的获取方式为：

5.根据权利要求1所述的一种抓取可供性改进Q网络的推动-抓取奖励设计方法，其特征在于：所述步骤S2中：

6.根据权利要求1所述的一种抓取可供性改进Q网络的推动-抓取奖励设计方法，其特征在于，还包括：对抓取动作的奖励函数的设计：

7.根据权利要求1所述的一种抓取可供性改进Q网络的推动-抓取奖励设计方法，其特征在于，所述步骤S3中实现推动和抓取协同策略的公式为：

8.根据权利要求1-7所述的一种抓取可供性改进Q网络的推动-抓取奖励设计方法，其特

...

【技术特征摘要】

1.一种抓取可供性改进q网络的推动-抓取奖励设计方法，其特征在于，所述方法包括：

2.根据权利要求1所述的一种抓取可供性改进q网络的推动-抓取奖励设计方法，其特征在于：所述抓取可供性网络的构建方式为：

3.根据权利要求1所述的一种抓取可供性改进q网络的推动-抓取奖励设计方法，其特征在于：所述抓取可供性网络的预训练方式为：

4.根据权利要求1所述的一种抓取可供性改进q网络的推动-抓取奖励设计方法，其特征在于：所述步骤s1中彩色高度图像、深度高度图像的获取方式为：

5.根据权利要求1所述的一种抓取可供性改进q网络的推动-抓取...

【专利技术属性】
技术研发人员：李东年，温凯，陈成军，赵正旭，
申请(专利权)人：青岛理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人