System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 用于训练机器学习模型以便确定用于操纵物体的多指夹持器的抓取的设备和方法技术_技高网

用于训练机器学习模型以便确定用于操纵物体的多指夹持器的抓取的设备和方法技术

技术编号:44176436 阅读:11 留言:0更新日期:2025-02-06 18:21
根据各种实施例,提供了一种用于训练机器学习模型以便确定用于操纵物体的多指夹持器的抓取的方法,包括:针对多个场景中的每一个进行如下操作,每个场景包括处于相应姿态的物体:确定场景中所包括的物体的点云表示;通过机器学习模型来确定针对物体的多个表面点中的每一个的多指抓取;确定所述抓取的抓取损失,其中所述损失包括碰撞损失和抓取稳定性损失中的至少一个,确定包括所确定的抓取损失的总损失,以及调整机器学习模型以减小总损失。

【技术实现步骤摘要】

本公开涉及用于训练机器学习模型以便确定用于操纵物体的多指夹持器的抓取的设备和方法


技术介绍

1、机器人抓取是在杂乱环境中(例如,在箱拣选(bin picking)应用中)操纵物体所需要的基本技能。多指机器人手部(诸如“影子手部(shadow hand)”)模仿人类手部的结构,从而实现了复杂的物体操纵。多指机器人手部的数据驱动抓取规划旨在找到一种手部配置,该手部配置提供了手部内的目标物体的稳定固定。这涉及预测机器人夹持器的6d姿态、连同确定多指手部的手指的关节角度。这由于增加了自由度的数量而增加了困难性。

2、因此,用于训练机器学习模型来预测抓取、特别是多指夹持器的抓取的有效方法是合期望的。

3、c.ferrari和j.f.canny在icra,vol.3,no.4,1992,p.6对“planning optimalgrasps”(在下文中被称为参考文献1)的公布特别地描述了q1抓取度量。


技术实现思路

1、根据各种实施例,提供了一种用于训练机器学习模型以便确定用于操纵物体的多指夹持器的抓取的方法,该方法包括:

2、针对多个场景中的每一个进行如下操作,每个场景包括(至少包括)处于相应姿态的物体(即,每个场景包括处于各种位置和取向的一个或多个物体,其中这些物体在不同的场景之间可能不同,但是也可能(至少部分地)相同):

3、·确定场景中所包括的物体的点云表示;

4、·通过机器学习模型来确定针对物体的多个表面点中的每一个的抓取,其中每个抓取是指定了手掌位置和手指关节配置的多指抓取;

5、·确定该抓取的抓取损失,其中该损失包括(可微(differentiable))碰撞损失和(可微)抓取稳定性损失中的至少一个,确定包括所确定的抓取损失的总损失(即,对这些抓取损失进行组合,例如相加或求平均),以及调整机器学习模型以减小总损失(即,在使得总损失减小(即,总损失在另一次前向传递中将会更低)的方向上调整参数值,通常是权重,即,根据损失的梯度进行调整,通常使用反向传播)。

6、上述方法允许将机器学习模型(例如,神经网络)训练成以高效抓取表示(手掌位置和关节配置)的形式来预测多指抓取,这便于在实现高效训练的同时获取关于复杂物体的灵巧(dexterous)抓取技能。

7、特别是针对多指夹持器,碰撞损失是要考虑的重要方面,因为每个手指都可能与其他物体、或例如应当从中取出该物体的箱的壁发生碰撞。这可以通过如下方式来确定:确定夹持器的网格,从夹持器的网格确定碰撞点,并且计算距该物体、其他物体、或场景中的其他元素(诸如箱壁)的网格的距离。

8、在下文中,描述了各种实施例。

9、实施例1是如上所述的用于训练机器学习模型的方法。

10、实施例2是根据实施例1所述的方法,其中抓取稳定性损失是q1度量损失的上界。

11、由于q1度量以及其下界是难以计算的,因此使用q1度量的上界允许更高效的训练。

12、实施例3是根据实施例1或2所述的方法,包括:针对每个场景,确定一个或多个地面真值抓取,并且确定总损失以针对每个场景包括所确定的抓取与一个或多个地面真值抓取之间的监督训练损失。

13、因此,可以包括专家知识,以使机器学习模型学习“最佳”抓取。

14、实施例4是根据实施例1至3中任一项所述的方法,包括:从点云表示确定物体的表面网格,并且确定总损失以针对每个所确定的抓取包括引导损失,该引导损失惩罚根据所确定的抓取的多指夹持器的接触点与如表面网格给出的物体的表面之间的距离。

15、因此,机器学习模型学习确定实际上触及该物体的抓取。网格还可以(或者可以替代地)用于确定抓取稳定性损失。

16、实施例5是根据实施例1至4中任一项所述的方法,进一步包括:针对每个场景和每个所确定的抓取,通过机器学习模型来确定抓取的置信度(即,机器学习模型在抓取中的置信度),并且抓取的所确定的置信度越高,就越多地减小所确定的抓取的损失贡献。

17、因此,可以避免机器学习模型被“训练得偏离”在其中它非常有信心的抓取。

18、实施例6是一种用于控制机器人的方法,包括:根据实施例1至5中的任一项来训练机器学习模型,获得待操纵物体的点云表示,通过将待操纵物体的点云表示从点云表示馈送到经训练的机器学习模型来确定抓取,以及控制机器人来执行所确定的抓取以操纵物体。

19、实施例7是一种数据处理设备(特别是机器人控制器),被配置成执行根据实施例1至6中任一项所述的方法。

20、实施例8是一种包括指令的计算机程序,所述指令在由计算机执行时使得所述计算机执行根据实施例1至6中任一项所述的方法。

21、实施例9是一种包括指令的计算机可读介质,所述指令在由计算机执行时使得所述计算机执行根据实施例1至6中任一项所述的方法。

本文档来自技高网...

【技术保护点】

1.一种用于训练机器学习模型(112,202)以便确定用于操纵物体的多指夹持器(104)的抓取的方法,包括:

2.根据权利要求1所述的方法,其中所述抓取稳定性损失是Q1度量损失的上界。

3.根据权利要求1或2所述的方法,包括:针对每个场景,确定一个或多个地面真值抓取,并且确定所述总损失以针对每个场景包括所确定的抓取与所述一个或多个地面真值抓取之间的监督训练损失。

4.根据权利要求1至3中任一项所述的方法,包括:从所述点云表示(201)确定物体的表面网格,并且确定所述总损失以针对每个所确定的抓取包括引导损失,所述引导损失惩罚根据所确定的抓取的所述多指夹持器(104)的接触点与如所述表面网格给出的物体的表面之间的距离。

5.根据权利要求1至4中任一项所述的方法,进一步包括:针对每个场景和每个所确定的抓取,通过机器学习模型(112,202)来确定所述抓取的置信度,并且所述抓取的所确定的置信度越高,就越多地减小所确定的抓取的损失贡献。

6.一种用于控制机器人100的方法,包括:

7.一种数据处理设备(102),被配置成执行权利要求1至6中任一项所述的方法。

8.一种包括指令的计算机程序,所述指令在由计算机执行时使得所述计算机执行根据权利要求1至6中任一项所述的方法。

9.一种包括指令的计算机可读介质,所述指令在由计算机执行时使得所述计算机执行根据权利要求1至6中任一项所述的方法。

...

【技术特征摘要】

1.一种用于训练机器学习模型(112,202)以便确定用于操纵物体的多指夹持器(104)的抓取的方法,包括:

2.根据权利要求1所述的方法,其中所述抓取稳定性损失是q1度量损失的上界。

3.根据权利要求1或2所述的方法,包括:针对每个场景,确定一个或多个地面真值抓取,并且确定所述总损失以针对每个场景包括所确定的抓取与所述一个或多个地面真值抓取之间的监督训练损失。

4.根据权利要求1至3中任一项所述的方法,包括:从所述点云表示(201)确定物体的表面网格,并且确定所述总损失以针对每个所确定的抓取包括引导损失,所述引导损失惩罚根据所确定的抓取的所述多指夹持器(104)的接触点与如所述表面网格给出的物体的表...

【专利技术属性】
技术研发人员:A·V·吴G·纽曼P·布莱特纳
申请(专利权)人:罗伯特·博世有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1