结合视觉和语言指令引导的机器人抓取方法、装置制造方法及图纸

技术编号：42944493 阅读：18 留言：0更新日期：2024-10-11 16:02

本申请公开了一种结合视觉和语言指令引导的机器人抓取方法及装置，属于机器人抓取领域，该方法包括：获取目标场景的RGB图像以及对应的视觉特征，获取目标对象输入的语言指令以及语言指令对应的文本特征；在目标场景中的待抓取对象的语言指令无法匹配到目标指令的情况下，基于SAM模型得到待抓取对象的掩码，其中，目标指令为预先设置的自然语言指令；融合RGB图像的视觉特征与掩码的视觉特征得到融合视觉特征，对齐融合视觉特征与文本特征得到对齐结果；基于对齐结果生成抓取信息，控制机器人按照抓取信息执行抓取操作，其中，抓取信息包括抓取点、抓取角度、抓取宽度。本申请采用SAM模型生成精确掩码，并对掩码进行特征提取，结合视觉与语言指令对机器人的抓取操作进行引导，提高了机器人抓取操作的抓取精度及通用性。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及机器人抓取，更具体地，涉及一种结合视觉和语言指令引导的机器人抓取方法、装置。

技术介绍

1、目前，深度学习备受关注，被广泛应用到机器人抓取领域。机器人抓取利用视觉信息，主要方法为直接将深度图像作为输入，最后输出抓取位姿和相应的抓取质量分数；提出了生成式残差卷积神经网络，充分利用rgb和深度图像的信息，生成更准确的抓取位姿。机器人抓取技术的最新进展是整合了语言理解能力，使机器人能够根据自然语言指令抓取物体。例如，提出联合学习视觉和语言特征，并从rgb图像中预测二维抓取框；提出端到端的视觉-自然语言抓取生成模型，预测杂乱场景中参照物体的二维抓取姿势。在机器人视觉引导抓取任务中，准确识别和抓取目标物体是一个关键问题。如果仅使用单一模态(如仅rgb图像)作为输入，在复杂场景中可能无法可靠地执行抓取任务。因此，结合视觉和自然语言引导机器人抓取很有必要，这种多模态引导的机器人抓取方法在复杂场景的抓取任务中能够更准确地识别和抓取物体。

2、但是，现有的抓取模型并不具备通用性，指定需要抓取的物体依赖于精确的语言指令，具体来说，必须知道物体的名称。然而，在真实抓取场景中，无法识别某些物体或将其称为未命名的物体，因此无法通过指定物体名称的语言指令来抓取这些物体，存在机器人抓取的准确性低的问题。

技术实现思路

1、针对现有技术的至少一个缺陷或改进需求，本专利技术提供了一种结合视觉和语言指令引导的机器人抓取方法、装置，将视觉和语言指令进行结合从而引导机器人执行抓取操作，提高机器人抓取的准确性。

2、为实现上述目的，按照本专利技术的第一个方面，提供了一种结合视觉和语言指令引导的机器人抓取方法，该方法包括：

3、获取目标场景的rgb图像以及对应的视觉特征，获取目标对象输入的语言指令以及所述语言指令对应的文本特征；

4、在所述目标场景中的待抓取对象的语言指令无法匹配到目标指令的情况下，基于sam模型得到所述待抓取对象的掩码，其中，所述目标指令为预先设置的自然语言指令；

5、融合所述rgb图像的视觉特征与所述掩码的视觉特征得到融合视觉特征，对齐所述融合视觉特征与所述文本特征得到对齐结果；

6、基于所述对齐结果生成抓取信息，控制机器人按照所述抓取信息执行抓取操作，其中，所述抓取信息包括抓取点、抓取角度、抓取宽度。

7、在一个示例性实施例中，所述基于sam模型得到所述待抓取对象的掩码包括：

8、确定预训练的所述sam模型对应的sam生成掩码模块；

9、依据所述目标对象与所述sam掩码生成模块之间的交互方式，确定所述目标场景中的待抓取对象的位置信息，其中，所述交互方式包括点击选中，边界框框选，自定义划线，所述位置信息包括所述待抓取对象的位置、区域；

10、基于所述sam模型与所述位置信息生成所述待抓取对象的掩码。

11、在一个示例性实施例中，在所述基于所述sam模型与所述位置信息生成所述待抓取对象的掩码之后，所述方法还包括：

12、采用alpha卷积网络处理所述掩码，提取所述掩码的视觉特征，得到所述掩码对应的一系列视觉特征。

13、在一个示例性实施例中，所述融合所述rgb图像的视觉特征与所述掩码的视觉特征得到融合视觉特征包括：

14、通过对位相加的特征融合方式，对所述rgb图像的视觉特征与所述掩码的视觉特征进行融合，得到所述融合视觉特征。

15、在一个示例性实施例中，所述对齐所述融合视觉特征与所述文本特征得到对齐结果包括：

16、将所述融合视觉特征与所述文本特征输入至抓取投射器；

17、所述抓取投射器对所述融合视觉特征进行转换，得到一系列的转化视觉特征；

18、所述抓取投射器对所述文本特征进行转换，得到转化文本特征。

19、在一个示例性实施例中，所述抓投射器包含视觉投射器、文本投射器，所述将所述融合视觉特征与所述文本特征输入至抓取投射器包括：

20、将所述融合视觉特征输入至视觉投射器，将所述文本特征输入至文本投射器；

21、所述视觉投射器对所述融合视觉特征进行转换，得到一系列的所述转化视觉特征；

22、所述文本投射器对所述文本特征进行转换，得到所述转化文本特征。

23、在一个示例性实施例中，在所述将所述融合视觉特征输入至视觉投射器，将所述文本特征输入至文本投射器之后，所述方法还包括：

24、根据点乘相似性计算所述转化视觉特征与所述转化文本特征之间的相似度，在所述相似度达到预设值的情况下，得到所述对齐结果；

25、基于所述对齐结果生成抓取信息，控制机器人按照所述抓取信息执行抓取操作，其中，所述抓取信息包括抓取点、抓取角度、抓取宽度。

26、按照本专利技术的第二个方面，还提供了一种结合视觉和语言指令引导的机器人抓取装置，其包括：

27、获取模块，其被配置为获取目标场景的rgb图像以及对应的视觉特征，获取目标对象输入的语言指令以及所述语言指令对应的文本特征；

28、确定模块，其被配置为在所述目标场景中的待抓取对象的语言指令无法匹配到目标指令的情况下，基于sam模型得到所述待抓取对象的掩码，其中，所述目标指令为预先设置的自然语言指令；

29、融合模块，其被配置为融合所述rgb图像的视觉特征与所述掩码的视觉特征得到融合视觉特征，对齐所述融合视觉特征与所述文本特征得到对齐结果；

30、抓取模块，其被配置为基于所述对齐结果生成抓取信息，控制机器人按照所述抓取信息执行抓取操作，其中，所述抓取信息包括抓取点、抓取角度、抓取宽度。

31、按照本专利技术的第三个方面，还提供了一种电子设备，其包括至少一个处理单元、以及至少一个存储单元，其中，所述存储单元存储有计算机程序，当所述计算机程序被所述处理单元执行时，使得所述处理单元执行上述任一项所述方法的步骤。

32、按照本专利技术的第四个方面，还提供了一种存储介质，其存储有可由访问认证设备执行的计算机程序，当所述计算机程序在访问认证设备上运行时，使得所述访问认证设备执行上述任一项所述方法的步骤。

33、总体而言，通过本专利技术所构思的以上技术方案与现有技术相比，能够取得下列有益效果：

34、本专利技术提供的一种结合视觉和语言指令引导的机器人抓取方法，通过获取目标场景的rgb图像以及对应的视觉特征，获取目标对象输入的语言指令以及所述语言指令对应的文本特征；在所述目标场景中的待抓取对象的语言指令无法匹配到目标指令的情况下，基于sam模型得到所述待抓取对象的掩码，其中，所述目标指令为预先设置的自然语言指令；融合所述rgb图像的视觉特征与所述掩码的视觉特征得到融合视觉特征，对齐所述融合视觉特征与所述文本特征得到对齐结果；基于所述对齐结果生成抓取信息，控制机器人按照所述抓取信息执行抓取操作，其中，所述抓取信息包括抓取点、抓取角度、抓取宽度，采用sam模本文档来自技高网...

【技术保护点】

1.一种结合视觉和语言指令引导的机器人抓取方法，其特征在于，包括：

2.如权利要求1所述的结合视觉和语言指令引导的机器人抓取方法，其特征在于，所述基于SAM模型得到所述待抓取对象的掩码包括：

3.如权利要求2所述的结合视觉和语言指令引导的机器人抓取方法，其特征在于，在所述基于所述SAM模型与所述位置信息生成所述待抓取对象的掩码之后，所述方法还包括：

4.如权利要求1所述的结合视觉和语言指令引导的机器人抓取方法，其特征在于，所述融合所述RGB图像的视觉特征与所述掩码的视觉特征得到融合视觉特征包括：

5.如权利要求1所述的结合视觉和语言指令引导的机器人抓取方法，其特征在于，所述对齐所述融合视觉特征与所述文本特征得到对齐结果包括：

6.如权利要求5所述的结合视觉和语言指令引导的机器人抓取方法，所述抓投射器包含视觉投射器、文本投射器，其特征在于，所述将所述融合视觉特征与所述文本特征输入至抓取投射器包括：

7.如权利要求6所述的结合视觉和语言指令引导的机器人抓取方法，其特征在于，在所述将所述融合视觉特征输入至视觉投射器

8.一种结合视觉和语言指令引导的机器人抓取装置，其特征在于，包括：

9.一种电子设备，其特征在于，包括至少一个处理单元、以及至少一个存储单元，其中，所述存储单元存储有计算机程序，当所述计算机程序被所述处理单元执行时，使得所述处理单元执行权利要求1～7任一项所述方法的步骤。

10.一种存储介质，其特征在于，其存储有计算机程序，所述计算机程序被处理单元执行时实现如权利要求1～7任一项所述方法的步骤。

...

【技术特征摘要】

1.一种结合视觉和语言指令引导的机器人抓取方法，其特征在于，包括：

2.如权利要求1所述的结合视觉和语言指令引导的机器人抓取方法，其特征在于，所述基于sam模型得到所述待抓取对象的掩码包括：

3.如权利要求2所述的结合视觉和语言指令引导的机器人抓取方法，其特征在于，在所述基于所述sam模型与所述位置信息生成所述待抓取对象的掩码之后，所述方法还包括：

4.如权利要求1所述的结合视觉和语言指令引导的机器人抓取方法，其特征在于，所述融合所述rgb图像的视觉特征与所述掩码的视觉特征得到融合视觉特征包括：

5.如权利要求1所述的结合视觉和语言指令引导的机器人抓取方法，其特征在于，所述对齐所述融合视觉特征与所述文本特征得到对齐结果包括：

6.如权利要求5所述的结合视觉和语言指令引导的机...

【专利技术属性】
技术研发人员：赵洲，郑东沅，许永超，
申请(专利权)人：华中师范大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人