一种使用大型语言模型的机器臂抓握姿态决策的方法技术

技术编号：42197114 阅读：42 留言：0更新日期：2024-07-30 18:44

本发明专利技术公开了一种使用大型语言模型的机器臂抓握姿态决策的方法，包括以下步骤：通过场景语义分割模块对真实世界的照片进行分割，得到场景中潜在的物品实例位置的掩码，将掩码与原本的照片进行相交计算,得到照片中物品的实例图像并输入物体识别模块，得到实例图像中物品实例的可能的种类名称以及该物品是该种类的种类概率，将可能的种类名称、种类概率和用户需求一同输入到大型语言模型决策模块，得到决策的物品种类，将决策的物品种类对应掩码的坐标，输入到抓握姿态生成模块中，根据输入的掩码的坐标对所有抓握姿态的像素坐标进行筛选，按照距离最近选择，得到距离输入的掩码的坐标最近的抓握姿态，提升了系统的灵活性和适应性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及人工智能与机器人领域，特别是涉及一种使用大型语言模型的机器臂抓握姿态决策的方法。

技术介绍

1、面向任务的抓取（task-oriented grasping，简称tog）是机器人领域研究的热门问题。在早期的机器人抓取研究中，主要采用分析方法，通过分析物品的几何形状，专注于抓握物品姿态的稳定性，而非物品本身。因此，这些分析方法在面对全新的物品时，往往无法有效地做出抓握姿态。

2、随着技术的发展，具有触觉感应功能的仿人类机器人抓取控制技术逐渐出现。这类抓取控制技术虽然解决了部分稳定性问题，但仍然忽略了物品的具体特性。

3、近年来，随着计算能力的提升和深度学习在图像领域的快速发展，数据驱动的基于深度学习的机器人抓取姿态预测逐渐成为主流。通过对大规模数据集进行预训练，机器人可以利用rgb图像信息或点云信息对部分之前未见过的物品进行有效抓取。

4、现有技术在机器人抓取方面仍然存在以下几个主要缺陷和不足：

5、1、泛化能力不足

6、在部分场景中，摆放杂乱的物品可能包括一些没有先验知识的物品，这对机器人的视觉识别能力提出了高要求，现有的视觉识别方法在处理全新物品时，往往效果不佳；

7、2、语义理解能力有限

8、用户输入的语义可能存在混淆，这对机器人的语义理解能力提出了挑战，现有的抓取决策在处理用户模糊或不精确的输入时，往往无法准确识别并抓取目标物品；

9、3、模型适应性差

10、如今大模型（如大型语言模型，large la

11、4、缺乏综合决策方法

12、虽然已有一些将大型语言模型应用于机器人领域的尝试，例如autort使用llms生成机器人指令，palm-e将llm与具身智能的传感器模态结合，但这些方法仍然无法在不同场景下对不同物品直接进行抓取决策，还需要进一步的训练或微调。

13、综上所述，尽管取得了一些进展，现有技术仍然缺乏一个能够有效解决未来机器人抓取决策问题的基于大语言的抓取决策方法。

技术实现思路

1、本专利技术主要解决的技术问题是提供一种使用大型语言模型的机器臂抓握姿态决策的方法，得到决策的物品种类和机器臂抓握姿态，提升系统的灵活性和适应性。

2、为解决上述技术问题，本专利技术采用的一个技术方案是：提供一种使用大型语言模型的机器臂抓握姿态决策的方法，包括以下步骤：

3、a、通过场景语义分割模块对真实世界的照片进行分割，得到场景中潜在的物品实例位置的掩码；

4、b、将掩码与原本的照片进行相交计算,得到照片中物品的实例图像;

5、c、将物品的实例图像输入物体识别模块，得到实例图像中物品实例的可能的种类名称以及该物品是该种类的种类概率；

6、d、将可能的种类名称、种类概率和用户需求一同输入到大型语言模型决策模块，并使用提示规范大型语言模型决策模块的输出，通过大型语言模型决策模块进行决策，得到决策的物品种类；

7、e、将决策的物品种类对应步骤a中得到的掩码的坐标，输入到抓握姿态生成模块中；

8、f、通过抓握姿态生成模块对步骤a中的照片深度点云化，进行抓握姿态生成，将抓握姿态的点云坐标转换成像素坐标；

9、g、根据输入的掩码的坐标对步骤f中生成的所有抓握姿态的像素坐标进行筛选，按照距离最近选择，得到距离输入的掩码的坐标最近的抓握姿态。

10、在本专利技术一个较佳实施例中，在步骤a中，所述场景语义分割模块使用sam基础模型进行照片中物品实例的分割，将真实世界的rgb照片输入至sam基础模型得到掩码，根据掩码的像素数量进行筛选，得到照片中潜在物品实例的掩码，掩码的长宽同原本输入图片长宽，同时得到掩码所在原图中的像素坐标。

11、在本专利技术一个较佳实施例中，在步骤b中，将掩码与原本的照片进行相交计算，保留照片中与掩码相交的部分，将每个掩码与照片进行一次计算，得到所有掩码对应照片中的部分，即物品的实例图像。

12、在本专利技术一个较佳实施例中，所述物体识别模块使用clip多模态基础模型进行物体实例图像的识别，将一组图像和一组文本映射到同一空间进行相似度的计算，从而得到clip多模态基础模型认为的与实例图像最相近的文本，将步骤b中得到的所有物品的实例图像与物品种类集合文本一同输入至clip多模态基础模型中，得到每个物品实例图像对应的文本的相似度矩阵；

13、对每个物品实例图像得到的相似度矩阵进行筛选，选择相似度大于x的物品种类名传递给大型语言模型决策模块供决策。

14、在本专利技术一个较佳实施例中，x为10%。

15、在本专利技术一个较佳实施例中，大型语言模型决策模块使用提示的方式规范化大型语言模型决策模块的输出，使其根据用户的需求以及物体识别模块传递给大型语言模型决策模块的物品种类信息进行决策，具体如下：

16、情况1、

17、当大型语言模型决策模块在给定的物品种类中找不到能够满足用户需求的物品种类时，(这是因为物体识别模块的泛化能力有限)，仅当第一次进行物品决策时允许大型语言模型决策模块自行生成一种可能的物品名，将其加入到物品种类集合文本，并令物体识别模块再进行一次识别；

18、情况2、

19、物体识别模块得到的结果若满足相似度大于x的物品种类数量不低于1个，选择将单个物品的对应的不大于n个的相似度大于x的物品种类一同输入给大型语言模型决策模块，视为同一物品实例的多种物品种类可供大型语言模型决策模块进行决策。

20、在本专利技术一个较佳实施例中，所述n取3。

21、在本专利技术一个较佳实施例中，抓握姿态生成模块使用graspnet抓取网络模型进行抓握姿态的生成，将真实世界的照片以及照片对应的深度图像输入到graspnet抓取网络模型中，得到图像的点云，生成图像中所有可能的六个自由度抓握姿态，得到抓握姿态的点云坐标系；

22、将抓握姿态的点云坐标系中的坐标经过相机内参计算得到像素坐标系下的像素坐标，同得到的决策的物品实例的坐标进行欧氏距离计算，得到距离最小的抓握姿态。

23、本专利技术的有益效果是：本专利技术指出的一种使用大型语言模型的机器臂抓握姿态决策的方法，具有以下特点：

24、1、无需训练或微调：使用的大型语言模型的参数规模、训练数据的规模和通用性，使得整个方法使用到的模型无需进一步训练，从而大大降低了部署的时间和成本；

25、2、模块化设计：通过物体识别模块和场景语义分割模块组成视觉模块，帮助大型语言模型决策模块进行决策，解决视觉模块可能产生的识别错误问题；

26、3、强大的泛化能力：通过场景语义分割模块和物体识别模块可以对没有先验知识的场景进行物体实例的判断和位置确定，得到场景的本文档来自技高网...

【技术保护点】

1.一种使用大型语言模型的机器臂抓握姿态决策的方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的使用大型语言模型的机器臂抓握姿态决策的方法，其特征在于，在步骤A中，所述场景语义分割模块使用SAM基础模型进行照片中物品实例的分割，将真实世界的RGB照片输入至SAM基础模型得到掩码，根据掩码的像素数量进行筛选，得到照片中潜在物品实例的掩码，掩码的长宽同原本输入图片长宽，同时得到掩码所在原图中的像素坐标。

3.根据权利要求1所述的使用大型语言模型的机器臂抓握姿态决策的方法，其特征在于，在步骤B中，将掩码与原本的照片进行相交计算，保留照片中与掩码相交的部分，将每个掩码与照片进行一次计算，得到所有掩码对应照片中的部分，即物品的实例图像。

4.根据权利要求1所述的使用大型语言模型的机器臂抓握姿态决策的方法，其特征在于，所述物体识别模块使用CLIP多模态基础模型进行物体实例图像的识别，将一组图像和一组文本映射到同一空间进行相似度的计算，从而得到CLIP多模态基础模型认为的与实例图像最相近的文本，将步骤B中得到的所有物品的实例图像与物品种类集合文本一同

5.根据权利要求4所述的使用大型语言模型的机器臂抓握姿态决策的方法，其特征在于，X为10%。

6.根据权利要求4所述的使用大型语言模型的机器臂抓握姿态决策的方法，其特征在于，大型语言模型决策模块使用提示的方式规范化大型语言模型决策模块的输出，使其根据用户的需求以及物体识别模块传递给大型语言模型决策模块的物品种类信息进行决策，具体如下：

7.根据权利要求6所述的使用大型语言模型的机器臂抓握姿态决策的方法，其特征在于，所述n取3。

8.根据权利要求1所述的使用大型语言模型的机器臂抓握姿态决策的方法，其特征在于，抓握姿态生成模块使用Graspnet抓取网络模型进行抓握姿态的生成，将真实世界的照片以及照片对应的深度图像输入到Graspnet抓取网络模型中，得到图像的点云，生成图像中所有可能的六个自由度抓握姿态，得到抓握姿态的点云坐标系；

...

【技术特征摘要】

1.一种使用大型语言模型的机器臂抓握姿态决策的方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的使用大型语言模型的机器臂抓握姿态决策的方法，其特征在于，在步骤a中，所述场景语义分割模块使用sam基础模型进行照片中物品实例的分割，将真实世界的rgb照片输入至sam基础模型得到掩码，根据掩码的像素数量进行筛选，得到照片中潜在物品实例的掩码，掩码的长宽同原本输入图片长宽，同时得到掩码所在原图中的像素坐标。

3.根据权利要求1所述的使用大型语言模型的机器臂抓握姿态决策的方法，其特征在于，在步骤b中，将掩码与原本的照片进行相交计算，保留照片中与掩码相交的部分，将每个掩码与照片进行一次计算，得到所有掩码对应照片中的部分，即物品的实例图像。

4.根据权利要求1所述的使用大型语言模型的机器臂抓握姿态决策的方法，其特征在于，所述物体识别模块使用clip多模态基础模型进行物体实例图像的识别，将一组图像和一组文本映射到同一空间进行相似度的计算，从而得到clip多模态基础模型认为的与实例图像最相近...

【专利技术属性】
技术研发人员：封启纪，贺亮，马延，
申请(专利权)人：江苏云幕智造科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人