一种基于大语言模型和深度学习的多模式软体手抓取方法及系统技术方案

技术编号：43083527 阅读：21 留言：0更新日期：2024-10-26 09:33

本发明专利技术公开了一种基于大语言模型和深度学习的多模式软体手抓取方法及系统，方法包括：S1，利用深度相机拍摄RGB图片与深度图片；S2，将RGB图片作为输入，使用Yolo模型识别并分割图片中的物体，输出物体名称与其在图中的二维坐标；S3，将S2的输出与指令作为输入，使用GPT4判断应当抓取的物体名称，输出对应的二维坐标；S4，利用获得的二维坐标分割RGB图像与深度图像，获得待抓取对象的分割图；S5，提取RGB图像中物体二维形状特征与深度图像中深度特征，通过SVM分类模型判断物体形状；S6，将判断出的形状与抓取方式建立对应关系，最终得到抓取方式。本发明专利技术能够实现高准确率的实时物体识别和操作决策。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于智能机器人领域，具体涉及一种基于大语言模型和深度学习的多模式软体手抓取方法及系统。

技术介绍

1、现有的技术主要依赖于人工或标准化的机械流水线作业，这些方法在处理多样化的物品时存在局限性。例如，流水线方式只适用于单一类型的食品包装，且机械体型较大，成本高，不适合外卖的多样性需求。此外，现有技术在抓取形状不规则或柔软物体时面临挑战，例如包装袋中的蔬菜或不规则形状的水果。

2、同时传统的抓取算法通常依赖大量的数据标注，这既昂贵又容易出错。

技术实现思路

1、为解决传统手动打包与机械化包装在多样性、灵活性和成本效率上的不足，本专利技术提出了一种基于大语言模型和深度学习的多模式软体手抓取方法及系统，该软体手能够自动识别并适应不同形态、材质和重量的外卖物品，如饮料、餐品、药品及蔬菜等，通过精确控制多种抓取方式(如包络、夹持、吸取)，实现对各类物品的高效、安全和精确搬运。此外，利用大语言模型技术优化抓取算法，本专利技术能够在无需繁琐的预标注数据的情况下，实现高准确率的实时物体识别和操作决策，显著提高外卖配送过程的自动化水平和操作效率。

2、为实现上述目的，本专利技术提供了如下方案：

3、一种基于大语言模型和深度学习的多模式软体手抓取方法，包括以下步骤：

4、s1：利用深度相机拍摄环境中多物体的rgb图像与深度图像；

5、s2：将rgb图像作为输入，使用yolov7深度学习模型识别并分割图像中的物体，输出物体名称与该物体在图像中的二维坐标；

6、s3：将s2的输出与用户的抓取需求作为输入，使用大型预训练语言模型gpt-4v判断应当抓取的物体名称，输出对应的二维坐标；

7、s4：利用s3获得的二维坐标分割rgb图像与深度图像，获得待抓取物体的分割图；

8、s5：提取rgb图像中物体二维形状特征与深度图像中深度特征，并基于待抓取物体的分割图，通过svm分类模型判断待抓取物体的形状，获得待抓取物体的抓取方式；

9、s6：将判断出的抓取物体的形状与抓取方式建立一一对应关系，最终得到环境中多物体的抓取方式。

10、优选的，所述s2中，输出的对应物体在图像中的二维坐标为：

11、

12、其中，zc是三维空间中点到摄像机成像平面的深度，向量表示图像平面上的点，其中u和v是对应点在图像坐标系中的横纵坐标，内参矩阵包含了摄像机的焦距(fx,fy)和主点坐标(cx,cy)，外参矩阵包含了从世界坐标系到摄像机坐标系的旋转r和平移t，世界坐标向量表示三维世界中的点。

13、优选的，所述s5中，提取rgb图像中物体二维形状特征的方法包括：

14、利用hu矩提取形状特征，其中，hu矩的获得方式为：使用opencv，先通过cv2.moments()函数计算图像的几何矩，然后使用cv2.humoments()函数从这些矩中获取hu矩的值。

15、优选的，所述s5中，提取深度图像中深度特征的方法包括：

16、统计深度值的分布，识别物体的总体形态；

17、基于物体的总体形态，计算深度变化的梯度，识别表面的突起和凹陷；

18、基于表面的突起和凹陷，计算表面法线方向，分析物体的表面形态。

19、优选的，所述s5中，通过svm分类模型判断待抓取物体的形状，获得待抓取物体的抓取方式的方法包括：

20、

21、其中，x是待分类的数据点即形状特征向量，αi，yi和b是通过训练svm模型学到的参数，k(xi，x)是核函数，用于数据的非线性映射。

22、本专利技术还提供了一种基于大语言模型和深度学习的多模式软体手抓取系统，包括以下步骤：采集模块、识别模块、逻辑推理模块、分割模块、决策模块和抓取模块；

23、所述采集模块用于利用深度相机拍摄环境中多物体的rgb图像与深度图像；

24、所述识别模块用于将rgb图像作为输入，使用yolov7深度学习模型识别并分割图像中的物体，输出物体名称与该物体在图像中的二维坐标；

25、所述逻辑推理模块用于将所述识别模块的输出与用户的抓取需求作为输入，使用大型预训练语言模型gpt-4v判断应当抓取的物体名称，输出对应的二维坐标；

26、所述分割模块用于利用所述逻辑推理模块获得的二维坐标分割rgb图像与深度图像，获得待抓取物体的分割图；

27、所述决策模块用于提取rgb图像中物体二维形状特征与深度图像中深度特征，并基于待抓取物体的分割图，通过svm分类模型判断待抓取物体的形状，获得待抓取物体的抓取方式；

28、所述抓取模块用于将判断出的抓取物体的形状与抓取方式建立一一对应关系，最终得到环境中多物体的抓取方式。

29、优选的，所述识别模块中，输出的对应物体在图像中的二维坐标为：

30、

31、其中，zc是三维空间中点到摄像机成像平面的深度，向量表示图像平面上的点，其中u和v是对应点在图像坐标系中的横纵坐标，内参矩阵包含了摄像机的焦距(fx,fy)和主点坐标(cx,cy)，外参矩阵包含了从世界坐标系到摄像机坐标系的旋转r和平移t，世界坐标向量表示三维世界中的点。

32、优选的，所述决策模块中，提取rgb图像中物体二维形状特征的过程包括：

33、利用hu矩提取形状特征，其中，hu矩的获得方式为：使用opencv，先通过cv2.moments()函数计算图像的几何矩，然后使用cv2.humoments()函数从这些矩中获取hu矩的值。

34、优选的，所述决策模块中，提取深度图像中深度特征的过程包括：

35、统计深度值的分布，识别物体的总体形态；

36、基于物体的总体形态，计算深度变化的梯度，识别表面的突起和凹陷；

37、基于表面的突起和凹陷，计算表面法线方向，分析物体的表面形态。

38、优选的，所述决策模块中，通过svm分类模型判断待抓取物体的形状，获得待抓取物体的抓取方式的过程包括：

39、

40、其中，x是待分类的数据点即形状特征向量，αi，yi和b是通过训练svm模型学到的参数，k(xi，x)是核函数，用于数据的非线性映射。

41、与现有技术相比，本专利技术的有益效果为：

42、本专利技术提供的一种基于大语言模型和深度学习的多模式软体手抓取方法及系统，能够利用高级图像识别技术和深度学习算法实时处理复杂场景中的物体识别和定位；通过集成先进的自然语言处理模型，系统能够准确理解并执行用户复杂的指令；利用图像分割和特征提取技术，精确决定每个物体的最佳抓取策略；最后，通过高精度控制系统执行精确的抓取动作。本专利技术通过这一系列技术措施，有效提高了机械手操作的准确性和效率，扩展了其在自动化领域的应用范围，使其在工业生产和服务机器人等多个领域具有广泛的商业应用前景。

本文档来自技高网...

【技术保护点】

1.一种基于大语言模型和深度学习的多模式软体手抓取方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于大语言模型和深度学习的多模式软体手抓取方法，其特征在于，所述S2中，输出的对应物体在图像中的二维坐标为：

3.根据权利要求1所述的基于大语言模型和深度学习的多模式软体手抓取方法，其特征在于，所述S5中，提取RGB图像中物体二维形状特征的方法包括：

4.根据权利要求1所述的基于大语言模型和深度学习的多模式软体手抓取方法，其特征在于，所述S5中，提取深度图像中深度特征的方法包括：

5.根据权利要求1所述的基于大语言模型和深度学习的多模式软体手抓取方法，其特征在于，所述S5中，通过SVM分类模型判断待抓取物体的形状，获得待抓取物体的抓取方式的方法包括：

6.一种基于大语言模型和深度学习的多模式软体手抓取系统，其特征在于，包括以下步骤：采集模块、识别模块、逻辑推理模块、分割模块、决策模块和抓取模块；

7.根据权利要求6所述的基于大语言模型和深度学习的多模式软体手抓取系统，其特征在于，所述识别模块中，输出的对

8.根据权利要求6所述的基于大语言模型和深度学习的多模式软体手抓取系统，其特征在于，所述决策模块中，提取RGB图像中物体二维形状特征的过程包括：

9.根据权利要求6所述的基于大语言模型和深度学习的多模式软体手抓取系统，其特征在于，所述决策模块中，提取深度图像中深度特征的过程包括：

10.根据权利要求6所述的基于大语言模型和深度学习的多模式软体手抓取系统，其特征在于，所述决策模块中，通过SVM分类模型判断待抓取物体的形状，获得待抓取物体的抓取方式的过程包括：

...

【技术特征摘要】

1.一种基于大语言模型和深度学习的多模式软体手抓取方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于大语言模型和深度学习的多模式软体手抓取方法，其特征在于，所述s2中，输出的对应物体在图像中的二维坐标为：

3.根据权利要求1所述的基于大语言模型和深度学习的多模式软体手抓取方法，其特征在于，所述s5中，提取rgb图像中物体二维形状特征的方法包括：

4.根据权利要求1所述的基于大语言模型和深度学习的多模式软体手抓取方法，其特征在于，所述s5中，提取深度图像中深度特征的方法包括：

5.根据权利要求1所述的基于大语言模型和深度学习的多模式软体手抓取方法，其特征在于，所述s5中，通过svm分类模型判断待抓取物体的形状，获得待抓取物体的抓取方式的方法包括：

6.一种基于大语言模型和深度学习的...

【专利技术属性】
技术研发人员：方斌，冯智禹，张曦，赵磊，张天然，王仕贤，尹建芹，郭迪，
申请(专利权)人：北京邮电大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人