当前位置: 首页 > 专利查询>之江实验室专利>正文

一种机器人物体识别方法、装置及存储介质制造方法及图纸

技术编号:37712904 阅读:11 留言:0更新日期:2023-06-02 00:06
本发明专利技术涉及一种机器人物体识别方法、装置及存储介质,所述方法包括以下步骤:获取机器人视野范围内的环境感知图像,该环境感知图像包含图像信息和深度信息;基于所述图像信息和深度信息对所述环境感知图像进行图像分割处理,将环境感知图像分割为多个物体,形成图像输入信息;从预先构建的物体类型库中选择可能的物体语义标签,接收设计的prompt模板,将所述prompt模板与所述物体语义标签结合为语言输入信息;将所述图像输入信息和语言输入信息作为一经训练的视觉语言预训练模型的输入,获得相似性矩阵,该相似性矩阵表示图像与文本之间的相似度;基于所述相似性矩阵实现物体识别。与现有技术相比,本发明专利技术具有方便、识别可靠性高等优点。性高等优点。性高等优点。

【技术实现步骤摘要】
一种机器人物体识别方法、装置及存储介质


[0001]本专利技术涉及机器人视觉感知领域,尤其是涉及一种机器人物体识别方法、装置及存储介质。

技术介绍

[0002]随着计算机视觉技术和人工智能技术的高速发展,机器人的智能化也逐渐进入科研和应用的范围,例如自动驾驶、仓储机器人、柔性抓取机器人等。其中,视觉识别是机器人智能化的关键环节,是机器人与环境进行直接交互感知的基础。为此,研究视觉识别技术非常重要。
[0003]目前,机器人主要通过构建深度学习模型进行物体识别。首先,利用人工采集并标注样本数据构建数据集,然后基于数据集进行学习训练模型。目前,这一类方法在某些方面的能力已经超过了人类,并且得益于其简单易用的特点这一类方法已经得到了广泛应用,尤其是在自动驾驶、人脸识别等领域。然而,随着研究的不断深入,这一类视觉识别方法的缺点也逐渐显性,该视觉识别方法仅能识别数据集中已知的物体,一旦出现未知物体则会出现无法识别的情况。然而,家居场景具有明显非结构化特征,机器人作业中必然会遇到未知物体,导致现有的识别方法无法适用的情况,需要重新构建数据集进行训练,引起机器人难以在家居场景中正常作业。
[0004]综上,有必要针对当前视觉识别技术存在的瓶颈问题,研发新型的机器人物体识别技术。

技术实现思路

[0005]本专利技术的目的就是为了克服上述现有技术存在的缺陷而提供一种方便、识别可靠性高的机器人物体识别方法、装置及存储介质。
[0006]本专利技术的目的可以通过以下技术方案来实现:
[0007]一种机器人物体识别方法,包括以下步骤:
[0008]获取机器人视野范围内的环境感知图像,该环境感知图像包含图像信息和深度信息;
[0009]基于所述图像信息和深度信息对所述环境感知图像进行图像分割处理,将环境感知图像分割为多个物体,形成图像输入信息;
[0010]从预先构建的物体类型库中选择当前场景可能出现的物体语义标签,接收设计的prompt模板,将所述prompt模板与所述物体语义标签结合为语言输入信息;
[0011]将所述图像输入信息和语言输入信息作为经训练的视觉语言预训练模型的输入,获得相似性矩阵,该相似性矩阵表示图像与文本之间的相似度;
[0012]基于所述相似性矩阵实现物体识别。
[0013]进一步地,对所述环境感知图像进行图像分割处理前,对环境感知图像进行预处理。
[0014]进一步地,所述预处理包括图像压缩和图像变换。
[0015]进一步地,通过分割模型对所述环境感知图像进行图像分割处理。
[0016]进一步地,所述物体类别库包含图像可能的类别、名称和属性。
[0017]进一步地,所述物体类别库为动态更新的数据库。
[0018]进一步地,所述prompt模板为若干个用自然语言描述的提示输入。
[0019]进一步地,所述视觉语言预训练模型包括CLIP模型。
[0020]进一步地,所述相似性矩阵为余弦相似性矩阵。
[0021]进一步地,基于所述相似性矩阵实现物体识别具体为:
[0022]从所述相似性矩阵中获得每一物体的最大相似度,形成图像语言相似度匹配结果;
[0023]基于所述prompt模板和图像语言相似度匹配结果生成物体识别结果。
[0024]本专利技术还提供一种机器人物体识别装置,包括:
[0025]视觉检测模块,用于获取机器人视野范围内的环境感知图像,该环境感知图像包含图像信息和深度信息;
[0026]图像分割模块,用于根据所述深度信息和图像信息,对所述环境感知图像进行图像分割处理,将环境感知图像分割为多个物体,形成图像输入信息;
[0027]物体类型库,用于存储不同场景的物体语义标签;
[0028]prompt设计模块,用于接收设计的prompt模板,并从预先构建的所述物体类型库中选择当前场景可能出现的物体语义标签,将所述prompt模板与所述物体语义标签结合为语言输入信息;
[0029]预训练模型推理模块,用于将所述图像输入信息和语言输入信息作为一经训练的视觉语言预训练模型的输入,获得相似性矩阵,该相似性矩阵表示图像与文本之间的相似度;
[0030]语言文本图像匹配模块,用于根据所述相似性矩阵,实现物体识别。
[0031]本专利技术还提供一种机器人物体识别装置,包括存储器和一个或多个处理器,所述存储器中存储有可执行代码,所述一个或多个处理器执行所述可执行代码时,用于实现如上所述的机器人物体识别方法。
[0032]本专利技术还提供一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时,实现如上所述的机器人物体识别方法。
[0033]与现有技术相比,本专利技术具有以下有益效果:
[0034]1、传统的基于物体分类方法的物体识别往往非常依赖数据集的标签类型,而本专利技术通过视觉语言预训练模型进行物体识别,视觉语言预训练模型由于使用大量的数据进行无监督训练,使得其有更丰富的数据信息,能够方便地识别较大范围的物体种类,实施方便可靠。
[0035]2、传统物体识别方法,一旦遇到未知物体则无法进行识别,需重新收集数据集并重新训练;而本专利技术由于使用了大量离线数据无监督训练而来的视觉语言预训练模型,仅需提供prompt方案即可实现对物品的识别,方便提高识别能力。
附图说明
[0036]图1为本专利技术的原理示意图;
[0037]图2为本专利技术实施方法的流程示意图。
具体实施方式
[0038]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0039]需要说明的是,在不冲突的情况下,下述的实施例及实施方式中的特征可以相互组合。
[0040]实施例1
[0041]本实施例提供一种机器人物体识别方法,可以应用于家居服务机器人,所应用的家居服务机器人包括机器人硬件和RGB

D深度相机,RGB

D深度相机安装于机械臂的腕部,用于感知环境图像信息,如图1和图2所示,该方法包含以下步骤:
[0042]S1、机器人初始化,包括机械臂和RGB

D深度相机的初始化。
[0043]初始化机械臂,即打开机械臂电源,使得机械臂控制硬件等处于正常状态;初始化深度相机,即打开相机电源,确认深度相机正常运行。
[0044]S2、由RGB

D深度相机获取机器人视野范围内的环境感知图像,该环境感知图像包含图像信息和深度信息。RGB

D深度相机产生的信号记为RGB

D信号O
t

[0045]S3、基于所述图像信息和深度信息对所述环本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种机器人物体识别方法,其特征在于,包括以下步骤:获取机器人视野范围内的环境感知图像,该环境感知图像包含图像信息和深度信息;基于所述图像信息和深度信息对所述环境感知图像进行图像分割处理,将环境感知图像分割为多个物体,形成图像输入信息;从预先构建的物体类型库中选择当前场景可能出现的物体语义标签,接收设计的prompt模板,将所述prompt模板与所述物体语义标签结合为语言输入信息;将所述图像输入信息和语言输入信息作为经训练的视觉语言预训练模型的输入,获得相似性矩阵,该相似性矩阵表示图像与文本之间的相似度;基于所述相似性矩阵实现物体识别。2.根据权利要求1所述的机器人物体识别方法,其特征在于,对所述环境感知图像进行图像分割处理前,对环境感知图像进行预处理。3.根据权利要求2所述的机器人物体识别方法,其特征在于,所述预处理包括图像压缩和图像变换。4.根据权利要求1所述的机器人物体识别方法,其特征在于,通过分割模型对所述环境感知图像进行图像分割处理。5.根据权利要求1所述的机器人物体识别方法,其特征在于,所述物体类别库包含图像可能的类别、名称和属性。6.根据权利要求1所述的机器人物体识别方法,其特征在于,所述物体类别库为动态更新的数据库。7.根据权利要求1所述的机器人物体识别方法,其特征在于,所述prompt模板为若干个用自然语言描述的提示输入。8.根据权利要求1所述的机器人物体识别方法,其特征在于,所述视觉语言预训练模型包括CLIP模型。9.根据权利要求1所述的机器人物体识别方法,其特征在于,所述相似性矩阵为余弦相似性矩阵。10.根...

【专利技术属性】
技术研发人员:廖建峰朱世强宋伟孟启炜顾建军孙铁楠
申请(专利权)人:之江实验室
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1