一种基于物体语义的视觉重定位方法技术

技术编号:36929535 阅读:22 留言:0更新日期:2023-03-22 18:52
本发明专利技术公开了一种基于物体语义的视觉重定位方法,在SLAM建图的同时,使用YOLOv5算法得到图像中各个物体的检测结果;估计物体的三维椭球表示和在三维空间中的6

【技术实现步骤摘要】
一种基于物体语义的视觉重定位方法


[0001]本专利技术方法涉及到机器人的重定位,提供一种面向大视差环境下的基于物体语义的视觉重定位方法。

技术介绍

[0002]使用RGB、RGB

D或双目相机的基于视觉的同时定位和建图(Simultaneous Localization and Mapping,SLAM)是自主机器人和车辆以及增强现实(AR)等应用的关键技术,已经取得了重大进展,使得系统能够在室内和室外的广阔区域内进行实时3D跟踪和场景重建。然而更具挑战性的是开发快速可靠的重定位,即确定“丢失”传感器的6Dof姿态,这可能是由于跟踪失败或返回到先前构建的地图而引起的,这种能力对于机器人的实际落地应用至关重要。而在大规模环境中,基于视觉的重定位精度,效率和鲁棒性都存在限制。在过去的十年中,语义SLAM已经成为了目前研究的热点,语义的引入有助于突破上述目前视觉重定位算法存在的限制。我们采用基于语义对象的方法,与依赖于视图的点特征相比,可见对象的存在对于视点是不变的。目前,大多数重定位方法都是基于外观,通过匹配2D或3D点特征集或通过学习它们之间的关系,试图将丢失的帧与地图对齐姿势。但是在大视差环境下,地图特征不可见或丢失帧和关键帧外观显着不同的极端情况下,重新定位将失败。
[0003]目前已有解决方法技术:
[0004]一种基于关键帧的视觉重定位方法,这种方法使用orb特征点生成的词向量搜索当前帧的相邻关键帧,然后通过2D

3D的方法求解相机位姿。但是这种方法所查询图像与数据库图像通常存在一定的差异,这导致很难检索到真正的最近邻图像,从而影响了位姿估计的精度。
[0005]基于卷积神经网络的6

DOF相机重定位方法,该系统训练一个卷积神经网络,可以端到端的从RGB图像中回归出6DOF姿态,而不需要其它额外的处理。由于单纯依靠卷积神经网络提取图像特征,所以存在定位精度较差、泛化性不足、难以实现产品落地等问题。此外针对小样本环境存在训练困难的问题。
[0006]一种通过三维面回归实现相机6Dof定位方法,这种方法提出了一种用全连接神经网络来稠密拟合图像中的局部块坐标的方法,然后在一组位姿假设值中采样,用一种soft inlier计数方式评分,根据分数选择并优化出最终估计。这种方法要求有足够的场景下的数据集以进行长时间模型训练,算法运行需要高算力设备支持,且在大尺度场景下表现不佳。
[0007]基于视觉词袋和激光匹配的机器人重定位方法,这种专利技术利用视觉特征点构建的词袋查找当前帧的相邻关键帧获得一个初定位。再利用这个位姿使用激光雷达点云与地图栅格进行匹配定位。这种方法需要使用激光雷达,成本较高。

技术实现思路

[0008]本专利技术的目的是提供一种基于物体语义的视觉重定位方法,旨在解决现有重定位
算法存在在大视差变动环境,地图特征不可见或丢失帧和关键帧外观显着不同的极端情况下重定位效果不鲁棒、计算资源要求较高等问题。
[0009]为了实现上述任务,本专利技术采用以下技术方案:
[0010]一种基于物体语义的视觉重定位方法,包括:
[0011]通过搭载于机器人上的RGB

D相机获取环境的图像,通过目标检测算法对图像进行处理,得到图像中各个物体的检测结果;通过对多帧图像中检测到的同一物体的检测框进行对象建模,得到对象的三维椭球表示和在三维空间中的6

Dof位姿;
[0012]为每一个对象构建词袋数据库以及构建一个所有对象的共视邻接表;
[0013]当机器人需要重定位时,首先结合丢失帧图像的目标检测结果,通过查询词袋数据库和共视关系表,确定丢失帧观测到物体的对应候选对象,从而得到丢失帧图像中对象和检测框的对应关系;
[0014]利用所述对象和检测框的对应关系,通过检测框和对应物体椭球估计相机初始位姿;
[0015]在得到初始的位姿估计之后,使用使用迭代最近点配准算法优化位姿,从而实现机器人的全局重定位。
[0016]进一步地,所述通过对多帧图像中检测到的同一物体的检测框进行对象建模,得到对象的三维椭球表示和在三维空间中的6

Dof位姿,包括:
[0017]利用机器人上装配的单目相机,从相机的RGB图像帧序列中通过图像帧之间的视差来获取关键帧;通过YOLOv5算法对关键帧图像进行处理,得到图像中各个物体的检测结果;
[0018]确定帧与帧之间的数据关联;通过前一帧bbox中心点是否落在当前帧的bbox中可以确认观测到的是否是同一个物体;
[0019]确定帧与对象之间的数据关联;其中对象指对于场景中具体的某一物体通过多帧投影约束求解得到的椭球表示;根据机器人正在运行的RGB

D SLAM算法获取机器人搭载的单目相机当前在三维空间中的6

Dof位姿,通过相机的6

Dof位姿和相机内参以及已初始化成功的对象,计算这些对象在当前帧像素图像上的投影;如果对象投影中心落在某个bbox中且bbox检测物体的物体类别与该对象的物体类别一致,则认为bbox观测到的物体是某个成功初始化为对象的物体;如果bbox观测到的不是初始化成功的对象中的一员,则进行对象的初始化;
[0020]对于连续三个以上关键帧都观测到且未初始化成功的物体i,对其进行椭球表示和6Dof位姿的估计。
[0021]进一步地,所述对于连续三个以上关键帧都观测到且未初始化成功的物体i,对其进行椭球表示和6Dof位姿的估计,包括:
[0022]与之间的关系由投影矩阵P
f
=K[R
f
|t
f
]定义:
[0023][0024]其中,R
f
为第f帧相机的旋转矩阵;t
f
为第f帧相机的平移向量,为物体i的椭球对偶表示;为物体i在第f帧的椭圆投影;K为相机内参;β
if
为在第f帧上物体i的椭圆投影的尺度因子;
[0025]将P
f
和乘积排列在一个单一的矩阵,由:
[0026][0027][0028][0029][0030]可得:
[0031][0032]记
[0033]其中,是Kronecker积;vech为矩阵下三角元素序列化;vec为矩阵元素序列化;D为vech到vec的变换矩阵;E为vec到vech的变换矩阵;为物体i的椭球表示的矩阵下三角元素序列化;为物体i在第f帧的椭球i投影椭圆的矩阵下三角元素序列化;
[0034]假设有F(F>=3)个图像帧逐列堆叠有:
[0035]M
i
w
i
=0
ꢀꢀꢀ
(6)
[0036][0037]其中G1...G
F
是根据式(5)计算得到的各个帧的G
f
;为物体i在本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于物体语义的视觉重定位方法,其特征在于,包括:通过搭载于机器人上的RGB

D相机获取环境的图像,通过目标检测算法对图像进行处理,得到图像中各个物体的检测结果;通过对多帧图像中检测到的同一物体的检测框进行对象建模,得到对象的三维椭球表示和在三维空间中的6

Dof位姿;为每一个对象构建词袋数据库以及构建一个所有对象的共视邻接表;当机器人需要重定位时,首先结合丢失帧图像的目标检测结果,通过查询词袋数据库和共视关系表,确定丢失帧观测到物体的对应候选对象,从而得到丢失帧图像中对象和检测框的对应关系;利用所述对象和检测框的对应关系,通过检测框和对应物体椭球估计相机初始位姿;在得到初始的位姿估计之后,使用使用迭代最近点配准算法优化位姿,从而实现机器人的全局重定位。2.根据权利要求1所述的基于物体语义的视觉重定位方法,其特征在于,所述通过对多帧图像中检测到的同一物体的检测框进行对象建模,得到对象的三维椭球表示和在三维空间中的6

Dof位姿,包括:利用机器人上装配的单目相机,从相机的RGB图像帧序列中通过图像帧之间的视差来获取关键帧;通过YOLOv5算法对关键帧图像进行处理,得到图像中各个物体的检测结果;确定帧与帧之间的数据关联;通过前一帧bbox中心点是否落在当前帧的bbox中可以确认观测到的是否是同一个物体;确定帧与对象之间的数据关联;其中对象指对于场景中具体的某一物体通过多帧投影约束求解得到的椭球表示;根据机器人正在运行的RGB

D SLAM算法获取机器人搭载的单目相机当前在三维空间中的6

Dof位姿,通过相机的6

Dof位姿和相机内参以及已初始化成功的对象,计算这些对象在当前帧像素图像上的投影;如果对象投影中心落在某个bbox中且bbox检测物体的物体类别与该对象的物体类别一致,则认为bbox观测到的物体是某个成功初始化为对象的物体;如果bbox观测到的不是初始化成功的对象中的一员,则进行对象的初始化;对于连续三个以上关键帧都观测到且未初始化成功的物体i,对其进行椭球表示和6Dof位姿的估计。3.根据权利要求2所述的基于物体语义的视觉重定位方法,其特征在于,所述对于连续三个以上关键帧都观测到且未初始化成功的物体i,对其进行椭球表示和6Dof位姿的估计,包括:与之间的关系由投影矩阵P
f
=K[R
f
|t
f
]定义:其中,R
f
为第f帧相机的旋转矩阵;t
f
为第f帧相机的平移向量,为物体i的椭球对偶表示;为物体i在第f帧的椭圆投影;K为相机内参;β
if
为在第f帧上物体i的椭圆投影的尺度因子;将P
f
和乘积排列在一个单一的矩阵,由:
可得:记其中,是Kronecker积;vech为矩阵下三角元素序列化;vec为矩阵元素序列化;D为vech到vec的变换矩阵;E为vec到vech的变换矩阵;为物体i的椭球表示的矩阵下三角元素序列化;为物体i在第f帧的椭球i投影椭圆的矩阵下三角元素序列化;假设有F(F>=3)个图像帧逐列堆叠有:M
i
w
i
=0
ꢀꢀꢀꢀꢀꢀꢀ
(6)其中G1...G
F
是根据式(5)计算得到的各个帧的G
f
;为物体i在第1帧的椭球投影的矩阵下三角元素序列化,以此类推;为物体i的椭球表示的矩阵下三角元素序列化;β
i
=[β
i1

i2
....β
iF
]
T
,β
i1
为在第1帧上物体i的椭圆投影的尺度因子;求解式(6)超定方程即可得到w
i
,由于对偶椭圆是对称矩阵,通过的矩阵下三角元素序列即可恢复如此就得到了物体i的在对偶空间中的椭球表达式;对偶空间中的一般椭球体Q
*
可以...

【专利技术属性】
技术研发人员:曾碧林中文江明
申请(专利权)人:广东工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1