当前位置: 首页 > 专利查询>武汉大学专利>正文

基于视觉SLAM的动态场景多语义地图构建方法及设备技术

技术编号:37221088 阅读:10 留言:0更新日期:2023-04-20 23:06
本发明专利技术提供了一种基于视觉SLAM的动态场景多语义地图构建方法及设备。所述方法包括:步骤1至步骤9。本发明专利技术针对动态场景生成两种语义地图,方法高效且简便,地图剔除动态目标带来的影响,完成高质量的背景重建,能在动态场景下取得比现有方法更好的性能,满足挑战场景下的定位与制图应用需求。下的定位与制图应用需求。下的定位与制图应用需求。

【技术实现步骤摘要】
基于视觉SLAM的动态场景多语义地图构建方法及设备


[0001]本专利技术实施例涉及计算机视觉
,尤其涉及一种基于视觉SLAM的动态场景多语义地图构建方法及设备。

技术介绍

[0002]SLAM是同步定位与建图(Simultaneous Localization and Mapping)的简称,是指机器人或移动平台在不断对自身进行定位的同时对周围的环境地图进行构建。传统SLAM方案的传感器主要是激光雷达,但由于激光雷达成本高昂,且点云信息只能反映周围物体点的距离和角度,丢弃了周围环境的纹理及语义等丰富的信息,与人的交互性较差。因此相机逐渐成为了近年来SLAM方案的主流传感器,以相机作为主要传感器的SLAM方案被称为视觉SLAM。
[0003]在实际应用中,许多因素都会对视觉SLAM系统的精度和稳定性产生较大干扰,其中最为显著的因素就是场景特征。由于大部分视觉SLAM方案强烈地依赖特征提取与匹配,因此当场景中存在移动目标时,图像间的特征提取及匹配将受到较大影响从而对视觉SLAM系统的稳定运行造成影响。基于深度学习网络的方法会将图像中一切可能发生移动的物体都进行去除,即使这些物体实际中并没有发生移动(如静止的车辆和人类等),而当环境中存在一些被迫移动的非潜在运动目标时(如被移动的书本和柜子等),深度网络并不能将它们去除。另外,这样的方法建立的地图仍然是稀疏的且不带有语义信息的,这样的地图在感官上不够直观,且对机器人感知场景没有特别的帮助。因此,开发一种基于视觉SLAM的动态场景多语义地图构建方法及设备,可以有效克服上述相关技术中的缺陷,就成为业界亟待解决的技术问题。

技术实现思路

[0004]针对现有技术存在的上述问题,本专利技术实施例提供了一种基于视觉SLAM的动态场景多语义地图构建方法及设备。
[0005]第一方面,本专利技术的实施例提供了一种基于视觉SLAM的动态场景多语义地图构建方法,包括:步骤1:获取相机当前帧RGB图像进行目标检测,将所有检测到的目标分类成静态和潜在动态,在潜在动态目标检测框内计算光流几何约束,根据约束结果确定真正移动的动态目标;步骤2:在当前帧深度图像中选择与真正移动的动态目标相交的静态检测框,与真正移动的动态目标检测框一并进行深度二值化的分割;步骤3:计算相交的静态检测框与真正移动的动态目标框内分割结果的平均深度差值,根据差值判定静态目标是否为被迫移动物体,划定为动态目标;步骤4:为当前帧图像特征提取ORB特征点,剔除所有在真正移动的动态目标检测框内的特征点;步骤5:根据剩余保留的特征点求解当前帧相机位姿并进行跟踪;步骤6:根据跟踪过程中的投影内点数以及跟踪时长选取关键帧,为关键帧内保留的静态目标附上语义信息,对关键帧共视图进行管理和维护;步骤7:根据每个关键帧对应的位姿将其二维图像投影到三维空间,获得稠密的三维语义点云地图,并用体素滤波进行
优化;步骤8:采用基于超体素的方法,对点云地图进行分割,获得三维语义分割地图;步骤9:输出结果、相机位姿、三维语义点云地图和三维语义分割地图。
[0006]在上述方法实施例内容的基础上,本专利技术实施例中提供的基于视觉SLAM的动态场景多语义地图构建方法,在步骤1、2、3和4中,目标检测网络使用YOLOv4模型,提前在COCO数据集下进行预训练,并将数据集下不同类别目标分为预定义的静态和潜在动态两类进行存储;SLAM系统管理并维护一个数据矩阵,用来存储每帧提取的ORB特征点的描述子;在潜在动态目标检测框内使用光流金字塔,计算其中符合几何约束的光流特征点的数量,根据该数值是否大于阈值判断该动态目标是否处于真正移动状态;在深度图像中真正移动的动态目标及与其相交的静态目标检测框内进行二值化分割,计算分割后的平均深度差值,若静态目标与真正移动的动态目标的差值小于预定阈值,则判定该静态目标为移动的动态目标;若确实存在动态目标,SLAM系统重塑一个数据矩阵用来保留静态特征点的描述子。
[0007]在上述方法实施例内容的基础上,本专利技术实施例中提供的基于视觉SLAM的动态场景多语义地图构建方法,在步骤5和6中,根据相机内参、前一帧相机位姿及当前帧相机初始位姿投影计算出当前帧的相机位姿;当前帧相机初始位姿由匀速直线运动模型给出,位姿在SLAM系统中用李群李代数表示,根据投影时的内点数以及距离上一个关键帧的时长判断该帧是否为关键帧;每个静态类都有对应的语义颜色,将关键帧上所有的静态目标检测框都涂上相对应的颜色,并根据深度信息决定上色的先后关系,该关系决定重建地图中互相遮挡的物体的颜色是否正确,基于关键帧共视图引入更多与当前帧有共视关系的已处理帧对当前帧相机位姿进行优化。
[0008]在上述方法实施例内容的基础上,本专利技术实施例中提供的基于视觉SLAM的动态场景多语义地图构建方法,在步骤7、8和9中,采用计算出的位姿,分解旋转平移矩阵,将上色后的当前帧二维图像根据深度信息投影到相机坐标系,之后再转化到世界坐标系;对多张关键帧构成的点云数据创建三维体素栅格,计算体素内所有三维点的重心,采用该重心点近似体素中其他点,达到滤波的效果;采用无监督的方法将点云划分成多个超体素并构建邻接图,采用超体素寻找空间内的多个底层平面;相邻两个超体素若不在同一个平面上,则根据体素法向量间的角度计算边上的权重,根据权重值划分邻接图进行分割,最终输出的位姿以四元数形式存储在文档内,三维语义点云地图和三维语义分割地图都以点云的形式进行存储。
[0009]第二方面,本专利技术的实施例提供了一种基于视觉SLAM的动态场景多语义地图构建装置,包括:第一主模块,用于实现步骤1:获取相机当前帧RGB图像进行目标检测,将所有检测到的目标分类成静态和潜在动态,在潜在动态目标检测框内计算光流几何约束,根据约束结果确定真正移动的动态目标;步骤2:在当前帧深度图像中选择与真正移动的动态目标相交的静态检测框,与真正移动的动态目标检测框一并进行深度二值化的分割;第二主模块,用于实现步骤3:计算相交的静态检测框与真正移动的动态目标框内分割结果的平均深度差值,根据差值判定静态目标是否为被迫移动物体,划定为动态目标;步骤4:为当前帧图像特征提取ORB特征点,剔除所有在真正移动的动态目标检测框内的特征点;第三主模块,用于实现步骤5:根据剩余保留的特征点求解当前帧相机位姿并进行跟踪;步骤6:根据跟踪过程中的投影内点数以及跟踪时长选取关键帧,为关键帧内保留的静态目标附上语义信息,对关键帧共视图进行管理和维护;第四主模块,用于实现步骤7:根据每个关键帧对应的
位姿将其二维图像投影到三维空间,获得稠密的三维语义点云地图,并用体素滤波进行优化;步骤8:采用基于超体素的方法,对点云地图进行分割,获得三维语义分割地图;步骤9:输出结果、相机位姿、三维语义点云地图和三维语义分割地图。
[0010]第三方面,本专利技术的实施例提供了一种电子设备,包括:
[0011]至少一个处理器;以及
[0012]与处理器通信连接的至少一个存储器,其中:
[0013]存储器存储有可被处理器执行的程序指令,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于视觉SLAM的动态场景多语义地图构建方法,其特征在于,包括:步骤1:获取相机当前帧RGB图像进行目标检测,将所有检测到的目标分类成静态和潜在动态,在潜在动态目标检测框内计算光流几何约束,根据约束结果确定真正移动的动态目标;步骤2:在当前帧深度图像中选择与真正移动的动态目标相交的静态检测框,与真正移动的动态目标检测框一并进行深度二值化的分割;步骤3:计算相交的静态检测框与真正移动的动态目标框内分割结果的平均深度差值,根据差值判定静态目标是否为被迫移动物体,划定为动态目标;步骤4:为当前帧图像特征提取ORB特征点,剔除所有在真正移动的动态目标检测框内的特征点;步骤5:根据剩余保留的特征点求解当前帧相机位姿并进行跟踪;步骤6:根据跟踪过程中的投影内点数以及跟踪时长选取关键帧,为关键帧内保留的静态目标附上语义信息,对关键帧共视图进行管理和维护;步骤7:根据每个关键帧对应的位姿将其二维图像投影到三维空间,获得稠密的三维语义点云地图,并用体素滤波进行优化;步骤8:采用基于超体素的方法,对点云地图进行分割,获得三维语义分割地图;步骤9:输出结果、相机位姿、三维语义点云地图和三维语义分割地图。2.根据权利要求1所述的基于视觉SLAM的动态场景多语义地图构建方法,其特征在于,在步骤1、2、3和4中,目标检测网络使用YOLOv4模型,提前在COCO数据集下进行预训练,并将数据集下不同类别目标分为预定义的静态和潜在动态两类进行存储;SLAM系统管理并维护一个数据矩阵,用来存储每帧提取的ORB特征点的描述子;在潜在动态目标检测框内使用光流金字塔,计算其中符合几何约束的光流特征点的数量,根据该数值是否大于阈值判断该动态目标是否处于真正移动状态;在深度图像中真正移动的动态目标及与其相交的静态目标检测框内进行二值化分割,计算分割后的平均深度差值,若静态目标与真正移动的动态目标的差值小于预定阈值,则判定该静态目标为移动的动态目标;若确实存在动态目标,SLAM系统重塑一个数据矩阵用来保留静态特征点的描述子。3.根据权利要求2所述的基于视觉SLAM的动态场景多语义地图构建方法,其特征在于,在步骤5和6中,根据相机内参、前一帧相机位姿及当前帧相机初始位姿投影计算出当前帧的相机位姿;当前帧相机初始位姿由匀速直线运动模型给出,位姿在SLAM系统中用李群李代数表示,根据投影时的内点数以及距离上一个关键帧的时长判断该帧是否为关键帧;每个静态类都有对应的语义颜色,将关键帧上所有的静态目标检测框都涂上相对应的颜色,并根据深度信息决定上色的先后关系,该关系决定重建地图中互相遮挡的物体的颜色是否正确,基于关键帧共...

【专利技术属性】
技术研发人员:梅天灿高智秦宇晟
申请(专利权)人:武汉大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1