基于自监督神经网络的视觉-惯导-雷达融合自定位方法技术

技术编号:39000114 阅读:21 留言:0更新日期:2023-10-07 10:32
本发明专利技术涉及一种基于自监督神经网络的视觉

【技术实现步骤摘要】
基于自监督神经网络的视觉

惯导

雷达融合自定位方法


[0001]本专利技术涉及自定位
,特别是涉及一种基于自监督神经网络的视觉

惯导

雷达融合自定位方法。

技术介绍

[0002]自定位技术在自动驾驶,SLAM等领域中应用广泛。在某些场景(城市中的楼宇,隧道,山地中的密林,山洞或卫星拒址)中难以使用卫星、北斗、GPS等无线电波技术定位,此时就需要依靠汽车,无人机或机器人随身搭载的摄像头进行自主定位。传统的基于视觉传感器的自定位算法基本流程为:特征提取

特征匹配

位姿计算

后端优化。传统自定位算法依靠完整的全局建图优化固然能取得较高的定位精度,但其计算过程复杂,计算速度缓慢,难以实现实时推理。随着深度学习的流行和不断发展,基于神经网络的视觉自定位算法——深度视觉里程计VO能事先利用数据集通过线下训练出模型,再将训练好的模型直接用于推理,使算法不再需要特征匹配和后端优化步骤,从而易于实现实时推理。深度VO通过通过有监督或无监督学习方式训练优化目标损失函数来提升定位性能。其中,无监督(或自监督)学习不需要获取真实位姿标签就能训练模型,从而能够利用大量的未标注数据,相比于有监督方式其训练成本更低。
[0003]自监督VO最早由Tinghui Zhou在2017年提出。自监督VO首先将输入的连续帧图像分别送入一个用于位姿估计的神经网络和一个用于深度估计的神经网络计算得到输入图像的深度图和图像之间的位姿变换,然后利用该深度图和位姿通过对极几何建立的投影关系计算连续帧图像之间的重投影误差,最后通过计算该误差相对于位姿估计和深度估计神经网络各参数的梯度并反向传播更新参数从而达到优化估计的效果。
[0004]然而,仅仅依靠单一模态数据进行定位可能会面临数据缺失,信息不足等问题。在当今大数据时代,越来越多的传感器被专利技术,可以被获取的数据种类越来越多,多模态传感器融合是未来定位技术发展的主要趋势。相比于单模态传感器定位技术,多模态传感器融合定位技术能集合各模态数据的优势进行信息融合和信息补偿,从而实现更高准确度的定位。视频帧信号能够提供最直观的RGB时序信息,对于神经网络学习特征检测至关重要,然而视频帧中可能会存在动态物体从而导致错误判断运动速度,且单目视频帧信号缺少深度信息;惯导信号能提供个体加速度,速度的直接信息,但是惯导自身内部存在各种参数偏置,且会产生误差积累,不利于长时间工作使用;激光雷达信号能提供深度图信息,但是缺少彩色视觉特征,因此激光雷达信号对于缺少深度信息的单目视频帧信号能作为很好的信息补充。双目视频信号虽然也能提供深度信息,但其需要借助左右目匹配算法,因此计算复杂度很高,同时双目相机对光照变化和纹理细节十分敏感,左右目光照不一致和过于单调的纹理场景都可能导致匹配失败。目前已有各种各样的基于神经网络的双模态传感器融合定位算法。例如:深度视觉

动量里程计VIO,深度雷达视觉里程计VLO,深度动量雷达里程计LIO,这些基于双模态传感器融合的深度里程计都或多或少缺乏了某些重要信息的输入,而三个及以上模态传感器融合定位技术的研究都还停留在传统算法阶段。

技术实现思路

[0005]本专利技术提供一种基于自监督神经网络的视觉

惯导

雷达融合自定位方法,解决了依靠单一模态或双模态自定位信息不足的问题。
[0006]本专利技术解决其技术问题所采用的技术方案是:提供一种基于自监督神经网络的视觉

惯导

雷达融合自定位方法,包括以下步骤:
[0007]获取视频帧序列、惯导数据和激光雷达点云图;
[0008]将所述视频帧序列、惯导数据和激光雷达点云图输入至位姿估计网络模型,得到输入视频帧的相对位姿估计;
[0009]其中,所述位姿估计网络模型包括:
[0010]深度预测网络,用于根据输入的所述视频帧序列得到深度图;
[0011]特征提取网络,用于分别对输入的视频帧序列、惯导数据和激光雷达点云图提取特征信息,得到视觉特征、动量特征和雷达特征;
[0012]特征融合网络,用于将所述视觉特征和雷达特征进行融合得到预融合的修正视觉特征和修正雷达特征,再将预融合的修正视觉特征和修正雷达特征与所述动量特征进行融合,得到融合特征;
[0013]位姿估计网络,用于根据所述融合特征预测位姿变换矩阵;
[0014]参数优化模块,用于根据所述深度图、位姿变换矩阵以及视频帧计算损失函数,并根据损失函数调整所述位姿估计网络模型的参数。
[0015]所述特征提取网络包括:
[0016]第一特征提取部分,采用第一卷积网络从所述视频帧序列中提取出视觉特征;
[0017]第二特征提取部分,采用LSTM网络从所述惯导数据中提取出动量特征;
[0018]第三特征提取部分,将所述激光雷达点云图投影到2D平面,再采用三通道编码的方式将投影到2D平面的激光雷达点云图进行编码,并采用第二卷积网络提取出雷达特征;
[0019]其中,所述第一卷积网络和第二卷积网络的结构相同,并共享除了BN层以外的所有网络层的权重;
[0020]其中,所述第一卷积网络和第二卷积网络的结构相同,并共享除了BN层以外的所有网络层的权重。
[0021]所述特征融合网络包括:
[0022]第一融合部分,用于采用通道交换策略将所述视觉特征和雷达特征进行融合得到预融合的修正视觉特征和修正雷达特征;
[0023]第二融合部分,用于预融合的修正视觉特征和修正雷达特征与所述动量特征进行进行通道上的拼接,得到融合特征。
[0024]所述通道交换策略为其中,V

k,c
表示经过交换策略后的第k层卷积层输出的第c个通道的视觉特征,V
k,c
表示第k层卷积层输出的第c个通道的视觉特征,L
k,c
表示第k层卷积层输出的第c个通道的雷达特征,a
v,k,c
、b
v,k,c
、σ
v,k,c
和μ
v,k,c
分别表示第一卷积网络中BN层的斜率、偏置、均值和方差;a
l,k,c
、b
l,k,c
、σ
l,k,c
和μ
l,k,c
分别表示第二卷积网络中BN层的斜率、偏置、均值和方差;δ为阈值。
[0025]所述损失函数包括重建误差、深度平滑损失和几何一致性损失,表达式为:其中,L
all
为损失函数,L
pe
表示重建误差,L
smooth
表示深度平滑损失,L
geo
表示几何一致性损失,l表示尺度编号,ω1,ω2,ω3分别表示重建误差、深度平滑损失和几何一致性损失的权重。
[0026]所述重本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于自监督神经网络的视觉

惯导

雷达融合自定位方法,其特征在于,包括以下步骤:获取视频帧序列、惯导数据和激光雷达点云图;将所述视频帧序列、惯导数据和激光雷达点云图输入至位姿估计网络模型,得到输入视频帧的相对位姿估计;其中,所述位姿估计网络模型包括:深度预测网络,用于根据输入的所述视频帧序列得到深度图;特征提取网络,用于分别对输入的视频帧序列、惯导数据和激光雷达点云图提取特征信息,得到视觉特征、动量特征和雷达特征;特征融合网络,用于将所述视觉特征和雷达特征进行融合得到预融合的修正视觉特征和修正雷达特征,再将预融合的修正视觉特征和修正雷达特征与所述动量特征进行融合,得到融合特征;位姿估计网络,用于根据所述融合特征预测位姿变换矩阵;参数优化模块,用于根据所述深度图、位姿变换矩阵以及视频帧计算损失函数,并根据损失函数调整所述位姿估计网络模型的参数。2.根据权利要求1所述的基于自监督神经网络的视觉

惯导

雷达融合自定位方法,其特征在于,所述特征提取网络包括:第一特征提取部分,采用第一卷积网络从所述视频帧序列中提取出视觉特征;第二特征提取部分,采用LSTM网络从所述惯导数据中提取出动量特征;第三特征提取部分,将所述激光雷达点云图投影到2D平面,再采用三通道编码的方式将投影到2D平面的激光雷达点云图进行编码,并采用第二卷积网络提取出雷达特征;其中,所述第一卷积网络和第二卷积网络的结构相同,并共享除了BN层以外的所有网络层的权重。3.根据权利要求1或2所述的基于自监督神经网络的视觉

惯导

雷达融合自定位方法,其特征在于,所述特征融合网络包括:第一融合部分,用于采用通道交换策略将所述视觉特征和雷达特征进行融合得到预融合的修正视觉特征和修正雷达特征;第二融合部分,用于预融合的修正视觉特征和修正雷达特征与所述动量特征进行进行通道上的拼接,得到融合特征。4.根据权利要求3所述的基于自监督神经网络的视觉

惯导

雷达融合自定位方法,其特征在于,所述通道交换策略为其中,V

k,c
表示经过交换策略后的第k层卷积层输出的第c个通道的视觉特征,V
k,c
表示第k层卷积层输出的第c个通道的视觉特征,L
k,c
表示第k层卷积层输出的第c个通道的雷达特征,a
v,k,c
、b
v,k,c
、σ
v,k,c
和μ
v,k,c
分别表示第一卷积网络中BN层的斜率、偏置、均值和方差;a
l,k,c
、b
l,k,c
、σ
l,k,c
和μ
...

【专利技术属性】
技术研发人员:韩松芮刘华巍童官军宋尧哲
申请(专利权)人:中国科学院上海微系统与信息技术研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1