本发明专利技术公开了一种融合残差网络和通道注意力的视觉定位方法及系统,包括以下步骤:S1、构建特征提取网络,利用特征提取网络对输入的查询图像和参考图像分别进行特征提取,生成多尺度特征图;特征提取网络包括两个模块,分别为特征提取模块和特征增强模块;S2、根据查询图像的初始位姿,对齐特征图中对应的像素点,并计算查询图像与参考图像间的特征残差;S3、将特征残差作为最优化算法的目标函数,对初始位姿进行优化,得到最优位姿。其解决了现有定位方法在复杂场景中定位精度较低、泛化性较差的问题。的问题。的问题。
【技术实现步骤摘要】
融合残差网络和通道注意力的视觉定位方法及系统
[0001]本专利技术属于视觉定位
,具体涉及一种融合残差网络和通道注意力的视觉定位方法及系统。
技术介绍
[0002]视觉定位的目的是估计相机相对于已知环境的六自由度姿态,即相机的位置坐标和环绕三个坐标轴的角度偏转,它是计算机视觉和机器人技术中的一个重要问题之一。
[0003]目前,现有的基于深度学习的视觉定位方法主要可以分为两类:特征级别的学习和像素级别的学习。特征级别的视觉定位使用神经网络直接回归相机位姿,如Kendall等人使用卷积神经网络从输入图像回归绝对相机位姿,使得视觉定位变得简单高效,但精度相对较低。像素级别的视觉定位则使用神经网络回归场景坐标,建立二维像素到三维空间的映射。比如Brachmann等人采用卷积神经网络预测场景坐标,接着通过采样最小个数的坐标子集,得到模型假设集合,最后通过另外一个卷积神经网络对模型集合进行打分,从而得到最佳模型。像素级别的视觉定位精度相较特征级别的方法有所提升,但在复杂场景下,比如:重复结构、镜面反射等,定位效果并不理想。且这些方法需要对每个场景进行训练,模型泛化性较差。
技术实现思路
[0004]本专利技术的目的是提供一种融合残差网络和通道注意力的视觉定位方法及系统,以解决现有定位方法在复杂场景中定位精度较低、泛化性较差的问题。
[0005]本专利技术采用以下技术方案:融合残差网络和通道注意力的视觉定位方法,包括以下步骤:
[0006]S1、构建特征提取网络,利用特征提取网络对输入的查询图像和参考图像分别进行特征提取,生成多尺度特征图;特征提取网络包括两个模块,分别为特征提取模块和特征增强模块;特征提取模块包括多个基本残差单元,特征增强模块包括多个上采样操作;
[0007]融合位姿估计误差和几何重投影误差,作为联合损失函数,利用联合损失函数训练特征提取网络;
[0008]S2、根据查询图像的初始位姿,对齐特征图中对应的像素点,并计算查询图像与参考图像间的特征残差;特征图为特征提取网络对输入的查询图像和参考图像;
[0009]S3、将特征残差作为最优化算法的目标函数,对初始位姿进行优化,得到最优位姿。
[0010]进一步的,步骤S1中特征提取网络包括:
[0011]特征提取模块:将全卷积网络UNet中的类VGG结构替换为ResNet
‑
50,作为特征提取网络的编码器;
[0012]特征增强模块:利用上采样构建解码器,并在解码器的上采样操作后加入通道注意力ECA
‑
Net;通道注意力机制用于提取图像中的细节信息;
[0013]以编码器和解码器构成的网络为基础架构,构建特征提取网络。
[0014]进一步的,编码器删去了原始ResNet
‑
50最后的池化层和全连接层,保留了剩余结构;
[0015]编码器包括一个7
×
7的卷积层和最大池化层,以及4个残差模块。
[0016]进一步的,解码器包含四次上采样,每次上采样后都插入了通道注意力ECA
‑
Net;
[0017]每个解码器层与编码器间有跳跃连接,每个解码器层的输入不仅包含解码器的特征信息,还包含所有编码器层的特征信息。
[0018]进一步的,位姿估计误差由位置损失与方向损失构成,公式为:
[0019][0020]其中,t表示相机位姿的平移向量的地面真值,R表示相机位姿的旋转矩阵的地面真值,R
‑1为旋转矩阵的逆矩阵,表示相机位姿的平移向量的估计值,R表示相机位姿的旋转矩阵的估计值,α为权值系数;
[0021]几何重投影误差的公式为:
[0022][0023]其中,P
i
表示场景中的3D点;
[0024]最终的联合损失函数为:
[0025][0026]其中,l为特征图层数,λ为融合系数。
[0027]进一步的,步骤S2中查询图像的初始位姿(R0,t0)为参考图像的位姿;
[0028]查询图像与参考图像间特征残差的计算公式为:
[0029][0030]其中,为查询图像特征图,为参考图像特征图,为查询图像上的3D点,为参考图像上的3D点。
[0031]进一步的,步骤S3中使用的最优化算法为自适应的LM算法,具体位姿优化过程如下:
[0032]S31、计算特征残差相对于姿势的导数雅各比矩阵J
i,k
:
[0033][0034]其中,表示导数运算,为姿态更新;
[0035]S32、使用雅各比矩阵计算得到海森矩阵H:
[0036][0037]其中,为雅各比矩阵的转置矩阵,为对角权重矩阵,ρ是鲁棒的成本函数,其导数为ρ',是每个特征残差的权重;
[0038]S33、通过求解线性系统来计算姿态更新δ:
[0039][0040]其中,λ为自适应的LM算法中特有的阻尼因子;
[0041]S34、计算得到新的姿态:
[0042][0043]其中,R
+
为优化后的旋转矩阵,t
+
为优化后的平移向量,δ^为姿态更新的李代数形式。
[0044]进一步的,步骤S33中通过将阻尼因子λ设置为可学习的参数,使其可以自适应的获得一个最优值,来实现优化器与训练数据的解耦。
[0045]本专利技术采用的另一技术方案是,融合全残差网络和通道注意力的视觉定位系统,包括:
[0046]特征提取网络构建模块,用于利用特征提取网络对输入的查询图像和参考图像分别进行特征提取,生成多尺度特征图;特征提取网络包括两个模块,分别为特征提取模块和特征增强模块;特征提取模块包括多个基本残差单元,特征增强模块包括多个上采样操作;
[0047]特征提取网络训练模块,用于利用联合损失函数训练特征提取网络;融合位姿估计误差和几何重投影误差得到联合损失函数;
[0048]特征残差获取模块,用于根据查询图像的初始位姿,对齐特征图中对应的像素点,并计算查询图像与参考图像间的特征残差;特征图为特征提取网络对输入的查询图像和参考图像;
[0049]位姿优化模块,用于将特征残差作为最优化算法的目标函数,对初始位姿进行优化,得到最优位姿。
[0050]本专利技术与现有技术相比,具有如下优点和有益效果:本专利技术公开一种融合残差网络和通道注意力的视觉定位方法,通过使用具有更强的特征提取能力的ResNet50代替原始网络中的类VGG结构,减少了参数量,提高了网络提取特征的能力;通过引入通道注意力机制(ECA
‑
Net),放大了图像中的微小特征,可以获取更多的场景中的细节信息,使改进网络更有效地提取场景中的重要信息以及细节信息,解决了由于过度下采样造成的细节特征损失;采用了融合位姿估计误差和几何重投影误差的联合损失函数,增强了复杂场景中的约束,解决了重投影误差损失失效的问题,提高了视觉定位的精度;通本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.融合残差网络和通道注意力的视觉定位方法,其特征在于,包括以下步骤:S1、构建特征提取网络,利用所述特征提取网络对输入的查询图像和参考图像分别进行特征提取,生成多尺度特征图;所述特征提取网络包括两个模块,分别为特征提取模块和特征增强模块;所述特征提取模块包括多个基本残差单元,所述特征增强模块包括多个上采样操作;融合位姿估计误差和几何重投影误差,作为联合损失函数,利用联合损失函数训练所述特征提取网络;S2、根据所述查询图像的初始位姿,对齐特征图中对应的像素点,并计算查询图像与参考图像间的特征残差;所述特征图为所述特征提取网络对输入的查询图像和参考图像;S3、将所述特征残差作为最优化算法的目标函数,对所述初始位姿进行优化,得到最优位姿。2.根据权利要求1所述的融合残差网络和通道注意力的视觉定位方法,其特征在于,所述步骤S1中特征提取网络包括:特征提取模块:将全卷积网络UNet中的类VGG结构替换为ResNet
‑
50,作为特征提取网络的编码器;特征增强模块:利用上采样构建解码器,并在解码器的上采样操作后加入通道注意力ECA
‑
Net;所述通道注意力机制用于提取图像中的细节信息;以所述编码器和所述解码器构成的网络为基础架构,构建特征提取网络。3.根据权利要求2所述的融合残差网络和通道注意力的视觉定位方法,其特征在于,所述编码器删去了原始ResNet
‑
50最后的池化层和全连接层,保留了剩余结构;所述编码器包括一个7
×
7的卷积层和最大池化层,以及4个残差模块。4.根据权利要求2所述的融合残差网络和通道注意力的视觉定位方法,其特征在于,所述解码器包含四次上采样,每次上采样后都插入了通道注意力ECA
‑
Net;每个解码器层与编码器间有跳跃连接,每个解码器层的输入不仅包含解码器的特征信息,还包含所有编码器层的特征信息。5.根据权利要求1所述的融合残差网络和通道注意力的视觉定位方法,其特征在于,所述位姿估计误差由位置损失与方向损失构成,公式为:其中,t表示相机位姿的平移向量的地面真值,R表示相机位姿的旋转矩阵的地面真值,R
‑1为旋转矩阵的逆矩阵,表示相机位姿的平移向量的估计值,R表示相机位姿的旋转矩阵的估计值,α为权值系数;所述...
【专利技术属性】
技术研发人员:王静,金玉楚,薛嘉兴,刘嘉星,叶星,黄健,康晓非,代新冠,
申请(专利权)人:西安科技大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。