融合残差网络和通道注意力的视觉定位方法及系统技术方案

技术编号：38741784 阅读：28 留言：0更新日期：2023-09-08 23:26

本发明专利技术公开了一种融合残差网络和通道注意力的视觉定位方法及系统，包括以下步骤：S1、构建特征提取网络，利用特征提取网络对输入的查询图像和参考图像分别进行特征提取，生成多尺度特征图；特征提取网络包括两个模块，分别为特征提取模块和特征增强模块；S2、根据查询图像的初始位姿，对齐特征图中对应的像素点，并计算查询图像与参考图像间的特征残差；S3、将特征残差作为最优化算法的目标函数，对初始位姿进行优化，得到最优位姿。其解决了现有定位方法在复杂场景中定位精度较低、泛化性较差的问题。的问题。的问题。

全部详细技术资料下载

【技术实现步骤摘要】
融合残差网络和通道注意力的视觉定位方法及系统

[0001]本专利技术属于视觉定位
，具体涉及一种融合残差网络和通道注意力的视觉定位方法及系统。

技术介绍

[0002]视觉定位的目的是估计相机相对于已知环境的六自由度姿态，即相机的位置坐标和环绕三个坐标轴的角度偏转，它是计算机视觉和机器人技术中的一个重要问题之一。
[0003]目前，现有的基于深度学习的视觉定位方法主要可以分为两类：特征级别的学习和像素级别的学习。特征级别的视觉定位使用神经网络直接回归相机位姿，如Kendall等人使用卷积神经网络从输入图像回归绝对相机位姿，使得视觉定位变得简单高效，但精度相对较低。像素级别的视觉定位则使用神经网络回归场景坐标，建立二维像素到三维空间的映射。比如Brachmann等人采用卷积神经网络预测场景坐标，接着通过采样最小个数的坐标子集，得到模型假设集合，最后通过另外一个卷积神经网络对模型集合进行打分，从而得到最佳模型。像素级别的视觉定位精度相较特征级别的方法有所提升，但在复杂场景下，比如：重复结构、镜面反射等，定位效果并不理想。且这些方法需要对每个场景进行训练，模型泛化性较差。

技术实现思路

[0004]本专利技术的目的是提供一种融合残差网络和通道注意力的视觉定位方法及系统，以解决现有定位方法在复杂场景中定位精度较低、泛化性较差的问题。
[0005]本专利技术采用以下技术方案：融合残差网络和通道注意力的视觉定位方法，包括以下步骤：
[0006]S1、构建特征提取网络，利用特...

【技术保护点】

【技术特征摘要】
1.融合残差网络和通道注意力的视觉定位方法，其特征在于，包括以下步骤：S1、构建特征提取网络，利用所述特征提取网络对输入的查询图像和参考图像分别进行特征提取，生成多尺度特征图；所述特征提取网络包括两个模块，分别为特征提取模块和特征增强模块；所述特征提取模块包括多个基本残差单元，所述特征增强模块包括多个上采样操作；融合位姿估计误差和几何重投影误差，作为联合损失函数，利用联合损失函数训练所述特征提取网络；S2、根据所述查询图像的初始位姿，对齐特征图中对应的像素点，并计算查询图像与参考图像间的特征残差；所述特征图为所述特征提取网络对输入的查询图像和参考图像；S3、将所述特征残差作为最优化算法的目标函数，对所述初始位姿进行优化，得到最优位姿。2.根据权利要求1所述的融合残差网络和通道注意力的视觉定位方法，其特征在于，所述步骤S1中特征提取网络包括：特征提取模块：将全卷积网络UNet中的类VGG结构替换为ResNet
‑
50，作为特征提取网络的编码器；特征增强模块：利用上采样构建解码器，并在解码器的上采样操作后加入通道注意力ECA
‑
Net；所述通道注意力机制用于提取图像中的细节信息；以所述编码器和所述解码器构成的网络为基础架构，构建特征提取网络。3.根据权利要求2所述的融合残差网络和通道注意力的视觉定位方法，其特征在于，所述编码器删去了原始ResNet
‑
50最后的池化层和全连接层，保留了剩余结构；所述编码器包括一个7
×
7的卷积层和最大池化层，以及4个残差模块。4.根据权利要求2所述的融合残差网络和通道注意力的视觉定位方法，其特征在于，所述解码器包含四次上采样，每次上采样后都插入了通道注意力ECA
‑
Net；每个解码器层与编码器间有跳跃连接，每个解码器层的输入不仅包含解码器的特征信息，还包含所有编码器层的特征信息。5.根据权利要求1所述的融合残差网络和通道注意力的视觉定位方法，其特征在于，所述位姿估计误差由位置损失与方向损失构成，公式为：其中，t表示相机位姿的平移向量的地面真值，R表示相机位姿的旋转矩阵的地面真值，R
‑1为旋转矩阵的逆矩阵，表示相机位姿的平移向量的估计值，R表示相机位姿的旋转矩阵的估计值，α为权值系数；所述...

【专利技术属性】
技术研发人员：王静，金玉楚，薛嘉兴，刘嘉星，叶星，黄健，康晓非，代新冠，
申请(专利权)人：西安科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人