基于多任务图像匹配的无人机相对位姿估计方法及装置制造方法及图纸

技术编号：44970634 阅读：2 留言：0更新日期：2025-04-12 01:44

本发明专利技术公开一种基于多任务图像匹配的无人机相对位姿估计方法及装置，该方法步骤包括：构建多任务图像学习网络，多任务图像学习网络包括依次设置的特征提取模块、双分支网络以及特征融合模块，双分支网络包括语义分割分支网络以及图形特征描述分支网络；对多任务图像学习网络进行训练，训练过程中使用包含描述子损失、语义分割损失、特征图损失的损失函数；获取无人机在飞行过程中捕获的图像，输入至训练得到的多任务图像学习模型中，得到输入图像之间的匹配对关系，并使用语义分割图引导图像匹配任务，根据匹配对关系估算相机之间的相对位姿关系。本发明专利技术能够提高无人机相对位姿估计的图像匹配准确性以及效率，同时减少机上的存储占用。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及无人机视觉定位，尤其涉及一种基于多任务图像匹配的无人机相对位姿估计方法及装置。

技术介绍

1、图像匹配是视觉定位的前提，可以使得无人机在卫星拒止或室内条件下仍具有高精度的定位信息，帮助构建场景三维模型，实现对环境的探索。图像匹配是通过直接对图像进行特征提取与配对，以在两个或多个图像或数据集中找到相应的特征点或特征描述子，并建立特征点或特征描述子之间的对应关系。

2、图像匹配方法目前可以分为两类，一类是基于特征点的图像匹配方法，另一类是直接图像匹配方法。其中基于特征点的图像匹配方法是局部特征匹配的主要方法，其匹配策略分为两个阶段，第一阶段先提取图像中的关键点和对应的描述子，第二阶段利用描述子完成图像匹配任务，该类方法具有较高的准确性和鲁棒性，可以在复杂环境中提取特征点，但是在场景内当存在遮挡、部分遮挡或图像缺少纹理信息或包含大量重复特征时，会存在难以提取足够多的特征点或可能产生大量的误匹配等问题。为解决上述问题，当前主要是通过提取更多的特征点或提高描述子的准确性，或者提高网络的推理速度，但是会导致实现的复杂度较高，降低匹配效率，并且由于特征点检测的限制，该类方法得到的是稀疏的匹配结果。而直接图像匹配的方法是直接获得两幅图像中的匹配关系，省去中间过程，该方法通过将图像匹配问题抽离为两个点集的对应问题，即纯点集匹配问题，虽然该类方法在弱纹理区域或重复区域的效果更好，但推理速度较慢，且由于需要计算稠密的匹配关系，计算复杂度较高，需要占用大量的资源。

3、在无人机视觉定位过程中，为了实现相对位姿估计需

技术实现思路

1、本专利技术要解决的技术问题就在于：针对现有技术存在的技术问题，本专利技术提供一种基于多任务图像匹配的无人机相对位姿估计方法及装置，能够提高无人机相对位姿估计的图像匹配准确性以及效率，同时减少机上的存储占用。

2、为解决上述技术问题，本专利技术提出的技术方案为：

3、一种基于多任务图像匹配的无人机相对位姿估计方法，步骤包括：

4、构建多任务图像学习网络，所述多任务图像学习网络包括依次设置的特征提取模块、双分支网络以及特征融合模块，所述特征提取模块用于从输入图像中提取特征图并提供给所述双分支网络以学习输入图像中共有的特征，所述双分支网络包括用于对输入图像执行语义分割任务的语义分割分支网络以及用于对输入图像执行图形特征描述任务的图形特征描述分支网络，由所述语义分割分支网络提取出语义分割描述子以及语义分割图，由所述图形特征描述分支网络提取出特征描述子，所述特征融合模块用于将所述语义分割分支网络提取的语义分割描述子、所述图形特征描述分支网络提取的特征描述子进行融合形成最终的稠密特征描述子，以将语义全局信息显式的嵌入到特征描述子中；

5、对所述多任务图像学习网络进行训练，训练过程中使用包含描述子损失、语义分割损失、特征图损失的损失函数控制训练过程，训练完成后得到多任务图像学习模型；

6、获取无人机在飞行过程中由摄像机捕获的图像，将获取的图像输入至训练得到的所述多任务图像学习模型中，得到输入图像的语义分割图和稠密特征描述子，根据各图像的所述稠密特征描述子通过特征匹配得到图像之间的匹配对关系，并使用所述语义分割图引导图像匹配任务，根据匹配对关系估算相机之间的相对位姿关系。

7、进一步地，所述特征提取模块为特征编码骨干网络，所述双分支网络中语义分割分支网络、图形特征描述分支网络共享所述特征编码骨干网络以学习输入图像中共有的特征，通过所述图形特征描述分支网络的特征描述头、所述语义分割分支网络的语义分割头分别学习两个任务的不同特征。

8、进一步地，所述多任务图像学习网络还设置有特征蒸馏网络，通过使用语义分割模型作为教师网络对所述特征编码骨干网络提取的特征图进行特征蒸馏，以及使用教师网络对输入图像进行分割得到的分割结果对所述语义分割头的输出结果进行蒸馏。

9、进一步地，所述特征融合模块中通过多个堆叠的自注意力层和交叉注意力层将语义分割结果与特征描述子进行融合，所述自注意力层的输入向量包含查询向量q、键值向量k和值向量v，其中自注意力层的 q，k，v 均来自同一描述子输入，交叉注意力层中q与k和v分别来自不同的描述子输入，查询向量通过计算与键值向量的相似度在值向量中检索信息，计算表达式为：

10、

11、

12、其中，表示自注意力层，表示交叉注意力层，表示激活函数，表示第一输入特征,表示第二输入特征。

13、进一步地，所述特征融合模块还用于在将二维图像展平为一维向量后执行位置编码操作，将编码后的向量x作为注意力机制的输入source 和y，计算表达式为：

14、

15、

16、

17、其中，x表示编码后向量，表示图形特征描述分支得到的特征描述子,表示将二维向量展平维一维的函数,分别展平后的特征描述子、语义描述子,表示语义分割分支得到的语义描述子,表示输入的特征，即展平后的语义描述子或特征描述子，表示对进行位置编码后的特征。

18、进一步地，训练过程中使用的总的损失函数的计算表达式为：

19、

20、

21、

22、其中，表示语义分割损失，表示特征图损失，是骨干网络的第i层的特征图，是语义分割教师网络的第i层中间特征图，表示描述子损失，、以及分别表示权重系数，是由教师网络输出的语义分割结果，是双分支网络预测的语义分割结果。

23、进一步地，描述子损失的计算表达式为：

24、

25、

26、

27、其中，表示相似度矩阵,分别表示待匹配的图对中a图提取的第i个特征描述子和b图中提取的第j个特征描述子，表示通过对偶softmax计算得到的相似度得分矩阵，表示真实的匹配关系，i-j为一对匹配,i,j表示从a图和b图分别提取的i,j个特征点,t表示缩放因子，分别表示a图到b图的匹配得分和b图到a图的匹配得分，表示与i或j匹配的匹配对索引，表示图a，表示图b。

28、进一步地，所述使用所述语义分割图引导图像匹配任务包括：根据所述语义分割图保留背景或静止物体上的特征匹配对，对动态物体上的匹配对进行降低权重或直接抛弃。

29、一种基于多任务图像匹配的无人机相对位姿估计装置，包括：

30、模型构建模块，用于构建多任务图像学习网络，所述多任务图像学习网络包括依次设置的双分支网络、特征融合模块、特征提取模块以及图像匹配模块，所述双分支网络包括用于执行语义分割任务的语义分割分支网本文档来自技高网...

【技术保护点】

1.一种基于多任务图像匹配的无人机相对位姿估计方法，其特征在于，步骤包括：

2.根据权利要求1所述的基于多任务图像匹配的无人机相对位姿估计方法，其特征在于，所述多任务图像学习网络还设置有特征蒸馏网络，通过使用语义分割模型作为教师网络对所述特征编码骨干网络提取的特征图进行特征蒸馏，以及使用教师网络对输入图像进行分割得到的分割结果对所述语义分割头的输出结果进行蒸馏。

3.根据权利要求1所述的基于多任务图像匹配的无人机相对位姿估计方法，其特征在于，所述特征融合模块中通过多个堆叠的自注意力层和交叉注意力层将语义分割描述子与特征描述子进行融合，所述自注意力层的输入向量包含查询向量Q、键值向量K和值向量V，其中自注意力层的 Q，K，V 均来自同一描述子输入，交叉注意力层中Q与K和V分别来自不同的描述子输入，查询向量通过计算与键值向量的相似度在值向量中检索信息，计算表达式为：

4.根据权利要求3所述的基于多任务图像匹配的无人机相对位姿估计方法，其特征在于，所述特征融合模块还用于在将二维图像展平为一维向量后执行位置编码操作，将编码后的向量x作为注意力机制的输入source 和y，计算表达式为：

5.根据权利要求1~4中任意一项所述的基于多任务图像匹配的无人机相对位姿估计方法，其特征在于，训练过程中使用的总的损失函数的计算表达式为：

6.根据权利要求5所述的基于多任务图像匹配的无人机相对位姿估计方法，其特征在于，描述子损失的计算表达式为：

7.根据权利要求1~4中任意一项所述的基于多任务图像匹配的无人机相对位姿估计方法，其特征在于，所述使用所述语义分割图引导图像匹配任务包括：根据所述语义分割图保留背景或静止物体上的特征匹配对，对动态物体上的匹配对进行降低权重或直接抛弃。

8.一种基于多任务图像匹配的无人机相对位姿估计装置，其特征在于，包括：

9.一种计算机装置，包括处理器以及存储器，所述存储器用于存储计算机程序，其特征在于，所述处理器用于执行所述计算机程序以执行如权利要求1～7中任意一项所述方法。

10.一种存储有计算机程序的计算机可读存储介质，其特征在于，所述计算机程序被处理器执行时实现如权利要求1～7中任意一项所述的方法。

...

【技术特征摘要】

1.一种基于多任务图像匹配的无人机相对位姿估计方法，其特征在于，步骤包括：

3.根据权利要求1所述的基于多任务图像匹配的无人机相对位姿估计方法，其特征在于，所述特征融合模块中通过多个堆叠的自注意力层和交叉注意力层将语义分割描述子与特征描述子进行融合，所述自注意力层的输入向量包含查询向量q、键值向量k和值向量v，其中自注意力层的 q，k，v 均来自同一描述子输入，交叉注意力层中q与k和v分别来自不同的描述子输入，查询向量通过计算与键值向量的相似度在值向量中检索信息，计算表达式为：

4.根据权利要求3所述的基于多任务图像匹配的无人机相对位姿估计方法，其特征在于，所述特征融合模块还用于在将二维图像展平为一维向量后执行位置编码操作，将编码后的向量x...

【专利技术属性】
技术研发人员：俞先国，王祥科，李玙珂，周子浩，易凡骁，丛一睿，贺光，余杨广，
申请(专利权)人：中国人民解放军国防科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人