一种基于联合表示注意力机制的深度学习图像匹配方法组成比例

技术编号:33245940 阅读:73 留言:0更新日期:2022-04-27 17:57
本发明专利技术涉及一种基于联合表示注意力机制的深度学习图像匹配方法。包括以下步骤:步骤1、使用SIFT算法和NN匹配算法建立初始匹配集;步骤2、利用改进的网络JRA

【技术实现步骤摘要】
一种基于联合表示注意力机制的深度学习图像匹配方法


[0001]本专利技术涉及图像匹配领域,具体涉及一种基于联合表示注意力机制的深度学习图像匹配方法。

技术介绍

[0002]传统图像匹配在运动恢复结构、图像拼接、同时定位和建图、三维重建等计算机视觉任务中扮演着十分重要的角色,是计算机视觉、模式识别、图像分析、安全、遥感等领域的一个重要课题。通常,图像匹配包含三个步骤,即特征点提取和描述,建立初始匹配集和误匹配剔除。由于图像对中存在大的视角变化、光照变化,以及严重的遮挡等情况,初始匹配集中包含大量的离群点。误匹配剔除作为一个关键的后处理步骤,可以从初始匹配集中保留内点并剔除离群点从而提高匹配的精度。因此,研究一种高精度,高效率和高鲁棒性的图像匹配方法在全球自动化和人工智能时代有着极为重要的理论研究意义和实际应用价值。
[0003]在过去的几十年里,研究者们提出了许多不同种类的图像匹配方法。根据最近文献以及研究成果,图像匹配方法可分为三类:直接匹配、间接匹配和基于深度学习的匹配。直接匹配的目的是直接利用空间几何关系和优化方法建立两个给定特征集之间的对应关系,又分为图匹配和点集配准。间接匹配与直接匹配最大的区别在于使用了局部特征描述子,例如尺度不变特征变换(SIFT)、加速稳健特征(SURF)等。先通过局部特征描述子建立初始匹配,再利用经典的算法,例如随机抽样一致性算法(RANSAC)、局部保持匹配(LPM)等,进行误匹配剔除。近年来,由于强大的数据驱动表达能力和深度特征获取能力,基于深度学习的特征匹配算法开始流行起来,并且在大数据集上取得了很好的效果。例如,LFGC提出由于初始匹配的无序和不规则的性质,深度学习网络需具备置换等变性,为此,他们设计了一种被称作PointCN的模块,它主要利用多层感知器(MLPs)来单独处理每一个匹配,以及上下文归一化(CN)来捕获全局上下文信息。OANet提出了可微的池化层和上池化层(DiffPool&DiffUnpool layer)来捕获几何上下文信息。然而,CN操作基于均值和方差对特征映射进行归一化,这种对每一个初始匹配都一视同仁的做法,对于异常值占主导的初始匹配集是不合理的,这会导致次优的匹配结果。因此,如何在网络学习阶段有区分性地对待每一个匹配,是一个具有挑战性的问题,其对进一步提高图像匹配精度具有重要意义。

技术实现思路

[0004]本专利技术的目的在于解决上述
技术介绍
存在缺陷,提供一种基于联合表示注意力机制的深度学习图像匹配方法。
[0005]为实现上述目的,本专利技术的技术方案是:一种基于联合表示注意力机制的深度学习图像匹配方法,包括以下步骤:
[0006]步骤1、使用SIFT算法和NN匹配算法建立初始匹配集;
[0007]步骤2、利用改进的网络JRA

Net进行误匹配剔除,得到匹配为内点的概率集;
[0008]步骤3、将步骤2输出的概率集视为权重集,利用加权8点算法估计本质矩阵;
[0009]步骤4、通过本质矩阵回归准确的相对姿态。
[0010]在本专利技术一实施例中,所述步骤1具体实现如下:
[0011]步骤1.1、通过SIFT算法在图像对I和I

中提取关键点坐标和描述子;
[0012]步骤1.2、根据描述子的相似性和从测量空间判断的距离,建立初始匹配集C:
[0013][0014]其中c
i
表示第i对匹配,N表示匹配的总数,和分别表示图像对I和I

的归一化坐标。
[0015]在本专利技术一实施例中,所述步骤2具体实现如下:
[0016]步骤2.1、将步骤1.2得到的N
×
4的初始匹配集合C作为深度学习网络的输入;经过上下文提取层中的三个PointCN块,获得一个特征映射F1∈R
N
×
128
;PointCN块由两组相同结构的多层感知器组成,多层感知器由一个上下文归一化CN层、一个Batch归一化层、一个ReLU激活函数和一个由128个神经元构成,其中CN层用于提取全局上下文信息,Batch归一化层有助于加速网络收敛;
[0017]步骤2.2、将步骤2.1的输出结果送入几何提取层中的DiffPool&DiffUnpool层,输出一个特征映射F2∈R
N
×
128
;其中DiffPool&DiffUnpool层包括一个可微池化层,三个顺序感知过滤层以及一个可微上池化层;
[0018]步骤2.3、将步骤2.1和步骤2.2的输出结果一同输入第一个联合表示注意力块JRA Block 1,分别对步骤2.1和步骤2.2的输出结果进行重校准;重校准后的特征维度仍为128;其中JRA Block 1包含一个全局注意力块GA Block和一个局部注意力块LA Block;
[0019]步骤2.4、将步骤2.3的输出结果F
″1,F
″2送入第二个联合注意力块JRA Block 2,进行进一步更细致地重校准;重校准后的特征维度仍为128;
[0020]步骤2.5、将步骤2.4的输出结果拼接后,经过上下文提取层中的三个PointCN块,获得一个具有强表达能力的特征映射;
[0021]步骤2.6、将步骤2.5的输出结果输入到概率预测层Prob Predictor,获得每一个匹配作为内点的概率。
[0022]在本专利技术一实施例中,所述步骤2.2具体实现如下:
[0023]步骤2.2.1、通过一个可微的池化层,将F1中的N对匹配映射为M个聚类,得到F
pool
∈R
M
×
128

[0024]步骤2.2.2、步骤2.2.1的输出结果经过三个顺序感知过滤模块,以捕获几何信息;
[0025]步骤2.2.3、步骤2.2.2的输出结果经过一个可微上池化层将M个聚类映射回N对匹配;此过程为可微池化层的逆过程。
[0026]在本专利技术一实施例中,所述步骤2.3具体实现如下:
[0027]步骤2.3.1、设计一个全局注意力块GA Block,通过学习两个输入的特征映射的全局联合表示,分别对它们进行通道重校准,从而让网络更关注重要的通道,抑制不重要的通道,具体如下:
[0028]首先,GABlock通过两个全局池化层聚合输入的特征映射F1,F2的空间全局信息,得到两个通道统计量S1,S2∈R1×
128

[0029]然后,通过拼接学习获得全局联合表示S
g
,公式如下:
[0030]S
g
=MLP(Concat(S1,S2))
ꢀꢀ
(2)
[0031]其中MLP表示多层感知机,Concat表示沿通道维度的拼接操作;
[0032]接着,基于全局联合表示S
g
,通过两组,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于联合表示注意力机制的深度学习图像匹配方法,其特征在于,包括以下步骤:步骤1、使用SIFT算法和NN匹配算法建立初始匹配集;步骤2、利用改进的网络JRA

Net进行误匹配剔除,得到匹配为内点的概率集;步骤3、将步骤2输出的概率集视为权重集,利用加权8点算法估计本质矩阵;步骤4、通过本质矩阵回归准确的相对姿态。2.根据权利要求1所述的一种基于联合表示注意力机制的深度学习图像匹配方法,其特征在于,所述步骤1具体实现如下:步骤1.1、通过SIFT算法在图像对I和I

中提取关键点坐标和描述子;步骤1.2、根据描述子的相似性和从测量空间判断的距离,建立初始匹配集C:其中c
i
表示第i对匹配,N表示匹配的总数,和分别表示图像对I和I

的归一化坐标。3.根据权利要求2所述的一种基于联合表示注意力机制的深度学习图像匹配方法,其特征在于,所述步骤2具体实现如下:步骤2.1、将步骤1.2得到的N
×
4的初始匹配集合C作为深度学习网络的输入;经过上下文提取层中的三个PointCN块,获得一个特征映射F1∈R
N
×
128
;PointCN块由两组相同结构的多层感知器组成,多层感知器由一个上下文归一化CN层、一个Batch归一化层、一个ReLU激活函数和一个由128个神经元构成,其中CN层用于提取全局上下文信息,Batch归一化层有助于加速网络收敛;步骤2.2、将步骤2.1的输出结果送入几何提取层中的DiffPool&DiffUnpool层,输出一个特征映射F2∈R
N
×
128
;其中DiffPool&DiffUnpool层包括一个可微池化层,三个顺序感知过滤层以及一个可微上池化层;步骤2.3、将步骤2.1和步骤2.2的输出结果一同输入第一个联合表示注意力块JRA Block 1,分别对步骤2.1和步骤2.2的输出结果进行重校准;重校准后的特征维度仍为128;其中JRA Block 1包含一个全局注意力块GA Block和一个局部注意力块LA Block;步骤2.4、将步骤2.3的输出结果F”1
,F”2
送入第二个联合注意力块JRA Block 2,进行进一步更细致地重校准;重校准后的特征维度仍为128;步骤2.5、将步骤2.4的输出结果拼接后,经过上下文提取层中的三个PointCN块,获得一个具有强表达能力的特征映射;步骤2.6、将步骤2.5的输出结果输入到概率预测层Prob Predictor,获得每一个匹配作为内点的概率。4.根据权利要求3所述的一种基于联合表示注意力机制的深度学习图像匹配方法,其特征在于,所述步骤2.2具体实现如下:步骤2.2.1、通过一个可微的池化层,将F1中的N对匹配映射为M个聚类,得到F
pool
∈R
M
×
128
;步骤2.2.2、步骤2.2.1的输出结果经过三个顺序感知过滤模块,以捕获几何信息;步骤2.2.3、步骤2.2.2的输出结果经过一个可微上池化层将M个聚类映射回N对匹配;
此过程为可微池化层的逆过程。5.根据权利要求3所述的一种基于联合表示注意力机制的深度学习图像匹配方法,其特征在于,所述步骤2.3具体实现如下:步骤2.3.1、设计一个全局注意力块GA Block,通过学习两个输入的特征映射的全局联合表示,分别对它们进行通道重校准,从而让网络更关注重要的通道,抑制不重要的通道,具体如下:首先,GA Block通过...

【专利技术属性】
技术研发人员:石子威肖国宝陈日清杨长才魏丽芳
申请(专利权)人:福建农林大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1