一种基于深度学习的轻量级图像线段提取及描述方法技术

技术编号:36604253 阅读:75 留言:0更新日期:2023-02-04 18:23
本发明专利技术公开了一种基于深度学习的轻量级图像线段提取及描述方法。本发明专利技术针对现有基于深度学习的线段检测方法计算量大的问题。采用轻量级骨干网络作为特征提取网络;使用线段提取和描述同步进行的网络架构,共享了大部分网络参数;将两个分支集成进行端到端训练;以起点、中心点和终点作为线段的最小表示,提高后处理速度;本发明专利技术在提高速度的同时保证了精度。度。度。

【技术实现步骤摘要】
一种基于深度学习的轻量级图像线段提取及描述方法


[0001]本专利技术属于图像处理
,尤其是涉及一种基于深度学习的轻量级图像线段提取及描述方法。

技术介绍

[0002]线段是人造环境中普遍存在的结构特征,可以为同步定位与建图(SLAM)、三维结构重建等几何计算机视觉任务提供场景的结构化信息,精确的线段检测以及匹配对这些任务至关重要。随着深度神经网络的发展,基于深度学习的线段检测方法展现了强大的性能。但在一些计算资源受限的平台上,它们的运算量大,不能实现实时推理;同时跨图像的几何匹配需要特征描述符,基于深度学习的线段描述子提取方法有着更高的匹配精度。但是,它们都是单独设计的,没有与线段检测进行一个紧密的结合,单独执行线段检测和描述符提取是耗时的。因此,本专利技术提供一种基于深度学习的轻量级图像线段及描述子提取方法。

技术实现思路

[0003]本专利技术的目的在于针对现有基于深度学习的图像线特征检测方法运算量大,难以在计算资源受限平台上实现实时推理以及基于深度学习的描述子提取与线段检测没有进行紧密结合,单独设计问题。实现提出了一种基于深度学习的轻量级图像线段提取及描述方法;本专利技术使用轻量级骨干网络以及两个集成分支,在实现线特征提取和描述同步进行的同时,共享了大部分网络参数,减少了网络运算量;提高处理速度的同时保证了精度。
[0004]本专利技术的目的可以通过采取如下技术方案达到:
[0005]步骤1、准备包含线段标签的图像数据集。
[0006]步骤2、构建轻量级图像线段提取及描述网络。
[0007]进一步的,所述轻量级图像线段提取及描述网络结构包含骨干网络、线段检测分支以及描述子分支3部分。其中骨干网络由一个编码器和一个特征融合器组成。
[0008]进一步的,所述骨干网络编码器使用改造的轻量级CNN网络MobilenetV2,改造的MobilenetV2依次由一个3
×
3Conv,16个bottleneck块以及一个ASPP Module组成,其中Conv表示卷积操作,bottleneck块由1个1x1卷积、3x3逐通道卷积和1个1x1卷积组成。将第14个bottleneck块的stride大小设置为1,并将第14到第16个bottleneck块的逐通道卷积的扩张率设置为2。ASPP Module将第16个bottleneck的输出作为输入,具有1个1x1卷积、3个不同扩张率的3x3空洞卷积分支以及一个将特征图全局平均池化后,通过1x1卷积后通过双线性插值恢复分辨率的分支,5个分支并行处理输入的特征图,之后将5个分支的输出拼接起来,不同的扩张率设置为6,12,18;最后使用1x1卷积改变通道数。
[0009]进一步的,所述骨干网络特征融合器由两个分支组成,两个分支是并行的,其中低层级特征分支将第3个bottleneck的特征图通过1x1卷积来改变通道数;高层级特征分支将ASPP Module的特征图作为输入,之后串联双线性插值操作、3x3逐通道卷积以及1x1卷积,最后两个分支的输出相加。
[0010]进一步的,所述线段检测分支以骨干网络特征融合器的输出特征图作为输入,先经过1个3
×
3可变形卷积和两个扩张率为2的3
×
3空洞卷积,再通过一个3
×
3卷积和一个1
×
1卷积,最后通过双线性插值操作得到线段检测分支输出。其中包括1个线段中心点预测图,4个线段端点位移量预测图以及2个线段中心点偏移量预测图。
[0011]进一步的,所述描述子分支以以骨干网络特征融合器的输出特征图作为输入,应用一个3
×
3卷积和一个1
×
1卷积得到半稠密描述子特征图,最后可以通过双线性插值得到任意点位置的描述子。
[0012]步骤3、使用包含线段标签的图像数据集训练轻量级图像线段提取及描述网络。
[0013]对包含线段标签的图像数据集的图像使用数据增强,数据增强方式包括随机垂直翻转、随机尺度缩放、运动模糊、随机高斯噪声和亮度变化。
[0014]对包含线段标签的图像数据集的图像上使用随机单应性变换,构建同一场景但不同视角的成对图像,单应性变换由缩放、平移、旋转以及透视变换组合而成,它涵盖了摄像机运动引起的大部分视角变化。将构建的图像对(I
A
,I
B
)作为图像线段提取以及描述网络的输入。
[0015]设置损失函数,进行训练。
[0016]进一步的,所述损失函数L
total
由线段检测分支损失L
line
以及描述子分支损失L
desc
组成。具体为:
[0017][0018]其中w
line
,w
desc
分别为线段检测分支损失和描述子分支损失的权重,它们在训练过程中进行优化,对损失进行动态加权。
[0019]其中线段检测分支损失L
line
由线段中心点损失L
mid
,线段端点位移量损失L
disp
,线段中心点偏移量损失L
off
以及线段匹配损失L
match
三部分组成:
[0020][0021]其中w
mid
,w
disp
,w
off
,w
match
为各自的损失权重,对损失进行动态加权,在训练过程中进行优化。
[0022]L
mid
是线段中心点的损失函数,采用focal loss的变体:
[0023][0024]其中α和β是超参数,具体为2和4,N是图像中包含的中心点数目;Y
hw
是线段中心点标签图(h,w)位置的值,是线段中心预测图(h,w)位置的值。线段中心点标签通过高斯核进行平滑,然后使用3x3窗口截断,因此中心点位置具有最高的置信度1,其附近的像素具有较低的置信度。
[0025]L
disp
采用smooth L1 loss,损失函数只计算线段中心点位置的损失,具体表示为:
[0026][0027]其中F(p)表示线段端点位移量预测图和标签图中像素位置p的值。
[0028]L
off
采用L1 loss:
[0029][0030]其中为中心点偏移量预测图(h,w)的值,O
h,w
是中心点偏移量标签图(h,w)的值。其中N是图像中包含的中心点数目。
[0031]L
match
是线段匹配损失,用于引导线起点、中心点以及终点之间的几何匹配。首先从预测的线段中心点和对应端点位移量得到预测线段,计算预测线段与标签线段l两个端点的欧式距离d(
·
),满足以下关系则为匹配线段:
[0032][0033]其中设定的距离阈值γ为5像素距离,和l
s
分别为预测本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度学习的轻量级图像线段提取及描述方法,其特征在于,包括以下步骤步骤1、准备包含线段标签的图像数据集。步骤2、构建轻量级图像线段提取及描述网络;所述轻量级图像线段提取及描述网络结构包含骨干网络、线段检测分支以及描述子分支3部分。其中骨干网络由一个编码器和一个特征融合器组成。线段检测分支从图像中预测线段,预测的线段可以在描述子分支提取线段描述子。步骤3、使用包含线段标签的图像数据集训练轻量级图像线段提取及描述网络。步骤4、将待检测图像输入到轻量级图像线段提取及描述网络得到图像线段以及对应描述子。2.如权利要求1所述一种基于深度学习的轻量级图像线段提取及描述方法,其特征在于在步骤1中,包含线段标签的图像数据集为公开数据集Wire

frame,该数据集包含5462张室内和室外人造环境的图片,数据集的5000张图片用作训练,462张用作测试。3.如权利要求1所述一种基于深度学习的轻量级图像线段提取及描述方法,其特征在于在步骤2中,所述骨干网络编码器使用改造的轻量级CNN网络MobilenetV2,它参数少,计算量小、推理时间短,适合计算资源受限的环境。改造的MobilenetV2依次由一个3
×
3Conv,16个bottleneck块以及一个ASPP Module组成,其中Conv表示卷积操作,bottleneck块由1个1x1卷积、3x3逐通道卷积和1个1x1卷积组成。原始的MobilenetV2第16个bottleneck输出的特征图分辨率是输入图像的32分之一,为了获得更大分辨率的输出特征图的同时保证感受野,将第14个bottleneck块的stride大小设置为1,并将第14到第16个bottleneck块的逐通道卷积的扩张率设置为2。ASPP Module将第16个bottleneck的输出作为输入,具有1个1x1卷积、3个不同扩张率的3x3空洞卷积分支以及一个将特征图全局平均池化后,通过1x1卷积后通过双线性插值恢复分辨率的分支,5个分支并行处理输入的特征图,之后将5个分支的输出拼接起来,不同的扩张率设置为6,12,18;最后使用1x1卷积改变通道数。4.如权利要求1所述一种基于深度学习的轻量级图像线段提取及描述方法,其特征在于在步骤2中,所述骨干网络特征融合器由两个分支组成,两个分支是并行的,其中低层级特征分支将第3个bottleneck的特征图通过1x1卷积来改变通道数;高层级特征分支将ASPP Module的特征图作为输入,之后串联双线性插值操作、3x3逐通道卷积以及1x1卷积,最后两个分支的输出相加。5.如权利要求1所述一种基于深度学习的轻量级图像线段提取及描述方法,其特征在于在步骤2中,所述线段检测分支以骨干网络特征融合器的输出特征图作为输入,先经过1个3
×
3可变形卷积和两个扩张率为2的3
×
3空洞卷积,再通过一个3
×
3卷积和一个1
×
1卷积,最后通过双线性插值操作得到线段检测分支输出。其中包括1个线段中心点预测图,4个线段端点位移量预测图以及2个线段中心点偏移量预测图。6.如权利要求1所述种基于深度学习的轻量级图像线段提取及描述方法,其特征在于在步骤2中,所述描述子分支以以骨干网络特征融合器的输出特征图作为输入,应用一个3
×
3卷积和一个1
×
1卷积得到半稠密描述子特征图,最后可以通过双线性插值得到任意点位置的描述子。7.如权利要求1所述一种基于深度学习的轻量级图像线段提取及描述方法,其特征在于在步骤3中,所述训练轻量级图像线段提取及描述网络具体为:
对包含线段标签的图像数据集的图像使用数据增强,数据增强方式包括随机垂直翻转、随机尺度缩放、运动模糊、随机高斯噪声和亮度变化。对包含线段标签的图像数据集的图像上使用随机单应性变换,构建同一场景但不同视角的成对图像,单应性变换由缩放、平移、旋转以及透视变换组合而成,它涵盖了摄像机运动引起的大部分视角变化。将构建的图像对(I
A
,I
B
)作为图像线段提取以及描述网络的输入。设置损失函数,进行训练。所述损失函数L
total
由线段检测分支损失L
line
以及描述子分支损失L
desc
组成。具体为:其中w
line
,w
desc
分别为线段检测分支损失和描述子分支损失的权重,它们在训练过程中进行优化,对损失进行动态加权。其中线段检测分支损失L
line
由线段中心点损失L
mid
,线段端点位移量损失L
disp
,线段中心点偏移量损失L
off
以及线段...

【专利技术属性】
技术研发人员:李福生黄杰鲁欣俞孟凡赵彦春
申请(专利权)人:电子科技大学长三角研究院湖州
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1