【技术实现步骤摘要】
一种多视角深度估计方法
[0001]本专利技术属于计算机视觉和深度学习
,具体涉及一种多视角深度估计方法。
技术介绍
[0002]在自动驾驶技术、工业检测、医疗、航天航空、三维重建等诸多领域中,获取图像的深度信息有着重要意义。通过多视图的方法来恢复深度图的技术有着广阔的前景。具体来讲,基于多视图的深度估计方法是将相机采集到物体或者场景的多张不同角度图像,作为深度估计的主要输入信息,再利用计算机视觉的算法,最终生成深度图。
[0003]深度图是将真实场景中的点到相机的距离作为像素值的图像。深度值越小表示真实场景中的点距离相机越近。获取目标场景的深度信息可以分为基于主动式和基于被动式两种方法。基于主动式的深度获取方法是利用较高精度和技术成熟的硬件设备对目标场景获取深度信息,如激光雷达,发射激光利用成熟的TOF(Time of Flight Measurement)测距技术获取目标物体到相机的距离从而得到深度信息。虽然基于主动式的方法获取目标场景的深度信息更为快速、方便、精确,但是这些设备一般非常昂贵,导致深度获取的成本较高。同时对场景的外界环境也有要求,比如光干扰和测距距离都会对测量结果有影响。基于被动式的深度获取方法是利用目标场景图像中的特征点,通过计算机视觉算法理论预测出图像深度信息,整个过程操作简单不需要额外设备,实用性强。但是,基于被动式深度获取方法中主要信息来源是不同视角的图像,拍摄的图像会存在遮挡区域、外界光照反射、不同的光照强度和图像中重复图案的问题,都会对估计目标场景的深度结果产生误差影响。 ...
【技术保护点】
【技术特征摘要】
1.一种多视角深度估计方法,其特征在于,具体步骤如下:步骤1:图像输入:通过相机获取N+1张不同图像,正视图像和其余方向图像分别作为参考图像I
i=0
和目标图像I
i
,i的取值范围是0到N;步骤2:特征提取:包括FPN网络模块和CA模块两个部分;步骤2.1:FPN网络模块是基于步骤1获取的图像,提取不同尺度的初始特征图;步骤2.2:将FPN网络模块对输入相机图像进行三个不同尺度的特征提取后,得到的初始特征图,通过DCN模块过渡到CA模块;步骤3:深度求精:经过特征提取后得到的不同尺度特征图,要用级联的方式预测出不同分辨率的深度图;步骤4:深度优化:利用残差学习网络,将深度求精模块输出的分辨率为W
×
H初始深度图进行细化得到优化后的深度图,使用Focalloss来训练网络模型,根据总损失再通过Adam优化方法对网络模型进行梯度更新,从而引导整个模型的训练。2.根据权利要求1所述的多视角深度估计方法,其特征在于,步骤2.2包括CA模块是将特征图沿水平和垂直方向的注意力信息嵌入到通道中,具体步骤如下:步骤2.2.1:CA模块将输入特征沿水平和垂直两个方向分别进行全局平均池化,如下公式(1)和公式(2):式(1)和公式(2):其中,输入张量为X=[x1,x2,
…
,x
c
]∈R
W
×
H
×
C
,{W,H,C}表示图像宽,高和通道数;分别用W
×
1和1
×
H的两个池化层对通道进行编码,(w,j)和(i,h)分别表示输入张量x
c
的图像坐标位置,P
ch
(h)为垂直方向h处的第c通道的输出结果,P
cw
(w)为水平方向w处的第c通道的输出结果;步骤2.2.2:沿水平和垂直两个方向的池化层输出结果分别是P
w
和p
h
,接下来进行Concate操作,如下公式(3):其中,表示Concate操作,P为Concate操作后输出结果,P
w
为沿水平方向的池化层输出结果,p
h
为沿垂直方向的池化层输出结果;步骤2.2.3:将Concate输出结果送入1
×
1卷积层,BN层,Non
‑
line激活函数,求出中间特征图,如下公式(4):f=δ(F1×1(P))
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(4)其中,P是Concate操作输出结果,F1×1是卷积核大小为1
×
1的卷积变换,δ是非线性激活函数,f是对输入特征图沿水平和垂直方向的空间信息编码后的中间特征图,f∈R
C/r
×
(H+W)
,C为通道数,r为通道缩减率,W和H为图像宽和高;步骤2.2.4:将中间特征图f沿水平方向和垂直方向分为两个单独的张量f
w
∈R
C/r
×
W
×
H
和f
h
∈R
C/r
×
W
×
H
,分别利用1
×
1卷积操作,两个单独的张量再通过Sigmoid激活函数处理,求出
水平方向和垂直方向注意力weight,分别为q
w
和q
h
,如公式(5)和公式(6):q
w
=σ(F1×1(f
w
))
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(5)q
h
=σ(F1×1(f
h
))
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(6)其中,q
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。