基于注意力译码结构的2.5D单目场景流估计方法技术

技术编号:37162641 阅读:19 留言:0更新日期:2023-04-06 22:29
本发明专利技术提供一种基于注意力译码结构的2.5D单目场景流估计方法,包括以下步骤:S1构建相机姿态估计子网络与共享金字塔特征编码器;S2构建并行的基于空洞自注意力的深度译码器与基于非局部交叉帧注意力的光流译码器;S3构建总体网络损失函数;S4输入单目图像序列用自监督的形式对网络进行端到端的训练;S5输入连续两帧图像对模型进行测试时,可得到2.5D场景流的两个分量:光流和深度。输入单张图像对模型进行测试时,可得到深度估计结果。本发明专利技术利用基于注意力的译码结构对2.5D单目场景流进行估计,其中在译码结构引入注意力来强化特征表达能力和像素相关的计算,通过上述设计来达到提升场景流估计精度的目的。达到提升场景流估计精度的目的。达到提升场景流估计精度的目的。

【技术实现步骤摘要】
基于注意力译码结构的2.5D单目场景流估计方法


[0001]本专利技术提出了一种2.5D单目场景流估计方法,利用了并行的基于空洞自注意力的深度译码结构和基于非局部交叉帧注意力的光流译码结构,属于计算机视觉领域。

技术介绍

[0002]作为计算机视觉的重要研究方向,场景流估计在自动驾驶、智能机器人以及目标跟踪等领域具有十分广阔的应用前景。近年来,深度学习得到了快速的发展,大量的研究人员也开始使用深度学习技术来处理场景流估计问题,深度学习的方法具有运行速度快以及精度高等优势,并在多个公共数据集上取得了领先的结果。
[0003]相比其他形式的场景流估计,2.5D单目场景流因其输入是单目图像序列,在应用中更加便利。
[0004]本专利技术通过基于空洞自注意力的深度译码结构和基于非局部交叉帧注意力的光流译码结构,来估计2.5D单目场景流的两个分量——深度和光流。在该方法中利用并行结构同时估计相机姿态、深度和光流。用于估计深度和光流的编码器采用共享金字塔特征编码器,译码器分别为基于空洞自注意力的深度译码器和基于非局部交叉帧注意力的光流译码器。在译码结构中添入适当的自注意力与交叉注意力,有利于提高特征的表达能力和像素之间的相关表示,进一步提高了估计的准确性。

技术实现思路

[0005]本专利技术提出了一种基于注意力译码结构的2.5D单目场景流估计方法,目的在于增强网络的泛化表达能力和像素之间相关性的连接。
[0006]本专利技术的目的是这样实现的:步骤如下:
[0007]S1.构建相机姿态估计子网络与共享金字塔特征编码器;
[0008]S2.构建并行的基于空洞自注意力的深度译码器与基于非局部交叉帧注意力的光流译码器;
[0009]S3.构建总体网络损失函数;
[0010]S4.输入单目图像序列用自监督的形式对网络进行端到端的训练;
[0011]S5.输入连续两帧图像对模型进行测试时,可得到2.5D场景流的两个分量:光流和深度。输入单张图像对模型进行测试时,可得到深度估计结果。
[0012]本专利技术还包括这样一些结构特征:
[0013]1.所述步骤S2构建并行的深度译码器是基于空洞自注意力的深度译码器。该注意力机制接在译码器第一层卷积操作后,用来提高提取特征的表达能力。空洞自注意力将经过卷积后的特征图使用1
×
1的卷积操作,之后分别使用不同膨胀率的卷积操作来捕获多尺度上下文信息,不同的特征图相加,应用SiLU激活函数后得到Query查询矩阵Q,对Query查询矩阵与Key键矩阵进行点乘操作,所得结果再与Value值矩阵进行点乘操作得到空洞自注意力的输出。
[0014]2.所述步骤S2构建并行的光流译码器是基于非局部交叉帧注意力的光流译码器,非局部注意力能够捕捉时间和空间上的长距离对应关系。首先,对从编码器输入的特征进行归一化,得到归一化的相邻帧特征。根据卷积操作得Value矩阵、Key矩阵以及另一帧的Query矩阵。在本专利技术中,相关矩阵Γ是由Query矩阵中的一维局部向量Q
p
和Key矩阵点乘然后进行softmax得到的。为了减轻错误匹配像素的影响,相关矩阵Γ的第二维中的每个切片上乘以高斯权重。最后,跨帧非局部交叉注意力模块的最终输出可以写为公式(1):
[0015][0016]其中,表示乘积操作即哈达马积,矩阵G表示Key矩阵与向量Q
p
的点乘结果,V表示经过卷积操作后得到的Value矩阵,Γ表示相关矩阵,X
t
表示非局部交叉注意力输出的特征图。
[0017]3.所述步骤S3构建总体网络损失函数,本专利技术的学习方式为自监督学习,其能够从未标注的单目图像序列中学习得到场景中的深度、相机运动姿态以及光流信息。通过定义多任务学习损失函数使得各个子网络能够协同工作,损失函数包含图像重构损失、空间平滑损失、几何一致性损失。
[0018]图像重构损失函数计算的是目标图像与变换图像之间的亮度误差,并计算两幅图像之间的图像相似性,其具体定义公式(2)所示:
[0019][0020]其中,L1表示深度图像重构损失,x
t
表示图像I
t
中的像素点,α为平衡因子,图像I
t
为目标视角图像,为经过深度和相机姿态运动变化后的图像,SSIM表示结构相似性函数,|
·
|表示绝对值运算。
[0021]对于光流运动场,也可以利用其对原图像I
s
进行变换,变化后得到图像通过该变换可计算图像重构损失,其具体定义如公式(3)所示:
[0022][0023]其中,L2表示光流图像重构损失,x
t
为表示图像I
t
中的像素点,α为平衡因子,图像I
t
为目标视角图像,为经过光流变化后的图像,SSIM表示结构相似性函数,|
·
|表示绝对值运算。
[0024]对于网络估计得到的深度图,深度空间平滑损失的定义如公式(4)所示:
[0025][0026]其中,L3表示深度空间平滑损失,x
t
表示图像I
t
中的像素点,图像I
t
为目标视角图像,D(x
t
)为在像素x
t
处估计得到的深度,表示梯度算子,|
·
|表示取模运算。
[0027]对于网络估计得到的光流图,光流空间平滑损失的定义如公式(5)所示:
[0028][0029]其中,L4表示光流平滑损失,x
t
表示图像I
t
中的像素点,图像I
t
为目标视角图像,f
t

s
(x
t
)为在点x
t
处估计得到的光流场,表示梯度算子,|
·
|表示取模运算。
[0030]几何一致性损失用于减少来自遮挡区域的干扰,其定义如公式(6)所示:
[0031][0032]其中,L5表示几何一致性损失,Δf
t

s
(x
t
)为图像I
t
在像素点x
t
处前向流场和反向流场之间的差值,|
·
|表示取模运算,δ(x
t
)定义公式(7)所示:
[0033]|Δf
t

s
(x
t
)|<max{γ,η|Δf
t

s
(x
t
)|}
ꢀꢀꢀꢀꢀ
(7)
[0034]其中,γ和η为阈值参数,max(
·
)为最大值函数,|
·
|表示取模运算。
[0035]通过以上损失的定义,可以得到网络的总体损失,定义L为整体网络的损失,如公式(8)所示:...

【技术保护点】

【技术特征摘要】
1.基于注意力译码结构的2.5D单目场景流估计方法,其特征在于,步骤如下:S1.构建相机姿态估计子网络与共享金字塔特征编码器;S2.构建并行的基于空洞自注意力的深度译码器与基于非局部交叉帧注意力的光流译码器;S3.构建总体网络损失函数;S4.输入单目图像序列用自监督的形式对网络进行端到端的训练;S5.输入连续两帧图像对模型进行测试时,得到2.5D场景流的两个分量:光流和深度;输入单张图像对模型进行测试时,得到深度估计结果。2.根据权利要求1所述的基于注意力译码结构的2.5D单目场景流估计方法,其特征在于:步骤S2构建并行的深度译码器是基于空洞自注意力的深度译码器,空洞自注意力将经过卷积后的特征图使用1
×
1的卷积操作,分别使用不同膨胀率的卷积操作来捕获多尺度上下文信息,不同的特征图相加,应用SiLU激活函数后得到Query查询矩阵Q,对Query查询矩阵与Key键矩阵进行点乘操作,所得结果再与Value值矩阵进行点乘操作得到空洞自注意力的输出。3.根据权利要求1所述的基于注意力译码结构的2.5D单目场景流估计方法,其特征在于:步骤S2构建并行的光流译码器是基于非局部交叉帧注意力的光流译码器,对从编码器输入的特征进行归一化,得到归一化的相邻帧特征;根据卷积操作得Value矩阵、Key矩阵以及另一帧的Query矩阵,相关矩阵Γ是由Query矩阵中的一维局部向量Q
p
和Key矩阵点乘然后进行softmax得到的,相关矩阵Γ的第二维中的每个切片上乘以高斯权重;跨帧非局部交叉注意力模块的最终输出为公式:其中,表示乘积操作即哈达马积,矩阵G表示Key矩阵与向量Q
p
的点乘结果,V表示经过卷积操作后得到的Value矩阵,Γ表示相关矩阵,X
t
表示非局部交叉注意力输出的特征图。4.根据权利要求1所述的基于注意力译码结构的2.5D单目场景流估计方法,其特征在于:步骤S3构建总体网络损失函数具体为:图像重构损失函数计算的是目标图像与变换图像之间的亮度误差,并计算两幅图像之间的图像相似性,其具体定义公式为:其中,L1表示深度图像重构损失,x
t
表示图像I
t
中的像素点,α为平衡因子,图像I
t
为目标视角图像,为经过深度和相机姿态运动变化后的图像,SSIM表示结构相似性函数,|
·
|表示绝对值运算;对于光流运动场,利用其对原图像I
s
进行变换,变化后得到图像通过该变换可计算图像重构损失,其具体定义公式...

【专利技术属性】
技术研发人员:项学智崔玉乔玉龙
申请(专利权)人:哈尔滨工程大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1