System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 无人机视角下大景深场景的单目深度估计方法技术_技高网

无人机视角下大景深场景的单目深度估计方法技术

技术编号:44948706 阅读:8 留言:0更新日期:2025-04-12 01:22
本发明专利技术公开了无人机视角下大景深场景的单目深度估计方法。该方法包括:构建目标卷积神经网络,其中,目标卷积神经网络包括Transformer分支、Convolution分支、注意力机制增强模块、多尺度融合模块、若干个上采样模块和若干个特征相加模块;获取目标图像,其中,目标图像为无人机任意视角下的大景深场景图像;将目标图像分别输入至Transformer分支和Convolution分支,得到Transformer分支的四个Transformer层输出的四个不同尺寸的特征和Convolution分支输出的特征,其中,Transformer分支包含若干个Transformer层,Convolution分支为ResNet50编码器。本发明专利技术解决了现有技术中无人机视角下大景深场景的单目深度预测不准确的技术问题。

【技术实现步骤摘要】

本专利技术涉及图像处理,具体而言,涉及无人机视角下大景深场景的单目深度估计方法


技术介绍

1、在无人机视角下的大景深场景中,早期的深度估计技术主要依赖于物理方法来获取深度信息。然而,这些方法由于设备成本高昂和适用场景的限制,其应用范围受到了较大的制约。随后,基于传统机器学习的方法开始涌现,这些方法通过分析图像本身的特征来推断深度信息。虽然这些技术在某些任务中取得了成效,但在处理无人机视角下的大景深场景时,它们仍面临高复杂性、计算量大且难以实现实时处理的挑战。在基于图像的深度估计方法中,根据图像来源的不同,可以分为多目和单目深度估计两大类。多目深度估计技术通过比较不同相机捕获的不同视角图像来计算视差,进而估计深度信息,如三角测量法、多视角重建和图像序列深度估计等。这些方法通常需要成对的图像序列作为输入,并且要求相机的焦距等参数已知,因此成本较高,不适合资源受限的场景。相比之下,单目图像深度估计以其提供的足够深度信息、灵活性和低成本优势,成为无人机视角下大景深场景中获取深度信息的理想选择。目前,主流的单目深度估计方法包括无监督学习和有监督学习两种,但在无人机视角下的大景深场景中,这些方法仍需解决特征提取不足、空间结构信息丢失以及深度图尺度模糊和失真等问题。

2、有鉴于此,确有必要提出一种无人机视角下大景深场景的单目深度估计方法,提高单目深度估计处理全局深度的能力,提高深度估计的精度。


技术实现思路

1、本专利技术实施例提供了无人机视角下大景深场景的单目深度估计方法,以至少解决现有技术中无人机视角下大景深场景的单目深度预测不准确的技术问题。

2、根据本专利技术实施例的一个方面,提供了无人机视角下大景深场景的单目深度估计方法。该方法可以包括:构建目标卷积神经网络,其中,目标卷积神经网络包括transformer分支、convolution分支、注意力机制增强模块、多尺度融合模块、若干个上采样模块和若干个特征相加模块;获取目标图像,其中,目标图像为无人机任意视角下的大景深场景图像;将目标图像分别输入至transformer分支和convolution分支,得到transformer分支的四个transformer层输出的四个不同尺寸的特征和convolution分支输出的特征,其中,transformer分支包含若干个transformer层,convolution分支为resnet50编码器;将四个不同尺寸的特征输入至注意力机制增强模块,得到注意力机制增强模块除过第一层的其他四层的输出特征,同时,将 convolution 分支输出的特征输入至注意力机制增强模块,得到注意力机制增强模块第一层的输出特征,将第一层的输出特征和除过最后一层其余三层的输出特征作为多尺度融合模块的四个发射特征,将最后一层的输出特征作为多尺度融合模块的接收特征,其中,注意力机制增强模块的输出包括5层;将接收特征和四个发射特征输入至多尺度融合模块,得到目标特征,其中,四个发射特征分别为第一发射特征、第二发射特征、第三发射特征和第四发射特征;基于四个发射特征和目标特征,得到目标图像对应的深度图。

3、可选地,所述将目标图像输入至transformer分支,得到transformer分支的四个transformer层输出的四个不同尺寸的特征,包括:将目标图像输入至补丁分区模型,得到若干个子目标图像,其中,每个子目标图像的初始特征设置为像素rgb值的串联;将若干个子目标图像输入至线性嵌入层,得到若干个子目标图像对应的总特征;将总特征输入至若干个transformer层,获取四个transformer层输出的四个不同尺寸的特征,其中,每一个transformer层包括两个特征融合层、两个归一化层、一个多头自注意层和一个多层感知机。

4、可选地,所述将目标图像分别输入至convolution分支,得到convolution分支输出的特征,包括:通过resnet50编码器的第一层对目标图像进行特征提取,得到convolution分支输出的特征。

5、可选地,所述将四个不同尺寸的特征输入至注意力机制增强模块,得到注意力机制增强模块除过第一层的其他四层的输出特征,包括:将四个不同尺寸的特征输入至1 x 1卷积层,得到通道数相同且尺寸不同的四个目标特征;对通道数相同且尺寸不同的四个目标特征进行展开,得到第一初始二维矩阵;将第一初始二维矩阵输入至可变形自注意力,得到第一目标二维矩阵;将第一目标二维矩阵进行折叠,得到四个不同尺度的增强特征;将每个不同尺度的增强特征和对应尺寸的特征通过通道级进行融合,得到每个尺度的融合特征;将每个尺度的融合特征进行1x1卷积后,得到注意力机制增强模块除过第一层的其他四层的输出特征。

6、可选地,所述将 convolution 分支输出的特征输入至注意力机制增强模块,得到注意力机制增强模块第一层的输出特征,包括:将convolution分支输出的特征进行1x1卷积后,得到convolution分支输出的特征的初始特征;将convolution分支输出的特征的初始特征进行展开,得到第二初始二维矩阵;将第二初始二维矩阵输入至可变形自注意力,得到第二目标二维矩阵;将第二目标二维矩阵进行折叠,得到第二目标二维矩阵对应的增强特征;将第二目标二维矩阵对应的增强特征和convolution分支输出的特征通过通道级进行融合,得到convolution分支输出的特征的目标特征;将convolution分支输出的特征的目标特征进行1x1卷积后,得到注意力机制增强模块第一层的输出特征。

7、可选地,所述基于四个发射特征和目标特征,得到目标图像对应的深度图,包括:将目标特征进行上采样处理,得到第一上采样特征;将第一上采样特征和第四发射特征进行相加,得到第一相加特征;将第一相加特征进行上采样处理,得到第二上采样特征;将第二上采样特征和第三发射特征进行相加,得到第二相加特征;将第二相加特征进行上采样处理,得到第三上采样特征;将第三上采样特征和第二发射特征进行相加,得到第三相加特征;将第三相加特征进行上采样处理,得到第四上采样特征;将第四上采样特征和第一发射特征进行相加,得到目标图像对应的深度图。

8、本专利技术的有益效果:

9、(1)采用transformer和resnet双分支编码器进行特征提取:transformer分支:具有自注意力机制,能够很好地捕捉长距离的依赖关系,对于大场景中不同区域之间的关联信息可以有效地提取;resnet:作为经典的卷积神经网络,能够很好地提取局部特征;通过双分支编码器,可以充分结合全局和局部特征,为后续的深度估计提供更丰富和准确的特征信息。

10、(2)通过特征增强模块进行特征增强,在特征提取后,利用特征增强模块进一步优化和增强特征,这有助于突出对深度估计有价值的特征,抑制噪声和无关信息,从而提高深度估计的精度。

11、(3)将增强后的特征送到解码器的多尺度融合模块进行特征融合:在不同尺度下,场景的特征表现形式不同;本文档来自技高网...

【技术保护点】

1.无人机视角下大景深场景的单目深度估计方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述将目标图像输入至Transformer分支,得到Transformer分支的四个Transformer层输出的四个不同尺寸的特征,包括:

3.根据权利要求1所述的方法,其特征在于,所述将目标图像分别输入至Convolution分支,得到Convolution分支输出的特征,包括:

4.根据权利要求1所述的方法,其特征在于,所述将四个不同尺寸的特征输入至注意力机制增强模块,得到注意力机制增强模块除过第一层的其他四层的输出特征,包括:

5.根据权利要求1所述的方法,其特征在于,所述将 Convolution 分支输出的特征输入至注意力机制增强模块,得到注意力机制增强模块第一层的输出特征,包括:

6.根据权利要求1所述的方法,其特征在于,所述基于四个发射特征和目标特征,得到目标图像对应的深度图,包括:

7.一种计算机系统,其特征在于包括:一个或多个处理器,计算机可读存储介质,用于存储一个或多个程序,其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现权利要求1所述的方法。

8.一种计算机可读存储介质,其特征在于存储有计算机可执行指令,所述指令在被执行时用于实现权利要求1所述的方法。

9.一种计算机程序产品,其特征在于包括计算机可执行指令,所述指令在被执行时用于实现权利要求1所述的方法。

...

【技术特征摘要】

1.无人机视角下大景深场景的单目深度估计方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述将目标图像输入至transformer分支,得到transformer分支的四个transformer层输出的四个不同尺寸的特征,包括:

3.根据权利要求1所述的方法,其特征在于,所述将目标图像分别输入至convolution分支,得到convolution分支输出的特征,包括:

4.根据权利要求1所述的方法,其特征在于,所述将四个不同尺寸的特征输入至注意力机制增强模块,得到注意力机制增强模块除过第一层的其他四层的输出特征,包括:

5.根据权利要求1所述的方法,其特征在于,所述将 convolution...

【专利技术属性】
技术研发人员:陈云浩尹倩赵莉王健龙杨松妍唐嘉宁马孟星赵恩铭
申请(专利权)人:云南民族大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1