基于全对焦图像合成的无监督焦点堆栈深度估计方法技术

技术编号:38987213 阅读:18 留言:0更新日期:2023-10-07 10:17
本发明专利技术公开了一种基于全对焦图像合成的无监督焦点堆栈深度估计方法,1、包括:S1、利用基于图像金字塔和基于焦点测量算子进行全对焦图像计算,得到对应的全对焦图像,将得到的全对焦图像进行融合并作为监督信息;S2、通过三维感知模块对焦点堆栈进行高频噪声过滤和初步特征提取;S3、将三维极化自注意力机制引入焦点堆栈中,将输入特征图分为通道极化特征图和空间极化特征图;S4、采用分层深度概率预测模块定位焦点堆栈最大清晰度所在的层次,并输出对应的概率值,确定最佳清晰度所在的层次,获得全对焦图像。本发明专利技术在深度预测方面表现出相对高的准确性和良好的泛化性能,适用于不同场景下的深度估计任务,具有很高的实用性。性。性。

【技术实现步骤摘要】
基于全对焦图像合成的无监督焦点堆栈深度估计方法


[0001]本专利技术涉及单目深度估计
,尤其涉及一种基于全对焦图像合成的无监督焦点堆栈深度估计方法。

技术介绍

[0002]有监督方法在深度估计任务上表现出较高准确性,但局限在于需要深度真值,这在实际应用场景中可能难以获得。近年来,随着深度学习技术的不断发展和计算机视觉领域的不断探索,无监督单目深度估计领域取得了长足的进展。无监督单目深度估计是指在没有深度标签的情况下,通过计算机视觉算法推测场景的深度信息。无监督焦点堆栈深度估计可分为两类,即重建监督和辅助监督。
[0003]重建监督通过网络的重建损失对网络进行监督学习,从而学习到深度信息,将无监督焦点堆栈深度估计视为多视角单目深度估计的一种特殊情况,通过利用对焦序列的模糊差异来估计场景深度,然后,利用对焦图和估计的中间深度重新对焦,输出焦点堆栈,并利用重建损失进行监督学习。然而,由于深度估计任务的不适定性,重建模型容易导致多个深度解相互竞争,难以确定最优解,因此网络结构非常不稳定,同时,中间表示易被解释为焦点堆栈的信息压缩编码,导致模型难以收敛,因此通常需要引入额外的损失来对中间表示进行约束。
[0004]辅助监督则是在无监督情况下,通过一些辅助信息来指导网络的学习过程,采用全对焦图像作为辅助的监督信息,该方法首先将焦点堆栈输入编解码器结构中,输出各对焦距离下的深度分布概率,并将其分别与焦点堆栈和对焦距离相结合,输出全对焦图像的同时也能得到相对粗糙的深度图。然而,该模型存在一定的局限性,如参数量较大,并且需要数据集本身提供全对焦图像作为监督信息,所以应用限制较大。因此,如何提供一种基于全对焦图像合成的无监督焦点堆栈深度估计方法是本领域技术人员亟须解决的问题。

技术实现思路

[0005]本专利技术的一个目的在于提出一种基于全对焦图像合成的无监督焦点堆栈深度估计方法,本专利技术在深度预测方面表现出相对高的准确性和良好的泛化性能,适用于不同场景下的深度估计任务,具有很高的实用性。
[0006]根据本专利技术实施例的一种基于全对焦图像合成的无监督焦点堆栈深度估计方法,包括:S1、利用基于图像金字塔的全对焦图像合成方法和基于焦点测量算子的全对焦图像合成方法进行全对焦图像计算,得到对应的全对焦图像,将得到的全对焦图像进行融合并作为监督信息;S2、通过三维感知模块对焦点堆栈进行高频噪声过滤和初步特征提取得到初提取特征,同时焦点堆栈经过差分值计算模块得到编码了模糊歧义性的特征,将初提取特征和模糊歧义性特征进行级联,即得到焦点体;
S3、将三维极化自注意力机制引入焦点堆栈中,将输入特征焦点体分为通道极化特征图和空间极化特征图;S4、上述的通道极化特征图和空间极化特征图经过深度概率预测模块定位焦点堆栈最大清晰度所在的层次,并输出对应的概率值,确定最佳清晰度所在的层次,获得全对焦图像。
[0007]可选的,所述图像金字塔具体包括:高斯金字塔下采样,以原图像表示高斯金字塔的最底层,其分辨率为,通过定义第i层的高斯金字塔:;
[0008]其中,其中,表示卷积操作,表示大小为的卷积核,表示去除输入图像的偶数行和偶数列的下采样过程;下采样将输入图像的分辨率降低为四分之一,通过不断迭代上述步骤,得到整个高斯金字塔;高斯金字塔上采样,将原图像在每个方向上扩大为原来的两倍,新增的行和列以0填充,使用与先前相同的卷积核乘以四与放大后的图像进行卷积,得到重建后的图像;重建后的图像内引入拉普拉斯金字塔,设表示拉普拉斯金字塔的第层:;其中,表示上采样过程,即将图像在每个方向上扩大为原来的两倍,新增的行和列以0填充;原图像被分解为高斯金字塔和拉普拉斯金字塔,对于焦点堆栈中的每一张图像,执行相同的分解操作,得到一组图像金字塔。
[0009]可选的,所述图像金字塔的的融合过程具体包括:给定焦点堆栈序列:;其中,表示像素点的空间坐标,表示对焦序列的数量,每一张图片都和特定的对焦距离相对应;对焦点堆栈进行图像金字塔分解,得到高斯金字塔和拉普拉斯金字塔,其中,代表金字塔的层数;对拉普拉斯金字塔的每一个位置进行焦点测量,获取最大清晰度对应的索引图, 由索引图和拉普拉斯金字塔生成:
[0010]利用对全对焦拉普拉斯金字塔自上而下地进行上采样,得到焦点堆栈对应的全对焦图像。
[0011]可选的,所述基于图像金字塔的全对焦图像合成方法具体包括对输入的焦点堆栈进行图像金字塔分解,得到高斯金字塔和拉普拉斯金字塔,对拉普拉斯金字塔进行区域信息熵计算,得到每一层的焦点测量清晰度度量值,提取清晰度度量值最大的一层作为对应层的全对焦图像,重建得到最终的全对焦图像。
[0012]可选的,所述基于焦点测量算子的全对焦图像合成方法包括将小区域邻域融合算子应用到各个对焦序列上得到各个焦点图像的焦点测量清晰度度量值,进行索引最大化确定最佳清晰度对应的索引,根据索引提取焦点堆栈中像素值作为全对焦图像。
[0013]可选的,所述基于焦点测量算子的全对焦图像合成方法具体包括:通过向量运算将向量值图像转换为标量值图像获得综合特征:设表示向量值像素,表示标量值像素,选取向量值图像中的小块尺寸,使为中心向量值像素,为窗口内的向量值像素;其中,向量值像素对应的标量值像素通过缩放窗口内差分向量长度得到;计算窗口内其他向量与中心向量之差得到差分向量:;;;其中,表示结果向量的点积形成的标量值,表示一个局部的自适应缩放因子; ;其中,计算差分向量之间的点积,用来衡量特征间的相似性,提供差分向量和中心向量之间的叉积长度;将得到的标量值图像应用于索引最大化操作,以评估图像的清晰度,根据最佳清晰度所在的索引从输入的焦点堆栈中提取相应位置的像素值,得到相应的全对焦图像。
[0014]可选的,所述三维感知模块通过一个四层的网络结构完成焦点堆栈的高频噪声过滤和初步特征提取,所述三维感知模块包括多个具有不同的卷积核大小和步长的并行卷积层,用于捕捉不同尺度上的模糊特征;所述S2具体包括:S21、使用一个3D卷积网络对焦点堆栈进行过滤,提取模糊特征;S22、在网络结构中引入一个差分值计算模块,将模糊特征输入差分值计算模块中,差分值计算模块计算RGB三通道的差分值:;
其中,表示融合后的RGB通道差分,代表输入特征的不同颜色维度;S23、经过一个下采样层得到RGB差分特征,RGB差分特征与模糊特征进行融合,构建出融合了模糊歧义性的焦点体。
[0015]可选的,所述通道极化特征图通过对输入的特征图x进行极化变换得到:极化变换将输入的特征图x转化为两组基向量和;其中,和对应通道层面的查询和键;计算和的相似度得分:;其中,表示激活函数,表示归一化指数函数,、和分别表示1
×
1的三维卷积层,和表示两个张量重塑操作符,
×
表示元素级别的乘法操作,和与之间的通道数为;用得分作为权重,对输入向量进行加权求和,得到获得了通道关联的通道极化特征图:;其中,表示通道级乘法运算符。
[0016]可选的,所述空间极化特征图方法包括:将输本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于全对焦图像合成的无监督焦点堆栈深度估计方法,其特征在于,包括:S1、利用基于图像金字塔的全对焦图像合成方法和基于焦点测量算子的全对焦图像合成方法进行全对焦图像计算,得到对应的全对焦图像,将得到的全对焦图像进行融合并作为监督信息;S2、通过三维感知模块对焦点堆栈进行高频噪声过滤和初步特征提取得到初提取特征,同时焦点堆栈经过差分值计算模块得到编码了模糊歧义性特征,将初提取特征和模糊歧义性特征进行级联,得到焦点体;S3、将三维极化自注意力机制引入焦点堆栈中,将输入特征焦点体分为通道极化特征图和空间极化特征图;S4、通道极化特征图和空间极化特征图经过深度概率预测模块定位焦点堆栈最大清晰度所在的层次,并输出对应的概率值,确定最佳清晰度所在的层次,获得全对焦图像。2.根据权利要求1所述的一种基于全对焦图像合成的无监督焦点堆栈深度估计方法,其特征在于,所述图像金字塔具体包括:高斯金字塔下采样,以原图像表示高斯金字塔的最底层,其分辨率为,通过定义第i层的高斯金字塔:;其中,表示卷积操作,表示大小为的卷积核,表示去除输入图像的偶数行和偶数列的下采样过程;下采样将输入图像的分辨率降低为四分之一,通过不断迭代上述步骤,得到整个高斯金字塔;高斯金字塔上采样,将原图像在每个方向上扩大为原来的两倍,新增的行和列以0填充,使用与先前相同的卷积核乘以四与放大后的图像进行卷积,得到重建后的图像;重建后的图像内引入拉普拉斯金字塔,设表示拉普拉斯金字塔的第层:;其中,表示上采样过程,即将图像在每个方向上扩大为原来的两倍,新增的行和列以0填充;原图像被分解为高斯金字塔和拉普拉斯金字塔,对于焦点堆栈中的每一张图像,执行相同的分解操作,得到一组图像金字塔。3.根据权利要求2所述的一种基于全对焦图像合成的无监督焦点堆栈深度估计方法,其特征在于,所述图像金字塔的的融合过程具体包括:给定焦点堆栈序列:;其中,表示像素点的空间坐标,表示对焦序列的数量,每一张图片都和特定的对焦距离相对应;对焦点堆栈进行图像金字塔分解,得到高斯金字塔和拉普拉斯金字塔,其中,代表金字塔的层数;
对拉普拉斯金字塔的每一个位置进行焦点测量,获取最大清晰度对应的索引图,全对焦拉普拉斯金字塔由索引图和拉普拉斯金字塔生成:;利用对全对焦拉普拉斯金字塔自上而下地进行上采样,得到焦点堆栈对应的全对焦图像。4.根据权利要求3所述的一种基于全对焦图像合成的无监督焦点堆栈深度估计方法,其特征在于,所述基于图像金字塔的全对焦图像合成方法具体包括对输入的焦点堆栈进行分解,得到高斯金字塔和拉普拉斯金字塔,对拉普拉斯金字塔进行区域信息熵计算,得到每一层的焦点测量清晰度度量值,提取清晰度度量值最大的一层作为对应层的全对焦图像,重建得到最终的全对焦图像。5.根据权利要求3所述的一种基于全对焦图像合成的无监督焦点堆栈深度估计方法,其特征在于,所述基于焦点测量算子的全对焦图像合成方法包括将小区域邻域融合算子应用到各个对焦序列上得到各个焦点图像的焦点测量清晰度度量值,进行索引最大化确定最佳清晰度对应的索引,根据索引提取焦点堆栈中像素值作为全对焦图像。6.根据权利要求5所述的一种基于全对焦图像合成的无监督焦点堆栈深度估计方法,其特征在于,所述基于焦点测量算子的全对焦图像合成方法具体包括:通过向量运算将向量值图像转换为标量值图像...

【专利技术属性】
技术研发人员:黄章进周萌
申请(专利权)人:中国科学技术大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1