当前位置: 首页 > 专利查询>东南大学专利>正文

基于编码解码注意力与跨层白化的水下图像增强方法技术

技术编号:38854201 阅读:15 留言:0更新日期:2023-09-17 10:00
本发明专利技术公开了一种基于编码解码注意力与跨层白化的水下图像增强方法。包括三个路径,分别为水下图像的特征编码路径、特征解码路径、由实例白化构建的特征跨层传递路径,编码路径与解码路径采用了基于反射填充与窗口模式的视觉多头自注意力模块,训练完成后的网络可以增强水下拍摄图像的质量。其中首先是视觉多头自注意力计算,其次是特征图的反射填充与窗口划分,最后是由多层感知机与层归一化完成模块的最终构建。特征编码路径通过降维过程提取水下图像的特征;特征解码路径通过升维进行水下图像的重建;特征跨层传递路径将编码路径的特征通过实例白化处理传递到解码路径;网络输出的水下图像与参考水下图像进行像素层面与结构层面的约束。与结构层面的约束。与结构层面的约束。

【技术实现步骤摘要】
基于编码解码注意力与跨层白化的水下图像增强方法


[0001]本专利技术属于计算机视觉与图像处理
,尤其涉及一种基于编码解码注意力与跨层白化的水下图像增强方法。

技术介绍

[0002]海洋中含有丰富的资源,针对海洋资源的探索是人类科研探索的重要组成部分。水下场景存在光吸收现象、光散射现象以及微小粒子,导致水下图像的视觉效果存在失衡问题,图像整体呈现出偏绿色和偏蓝色,并且伴随着细节的模糊与失真,即造成拍摄到的水下图像存在质量降低问题。一方面,低质量的水下图像给水下摄影任务带来了不利影响,造成拍摄到的水下生物视觉效果降低,并且不符合水下生物的真实视觉效果与细节状态;另一方面,对于水下探索设备来说,低质量的水下图像不利于探索任务的正常进行。水下图像增强任务目的包括对水下图像色彩失衡进行校正,以及对细节信息进行复原,提升成像设备拍摄到的低质量水下图像的总体质量。
[0003]现有的水下图像增强研究提出了多种有效的增强算法,将单张的低质量水下图像作为输入,通过增强算法的处理可以初步地提升图像的视觉质量。Islam等人提出了FUnIEGAN[Islam,M.J.,Y.Xia,and J.Sattar,Fast underwater image enhancement for improved visual perception.IEEE Robotics and Automation Letters,2020.5(2):p.3227

3234.],是一种卷积模型与生成式对抗训练相结合的端到端的水下图像增强方法,但是该方法在增强过程中缺乏对全局信息的提取,导致增强后的图像存在色彩校正不足问题;Li等人提出了WaterNet[Li,C.,C.Guo,W.Ren,et al.,An underwater image enhancement benchmark dataset and beyond.IEEE Transactions on Image Processing,2019.29:p.4376

4389.],WaterNet将白平衡、伽马矫正与直方图均衡技术嵌入到卷积神经网络中,该方法增强后的图像在细节复原上存在一定失真现象;Liu等人提出了UResNet[Liu,P.,G.Wang,H.Qi,et al.,Underwater image enhancement with a deep residual framework.IEEE Access,2019.7:p.94614

94629.],该方法利用了基于残差连接的卷积模型,并采用像素与边缘损失函数进行网络训练,UResNet网络的特征抽取能力不足,导致其内容和结构复原效果受限。总体来说,当前的研究存在三个问题,第一是卷积模型的特征提取与重建能力不足,因此对特征提取与重建能力更强的视觉多头自注意力的研究与应用具有重要意义;第二是网络的特征传递能力不足,缺少针对跨层连接与编码解码架构的探索;第三是缺少对水类型的考虑,导致对多样的水下环境的处理能力不足。
[0004]随着海洋探索任务的不断发展,水下图像增强技术已经成为海洋探索任务的重要技术成分。因此,针对水下图像的质量退化现象,设计出高质量的水下图像增强算法是亟待解决的问题。

技术实现思路

[0005]为解决上述问题,本专利技术公开了针对现有水下图像增强算法存在的视觉效果与细
节复原能力不足问题,本专利技术公开了一种基于编码解码注意力与跨层白化的水下图像增强方法,该方法获得的增强后的水下图像具有更高峰值信噪比值与结构相似性值。
[0006]为了实现上述目的,本专利技术采用以下技术方案:
[0007]第一方面,设定整体网络架构,步骤如下:
[0008]步骤1:设定水下图像增强网络的路径与整体架构,水下图像增强网络包含三个路径,分别为特征编码路径、特征解码路径以及特征跨层传递路径。采用基于反射填充(Reflect Padding)与窗口模式(Window Pattern)的视觉多头自注意力模块作为编码路径与解码路径的核心模块。
[0009]步骤S2:将基于反射填充与窗口模式的视觉多头自注意力模块的构建划分为三个过程,第一个过程是视觉多头自注意力计算;第二个过程是由反射填充操作保证特征图的长宽尺寸是窗口大小的整数倍数;第三个过程是采用多层感知机与层归一化完成模块构建。
[0010]步骤S3:设定三条路径的功能以及网络的训练方式。水下图像的特征编码路径负责特征的提取与降维过程,特征解码路径负责特征升维与图像重建过程,特征跨层传递路径通过实例白化操作将特征从编码路径传递到解码路径。水下图像增强网络的输入是低质量的水下图像,采用像素与结构损失进行联合训练,经过网络包含的三个路径处理后可以提升水下图像质量。
[0011]第二方面,构建基于反射填充与窗口模式的视觉多头自注意力模块,步骤如下:
[0012]步骤S4:实现基于反射填充与窗口模式的视觉多头自注意力模块的第一个过程是构建视觉多头自注意力模型,计算自注意力如下:
[0013][0014]上式中矩阵Q、K与V分别代表查询、键和值,并且d代表维度缩放值,自注意力机制是水下图像增强网络所用的核心机制,帮助特征的提取与重建。接下来,将相对位置偏差B添加到公式(1)中,此时SA为:
[0015][0016]步骤S5:采用多头拼接方式实现视觉多头自注意力计算提升水下图像增强网络的网络容量,将每个头记为:
[0017]head
c
=SA(QW
cQ
,KW
cK
,VW
cV
)#(3)
[0018]上式中W
cQ
、W
cK
与W
cK
均代表投射矩阵,c为头的索引。拼接操作使用表示,自注意力的拼接过程如下:
[0019][0020]上式中Γ(
·
)代表视觉多头自注意力计算,n为总拼接次数,W
O
为投射矩阵。
[0021]步骤S6:实现基于反射填充与窗口模式的视觉多头自注意力模块的第二个过程是使用反射填充与窗口模式的视觉多头自注意力结合。由于水下增强模型的各个网络阶段的输入特征图的长宽尺寸并不能够保证是窗口大小的整数倍数,因此采用反射填充的方式对
特征图进行填充,反射填充操作在特征图的长宽维度上进行,对上、下、左与右四个边界进行元素填充,填充内容为对称方向的边界处的元素值。
[0022]步骤S7:计算视觉多头自注意力时采用基于窗口的模式,将特征图划分为8x8的窗口,而不是在整张特征图上进行计算。将采用反射填充与窗口模式后的视觉多头自注意力计算Γ(
·
)记为RWΓ(
·
)。
[0023]步骤S8:实现基于反射填充与窗口模式的视觉多头自注意力模块的第三个过程是结合多层感知机与层归一化操作,完成最终的模块构建。采用层归一化函数ψ(
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于编码解码注意力与跨层白化的水下图像增强方法,其特征在于,第一方面:设定整体网络架构;第二方面:构建基于反射填充与窗口模式的视觉多头自注意力模块;第三方面:针对网络特征计算实例白化;第四方面:构建水下图像特征编码路径;第五方面,构建特征跨层传递路径;第六方面,构建水下图像特征解码路径;第七方面,训练水下图像增强网络。2.根据权利要求1所述的一种基于编码解码注意力与跨层白化的水下图像增强方法,其特征在于,第一方面包括如下步骤:步骤1:设计的水下图像增强方法包括三个核心路径,分别为水下图像特征编码路径、水下图像特征解码路径、水下图像特征跨层传递路径。采用基于反射填充(Reflect Padding)与窗口模式(Window Pattern)的视觉多头自注意力模块作为编码路径与解码路径的核心模块;步骤2:反射填充与窗口模式的视觉多头自注意力模块的构建包含三个主要过程,第一个过程是视觉多头自注意力计算;第二个过程是由反射填充操作保证特征图的长宽尺寸是窗口大小的整数倍数;第三个过程是采用多层感知机与层归一化完成模块构建;步骤3:设定三条路径的功能以及网络的训练方式水下图像的特征编码路径负责特征的提取与降维过程,特征解码路径负责特征升维与图像重建过程,特征跨层传递路径通过实例白化操作将特征从编码路径传递到解码路径。水下图像增强网络的输入是低质量的水下图像,采用像素与结构损失进行联合训练,经过网络包含的三个路径处理后可以提升水下图像质量。3.根据权利要求1所述的一种基于编码解码注意力与跨层白化的水下图像增强方法,其特征在于,所述第二方面的具体步骤如下:步骤4:对于基于反射填充与窗口模式的视觉多头自注意力模块的第一个构建过程是利用视觉多头自注意力模型,计算自注意力如下:上式中矩阵Q、K与V分别代表查询、键和值,并且d代表维度缩放值,自注意力机制是水下图像增强网络所用的核心机制,帮助特征的提取与重建;接下来,将相对位置偏差B添加到公式(1)中,此时SA为:步骤5:为了提升水下图像增强网络的网络容量,采用多头拼接方式实现视觉多头自注意力计算,将每个头记为:
上式中与均代表投射矩阵,c为头的索引;拼接操作使用表示,自注意力的拼接过程如下:上式中Γ(
·
)代表视觉多头自注意力计算,n为总拼接次数,W
O
为投射矩阵。步骤6:使用反射填充与窗口模式的视觉多头自注意力结合;由于水下增强模型的各个网络阶段的输入特征图的长宽尺寸并不能够保证是窗口大小的整数倍数,因此采用反射填充的方式对特征图进行填充,反射填充操作在特征图的长宽维度上进行,对上、下、左与右四个边界进行元素填充,填充内容为对称方向的边界处的元素值;步骤7:计算视觉多头自注意力时采用基于窗口的模式,将特征图划分为8x8的窗口,而不是在整张特征图上进行计算;将采用反射填充与窗口模式后的视觉多头自注意力计算Γ(
·
)记为RWΓ(
·
)步骤8:进行特征图的反射填充与窗口模式的划分后,结合多层感知机与层归一化操作,完成最终的基于反射填充与窗口模式的视觉多头自注意力模块;采用层归一化函数ψ(
·
)对特征图进行处理,在计算第m层的特征ζ
m
时,需要利用前一层特征ζ
m
‑1,中间特征的计算如下:步骤9:获得中间特征后,进一步添加多层感知机多层感知机的权重项为W1与W2且偏差项为b1与b2,并采用GELU(
·
)(Gaussian Error Linear Unit)激活函数,可得到第m层的特征ζ
m
为:综上,将获得ζ
m
的计算过程记为RB(Refect Block),即代表基于反射填充与窗口模式的视觉多头自注意力模块。4.根据权利要求1所述的一种基于编码解码注...

【专利技术属性】
技术研发人员:桂杰丛晓峰
申请(专利权)人:东南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1