【技术实现步骤摘要】
基于编码解码注意力与跨层白化的水下图像增强方法
[0001]本专利技术属于计算机视觉与图像处理
,尤其涉及一种基于编码解码注意力与跨层白化的水下图像增强方法。
技术介绍
[0002]海洋中含有丰富的资源,针对海洋资源的探索是人类科研探索的重要组成部分。水下场景存在光吸收现象、光散射现象以及微小粒子,导致水下图像的视觉效果存在失衡问题,图像整体呈现出偏绿色和偏蓝色,并且伴随着细节的模糊与失真,即造成拍摄到的水下图像存在质量降低问题。一方面,低质量的水下图像给水下摄影任务带来了不利影响,造成拍摄到的水下生物视觉效果降低,并且不符合水下生物的真实视觉效果与细节状态;另一方面,对于水下探索设备来说,低质量的水下图像不利于探索任务的正常进行。水下图像增强任务目的包括对水下图像色彩失衡进行校正,以及对细节信息进行复原,提升成像设备拍摄到的低质量水下图像的总体质量。
[0003]现有的水下图像增强研究提出了多种有效的增强算法,将单张的低质量水下图像作为输入,通过增强算法的处理可以初步地提升图像的视觉质量。Islam等人提出了FUnIEGAN[Islam,M.J.,Y.Xia,and J.Sattar,Fast underwater image enhancement for improved visual perception.IEEE Robotics and Automation Letters,2020.5(2):p.3227
‑
3234.],是一种卷积模型与生成式对抗训练相结合的端到端的水下 ...
【技术保护点】
【技术特征摘要】
1.一种基于编码解码注意力与跨层白化的水下图像增强方法,其特征在于,第一方面:设定整体网络架构;第二方面:构建基于反射填充与窗口模式的视觉多头自注意力模块;第三方面:针对网络特征计算实例白化;第四方面:构建水下图像特征编码路径;第五方面,构建特征跨层传递路径;第六方面,构建水下图像特征解码路径;第七方面,训练水下图像增强网络。2.根据权利要求1所述的一种基于编码解码注意力与跨层白化的水下图像增强方法,其特征在于,第一方面包括如下步骤:步骤1:设计的水下图像增强方法包括三个核心路径,分别为水下图像特征编码路径、水下图像特征解码路径、水下图像特征跨层传递路径。采用基于反射填充(Reflect Padding)与窗口模式(Window Pattern)的视觉多头自注意力模块作为编码路径与解码路径的核心模块;步骤2:反射填充与窗口模式的视觉多头自注意力模块的构建包含三个主要过程,第一个过程是视觉多头自注意力计算;第二个过程是由反射填充操作保证特征图的长宽尺寸是窗口大小的整数倍数;第三个过程是采用多层感知机与层归一化完成模块构建;步骤3:设定三条路径的功能以及网络的训练方式水下图像的特征编码路径负责特征的提取与降维过程,特征解码路径负责特征升维与图像重建过程,特征跨层传递路径通过实例白化操作将特征从编码路径传递到解码路径。水下图像增强网络的输入是低质量的水下图像,采用像素与结构损失进行联合训练,经过网络包含的三个路径处理后可以提升水下图像质量。3.根据权利要求1所述的一种基于编码解码注意力与跨层白化的水下图像增强方法,其特征在于,所述第二方面的具体步骤如下:步骤4:对于基于反射填充与窗口模式的视觉多头自注意力模块的第一个构建过程是利用视觉多头自注意力模型,计算自注意力如下:上式中矩阵Q、K与V分别代表查询、键和值,并且d代表维度缩放值,自注意力机制是水下图像增强网络所用的核心机制,帮助特征的提取与重建;接下来,将相对位置偏差B添加到公式(1)中,此时SA为:步骤5:为了提升水下图像增强网络的网络容量,采用多头拼接方式实现视觉多头自注意力计算,将每个头记为:
上式中与均代表投射矩阵,c为头的索引;拼接操作使用表示,自注意力的拼接过程如下:上式中Γ(
·
)代表视觉多头自注意力计算,n为总拼接次数,W
O
为投射矩阵。步骤6:使用反射填充与窗口模式的视觉多头自注意力结合;由于水下增强模型的各个网络阶段的输入特征图的长宽尺寸并不能够保证是窗口大小的整数倍数,因此采用反射填充的方式对特征图进行填充,反射填充操作在特征图的长宽维度上进行,对上、下、左与右四个边界进行元素填充,填充内容为对称方向的边界处的元素值;步骤7:计算视觉多头自注意力时采用基于窗口的模式,将特征图划分为8x8的窗口,而不是在整张特征图上进行计算;将采用反射填充与窗口模式后的视觉多头自注意力计算Γ(
·
)记为RWΓ(
·
)步骤8:进行特征图的反射填充与窗口模式的划分后,结合多层感知机与层归一化操作,完成最终的基于反射填充与窗口模式的视觉多头自注意力模块;采用层归一化函数ψ(
·
)对特征图进行处理,在计算第m层的特征ζ
m
时,需要利用前一层特征ζ
m
‑1,中间特征的计算如下:步骤9:获得中间特征后,进一步添加多层感知机多层感知机的权重项为W1与W2且偏差项为b1与b2,并采用GELU(
·
)(Gaussian Error Linear Unit)激活函数,可得到第m层的特征ζ
m
为:综上,将获得ζ
m
的计算过程记为RB(Refect Block),即代表基于反射填充与窗口模式的视觉多头自注意力模块。4.根据权利要求1所述的一种基于编码解码注...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。