一种基于Transformer的稠密图像恢复方法技术

技术编号：40767716 阅读：5 留言：0更新日期：2024-03-25 20:17

本发明专利技术涉及图像增强技术领域，具体涉及一种基于Transformer的稠密图像恢复方法，本发明专利技术整个网络架构基于改进的Transformer网络，构建了一个具有长短连接组合的密集网络。在保留Transformer网络的自注意机制的同时，实现了浅层和深层特征的重复融合和利用，从而将低光图像恢复为高质量的正常光图像。此外，设计了一种空域和频域结合的损失函数，考虑了像素级和频率域损失，有效约束了图像恢复过程，避免了频谱偏差。最后，设计了一个多尺度混合门前馈网络，取代Transformer中的传统前馈网络，促进了特征选择和前向传播。在各种典型图像增强数据集上的实验证明，本发明专利技术的方法在定性和定量评估中均优于当前最先进的网络。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及图像增强，具体涉及一种基于transformer的稠密图像恢复方法。

技术介绍

1、在低光条件下拍摄的图像存在亮度低、噪声高和对比度低等问题。这不仅影响图像质量，还阻碍了在高级视觉任务中获取和利用图像信息，如语义分割和人脸识别。为了从低光条件中恢复信息丰富、高质量的图像，先前的研究进行了许多尝试并提出了解决方案，主要可分为三个阶段：基于直方图均衡化及其变种的方法、基于retinex模型的方法，以及基于深度学习的方法。

2、直方图均衡化是一种通过重新分配像素强度来增强低光图像的方法，从而实现对比度的提高。其主要优势在于能够有效增强图像细节，提高在暗区域的可见性。然而，直方图均衡化的典型问题是可能放大噪声，导致图像噪声水平不受欢迎地增加。

3、基于retinex理论的增强方法假设一幅图像可以分解为反射和照明两个部分，并通过分别增强照明部分来实现增强效果。然而，由于分解问题的不适定性和对反射部分约束的不足，增强后的图像往往存在过曝和变白等问题，与人类视觉感知不一致。retinex理论的增强方法认为一幅图像可以分解为反射和照明两个部分，其中反射被用作最终的增强结果。然而，由于分解问题的不适定性和对反射部分约束的不足，增强后的图像往往存在过曝和变白等问题，与人类视觉感知不一致。

4、随着技术的不断进步，深度学习展现出在各个领域的强大潜力，包括低光图像增强领域。用于提升照明的最常见网络基于卷积神经网络(cnn)，它擅长从数据集中学习通用的先验知识，并相对于传统增强方法产生卓越的结果。然而，c

5、为了解决cnn网络的局限性，出现了一种名为transformer的新型神经网络模型。transformer利用自注意力(sa)机制在图像中建立长程依赖关系，并根据应用背景自适应地调整权重。它在自然语言处理和高级视觉任务中表现出显著的性能提升。然而，transformer模型中广泛的长程交互导致随着输入序列长度的增加而呈二次增长的计算复杂度，对高质量图像恢复提出了挑战。为了缓解这一问题，最近的研究提出在图像区域中采用局部自注意力，尽管其长程效应有限。此外，zamir等人在通道维度中隐式地建模了上下文关系，进一步降低了计算需求。这些进展为transformer模型的设计和应用奠定了基础。

6、此外，先前的研究表明，设计结合长短连接的密集结构可以为网络提供更丰富的语义信息。认为采用这样的设计可以有效提高模型在像素级任务(如照明增强)中的性能，因为这些任务需要提取和编码大量的语义信息。此外，先前关于transformer改进的研究为多个transformer网络的堆叠设计奠定了基础，实现了密集网络的构建。因此，本专利技术提出了一种基于改进transformer的密集网络，实现了不同层次特征的重复融合和高效传播。值得注意的是，该网络不仅为图像恢复提供了丰富的语义信息，还保留了transformer的自注意力机制(sa)，极大地增强了模型的性能。此外，为了解决在图像恢复过程中限制特定频率(例如高频信息)和难以恢复的困难(这种现象称为频谱偏差)的局限性，本专利技术引入了一种综合方法，将空域损失(像素级损失)和频域损失结合起来。确保了各种具有挑战性的频率信号的恢复，同时实现了像素级的恢复。最后，为了使transformer块能够编码多尺度特征信息并有选择地滤除不相关的特征，本专利技术设计了一个多尺度混合门馈前网络(mhgf)来替代传统的前馈网络。

技术实现思路

1、本专利技术的目的在于提供一种基于transformer的稠密图像恢复方法，提出了一种密集网络由改进的transformer网络组成，成功将低光图像恢复为高质量的正常光图像，缓解了低亮度、高噪声以及低光图像中缺失关键信息等问题。

2、为实现上述技术目的，达到上述技术效果，本专利技术是通过以下技术方案实现：

3、一种基于transformer的稠密图像恢复方法，首先，提出基于改进transformer架构的密集光照增强网络，所述密集光照增强网络包括编码器、解码器和嵌套网络；随着编码器网络深度的增加，特征通道增加而特征大小减小，而解码器呈相反趋势。所述嵌套网络由多组transformer块组成，所述transformer块与相邻块具有相同的结构，允许网络层之间进行短程特征连接和长程特征连接；实现多级特征的全面有效融合，并编码了重建增强图像所需的丰富语义信息；然后，提出了联合损失函数，其中包括空间域损失函数和频率域损失函数。

4、进一步的，所述transformer块包括多头转置注意力(mdta)和多尺度混合门控前馈网络(mhgf)；

5、所述多头转置注意力(mdta)包括：通过1x1卷积、3x3深度卷积和reshape函数处理归一化张量y，得到三个张量：kt∈rc×hw，q∈rhw×c和v∈rhw×c。通过将kt∈rc×hw和q∈rhw×c矩阵相乘来计算注意力图(a∈rc×c)。通过将v∈rhw×c的值与a∈rc×c相乘(v∈rhw×c和a∈rc×c之间的矩阵乘法)，调整v∈rhw×c的值。然后，应用reshape函数获得v∈rh×w×c，进而通过1x1卷积处理以生成mdta的输出。mdta中的自注意力机制如下：

6、a＝softmax(kt·q/λ) (1)

7、att(q，k，v)＝v·a (2)

8、其中λ是缩放因子。与传统的多头注意力不同，传统多头注意力通过将q∈rhw×c矩阵与kt∈rc×hw相乘来获得注意力图a∈rwh×wh，而mdta获得大小为a∈rc×c的注意力图。这种转换将远距离像素之间的显式相互依赖(远距离像素之间的乘法)转化为隐式相互依赖(远距离像素之间的加法)。这在保留自注意力机制捕捉图像全局特征的能力的同时，极大地降低了后续网络操作的计算负担；

9、所述多尺度混合门控前馈网络(mhgf)包括：不同尺度上包括两个独立的深度卷积路径，分别在3×3和5×5的尺度上提取和融合多尺度特征，以捕获不同尺度上的局部特征信息。最后，在5×5路径的最后一层的输出经过relu激活函数处理，并转换为一个门控信号，用于选择性地合并有效的多尺度融合特征。这种设计允许网络在图像恢复中过滤出不同尺度上的有意义的图像特征信息。

10、进一步的，mhgf的具体操作可以用公式3-5表示。

11、z1＝r{d3×3(c1×1(fl-1))} (3)

12、z2＝r{d5×5(c1×1(fl-1))} (4)

13、fl＝c1×1(d3×3[z1，z2]⊙r{d5×5[z1，z2]}) (5)

14、在这些方程中，fl-1和fl分别表示mhgf的输入和输出特征。c1×1表示1×1卷积，而d3×3和d5×5分别表示3×3和5×5的深度可本文档来自技高网...

【技术保护点】

1.一种基于Transformer的稠密图像恢复方法，其特征在于，首先，提出基于改进Transformer架构的密集光照增强网络，所述密集光照增强网络包括编码器、解码器和嵌套网络；随着编码器网络深度的增加，特征通道增加而特征大小减小，而解码器呈相反趋势；

2.如权利要求1所述的基于Transformer的稠密图像恢复方法，其特征在于：所述Transformer块包括多头转置注意力和多尺度混合门控前馈网络。

3.如权利要求2所述的基于Transformer的稠密图像恢复方法，其特征在于：所述多头转置注意力包括：通过1x1卷积、3x3深度卷积和Reshape函数处理归一化张量Y，得到三个张量：KT∈R C×HW，Q∈R HW×C和V∈R HW×C；通过将KT∈R C×HW和Q∈R HW×C矩阵相乘来计算注意力图(A∈R C×C)；通过将V∈RHW×C的值与A∈R C×C相乘(V∈RHW×C和A∈RC×C之间的矩阵乘法)，调整V∈RHW×C的值；然后，应用Reshape函数获得V∈R H×W×C，进而通过1x1卷积处理以生成MDTA的输出；MDTA中的自注意力机制如下：

4.如权利要求2所述的基于Transformer的稠密图像恢复方法，其特征在于：所述多尺度混合门控前馈网络包括：不同尺度上包括两个独立的深度卷积路径，分别在3×3和5×5的尺度上提取和融合多尺度特征，以捕获不同尺度上的局部特征信息；最后，在5×5路径的最后一层的输出经过ReLU激活函数处理，并转换为一个门控信号，用于选择性地合并有效的多尺度融合特征；这种设计允许网络在图像恢复中过滤出不同尺度上的有意义的图像特征信息。

5.如权利要求4所述的基于Transformer的稠密图像恢复方法，其特征在于：MHGF的具体操作可以用公式3-5表示；

6.如权利要求1所述的基于Transformer的稠密图像恢复方法，其特征在于：所述联合损失函数包括：将频域损失函数并入联合损失函数，如公式6所示；

...

【技术特征摘要】

1.一种基于transformer的稠密图像恢复方法，其特征在于，首先，提出基于改进transformer架构的密集光照增强网络，所述密集光照增强网络包括编码器、解码器和嵌套网络；随着编码器网络深度的增加，特征通道增加而特征大小减小，而解码器呈相反趋势；

2.如权利要求1所述的基于transformer的稠密图像恢复方法，其特征在于：所述transformer块包括多头转置注意力和多尺度混合门控前馈网络。

3.如权利要求2所述的基于transformer的稠密图像恢复方法，其特征在于：所述多头转置注意力包括：通过1x1卷积、3x3深度卷积和reshape函数处理归一化张量y，得到三个张量：kt∈r c×hw，q∈r hw×c和v∈r hw×c；通过将kt∈r c×hw和q∈r hw×c矩阵相乘来计算注意力图(a∈r c×c)；通过将v∈rhw×c的值与a∈r c×c相乘(v∈rhw×c和a∈rc×c之间的矩阵乘法)，调整v∈rhw...

【专利技术属性】
技术研发人员：付贵，楚红雨，黄一，涂晓光，
申请(专利权)人：西南科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人