基于多分支混合Transformer-MBMT的高效图像超分辨率方法技术

技术编号：44132851 阅读：23 留言：0更新日期：2025-01-24 22:53

一种基于多分支混合Transformer(Multi‑Branch Mixer Transformer，MBMT)的高效图像超分辨率方法，该方法中引入了多分支token混合器(Multi‑Branch Token Mixer，MBTM)的独特模块，该模块旨在通过增加网络宽度来取代深度，从而增强模型的学习能力和泛化能力。它由三个分支组成：自注意力机制模块、深度卷积(Depth‑Wise Convolution,DWConv)和自适应token混合器(ATM)，每个分支分别负责捕捉长期依赖关系、提取局部特征和扩展全局信息空间。本发明专利技术结合了自适应空间和通道注意力机制，以确保从三个分支中提取的信息之间有充分的交互，从而增强MBTM的特征表示能力。得益于MBTM的高效性和更浅的网络结构，本发明专利技术在显著提高SR模型性能的同时降低了复杂度。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及图像超分辨率，具体指一种基于多分支混合transformer-mbmt的高效图像超分辨率方法。

技术介绍

1、单图像超分辨率(single-image super-resolution,sisr)旨在对低分辨率(low-resolution,lr)图像进行放大，以生成高分辨率(high-resolution,hr)图像。深度学习方法在单图像超分辨率(sisr)领域取得了显著进展，其中基于transformer的模型在性能上经常优于基于cnn的方法。然而，由于transformer中的自注意力机制，与基于cnn的方法相比，实现轻量化模型仍然面临挑战。

2、transformer在自然语言处理领域的成功为其在计算机视觉中的应用铺平了道路，在图像处理任务中实现了与传统卷积神经网络(cnn)相当甚至更优的性能水平[17,18,33]。在超分辨率任务中应用transformer可以利用其在捕捉全局信息方面的优势，从而有助于理解图像的结构和内容，以生成高质量的高分辨率(hr)图像[19-22]。ttsr[34]引入了一种纹理transformer来计算低分辨率(lr)图像和参考(ref)图像之间的相关性。通过使用硬注意力和软注意力模块来学习lr和ref之间的联合特征，它有效地将ref的纹理信息传递到hr图像中。swinir[26]使用swin transformer[33]架构进行单图像超分辨率(sisr)任务。它利用transformer的自注意力机制来捕捉图像中的长程依赖关系，通过分层结构增强特征提取和处理效率

3、在视觉transformer模型中，输入特征被转换为token序列，每个token通过自注意力机制与其他token进行交互。这一交互过程通常被称为token混合[17,18]。然而，自注意力机制随着序列长度的增加导致计算复杂度呈二次增长，从而导致成本增加、训练和推理速度变慢，并需要显著增加计算资源。有研究表明[37,38]，仅使用mlp也能达到与transformer相当的性能，这表明可以用基础的token混合器来替代自注意力模块。poolformer[39]是一种基于transformer的模型，将transformer中的自注意力模块替换为简单的空间池化操作，作为基础的token混合器。这种方法使模型能够实现与transformer和类似mlp模型相当的性能。huang等人[40]使用傅里叶变换将token转换到频域，并对转换后的token进行自适应滤波操作，从而实现轻量级的token混合。atm[29]通过重新组合token来实现自适应的全局信息整合，在有限的计算成本下表现出色。

4、在基于cnn的单图像超分辨率(sisr)领域中，高分辨率(hr)图像的恢复通常依赖于复杂的网络架构和大量的参数。然而，这些架构通常需要大量的计算资源，从而限制了它们在资源受限环境中的实用性。为了在模型复杂度和性能之间实现平衡，近年来出现了越来越多的轻量级图像超分辨率方法的研究[2,8-14]。srcnn[1]采用了简单的卷积架构，实现了端到端的sisr，突显了卷积神经网络在超分辨率任务中的开创性作用。fsrcnn[2]通过优化srcnn的网络架构，在保持优异超分性能的同时，显著提高了推理速度。espcn[14]创新性地提出了使用亚像素卷积层来将低分辨率(lr)特征重排为高分辨率图像，有效解决了传统上采样方法中与逐像素操作相关的限制。该方法在视觉保真度和计算效率方面都表现出色。resnet[30]的问世激发了众多具有残差结构的轻量级sr模型的发展，推动了超分辨率领域的显著进步[8,10,11,12,31,32]。近年来，基于transformer的sr网络逐渐成为一种趋势，其性能与传统cnn方法相当，甚至更优[22,23,25,27]。

5、卷积神经网络(convolutional neural network,cnn)在超分辨率(sr)领域的成功归因于其强大的特征提取能力和端到端学习框架。研究人员通过训练cnn模型来学习lr到hr图像的映射，从而取得了显著的进展[1-7]。尽管cnn模型在生成高质量sr图像方面表现出色，但这些网络的深度和复杂性导致模型体积庞大且计算需求高，这在资源受限的环境中部署时会成为障碍。为了应对这些挑战，研究人员正在积极探索设计轻量级的超分辨率架构，以在保持性能的同时减少模型体积和计算成本[8-16]。

6、基于cnn的sr模型的感受野主要受到卷积核的大小和深度限制。这些限制制约了模型捕捉图像长远依赖关系的能力，可能导致图像失真或模糊，特别是在较大尺寸图像或复杂场景中尤为明显。为了应对这一挑战，研究人员开始探索在超分辨率任务中使用新兴架构，例如transformer[17-22]。与cnn不同，transformer不受感受野限制，能够有效捕捉全局信息和长期依赖关系，这有望提高sr模型的性能和效果。虽然transformer在计算机视觉领域取得了显著进展，但其训练和推理需要大量计算资源，这主要归因于自注意力(self-attention,sa)机制[17]，其计算复杂度随着token长度的增加呈二次增长。此外，transformer在处理局部信息方面存在困难，这在一定程度上限制了模型的性能。基于这些原因，设计轻量级的基于transformer的sr模型仍然是该领域的一项挑战性课题[23-27]。

技术实现思路

1、为了解决上述问题，本专利技术提出了一种多分支混合transformer(multi-branchmixer transformer,mbmt)的高效图像超分辨率方法，属于轻量级sr网络，在显著提高sr模型性能的同时降低了复杂度。

2、本专利技术所采用的技术方案为：

3、一种基于多分支混合transformer-mbmt的高效图像超分辨率方法，该方法的目标是学习从低分辨率图像ilr到高分辨率图像ihr的端到端映射函数f(·)：

4、

5、其中，θ表示可学习参数；而mbmt的整体结构分为三个部分：特征扩展层、特征提取层和图像重建层本文档来自技高网...

【技术保护点】

1.一种基于多分支混合Transformer-MBMT的高效图像超分辨率方法，其特征在于，该方法的目标是学习从低分辨率图像ILR到高分辨率图像IHR的端到端映射函数F(·)：

2.根据权利要求1所述的一种基于多分支混合Transformer-MBMT的高效图像超分辨率方法，其特征在于，所述MBTM采用了MetaFormer的通用宏架构，其形式表示为：

3.根据权利要求2所述的一种基于多分支混合Transformer-MBMT的高效图像超分辨率方法，其特征在于，所述多分支token混合器由三个分支组成，表达如下：

4.根据权利要求3所述的一种基于多分支混合Transformer-MBMT的高效图像超分辨率方法，其特征在于，所述自适应token混合器ATM(·)的计算步骤如下：

5.根据权利要求3所述的一种基于多分支混合Transformer-MBMT的高效图像超分辨率方法，其特征在于，所述多分支token混合器后包含一个前馈层SGFN，该SGFN采用自门控激活函数Swish的结构。

【技术特征摘要】

1.一种基于多分支混合transformer-mbmt的高效图像超分辨率方法，其特征在于，该方法的目标是学习从低分辨率图像ilr到高分辨率图像ihr的端到端映射函数f(·)：

2.根据权利要求1所述的一种基于多分支混合transformer-mbmt的高效图像超分辨率方法，其特征在于，所述mbtm采用了metaformer的通用宏架构，其形式表示为：

3.根据权利要求2所述的一种基于多分支混合transformer-mbmt的高效图像超分辨率...

【专利技术属性】
技术研发人员：张龙，万毅，
申请(专利权)人：北京三狮科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人