System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于多分支混合Transformer-MBMT的高效图像超分辨率方法技术_技高网

基于多分支混合Transformer-MBMT的高效图像超分辨率方法技术

技术编号:44132851 阅读:12 留言:0更新日期:2025-01-24 22:53
一种基于多分支混合Transformer(Multi‑Branch Mixer Transformer,MBMT)的高效图像超分辨率方法,该方法中引入了多分支token混合器(Multi‑Branch Token Mixer,MBTM)的独特模块,该模块旨在通过增加网络宽度来取代深度,从而增强模型的学习能力和泛化能力。它由三个分支组成:自注意力机制模块、深度卷积(Depth‑Wise Convolution,DWConv)和自适应token混合器(ATM),每个分支分别负责捕捉长期依赖关系、提取局部特征和扩展全局信息空间。本发明专利技术结合了自适应空间和通道注意力机制,以确保从三个分支中提取的信息之间有充分的交互,从而增强MBTM的特征表示能力。得益于MBTM的高效性和更浅的网络结构,本发明专利技术在显著提高SR模型性能的同时降低了复杂度。

【技术实现步骤摘要】

本专利技术涉及图像超分辨率,具体指一种基于多分支混合transformer-mbmt的高效图像超分辨率方法。


技术介绍

1、单图像超分辨率(single-image super-resolution,sisr)旨在对低分辨率(low-resolution,lr)图像进行放大,以生成高分辨率(high-resolution,hr)图像。深度学习方法在单图像超分辨率(sisr)领域取得了显著进展,其中基于transformer的模型在性能上经常优于基于cnn的方法。然而,由于transformer中的自注意力机制,与基于cnn的方法相比,实现轻量化模型仍然面临挑战。

2、transformer在自然语言处理领域的成功为其在计算机视觉中的应用铺平了道路,在图像处理任务中实现了与传统卷积神经网络(cnn)相当甚至更优的性能水平[17,18,33]。在超分辨率任务中应用transformer可以利用其在捕捉全局信息方面的优势,从而有助于理解图像的结构和内容,以生成高质量的高分辨率(hr)图像[19-22]。ttsr[34]引入了一种纹理transformer来计算低分辨率(lr)图像和参考(ref)图像之间的相关性。通过使用硬注意力和软注意力模块来学习lr和ref之间的联合特征,它有效地将ref的纹理信息传递到hr图像中。swinir[26]使用swin transformer[33]架构进行单图像超分辨率(sisr)任务。它利用transformer的自注意力机制来捕捉图像中的长程依赖关系,通过分层结构增强特征提取和处理效率。与传统的卷积神经网络相比,swinir在各种超分任务中表现出色。esrt[35]是一种结合了cnn和transformer的轻量级架构。该模型使用特征分割模块将长序列分割为多个子序列,从而在这些子序列上执行注意力操作,以减少gpu内存消耗。为了解决swinir中有限感受野的问题,haram等人[23]将n-gram[36]上下文引入swin,并提出了ngswin。ngswin通过滑动窗口自注意力交互扩大了可见区域,并恢复了退化的像素。lbnet[24]在transformer中引入了一种递归机制,使得模型能够在不显著增加gpu内存消耗和模型参数的情况下,有效地学习全局信息。dat[22]采用了一种在transformer模块内交替空间和通道自注意力的策略。这种方法能够在空间和通道维度上进行特征聚合,增强了模型的图像表示能力,显著提升了图像超分辨率的性能。

3、在视觉transformer模型中,输入特征被转换为token序列,每个token通过自注意力机制与其他token进行交互。这一交互过程通常被称为token混合[17,18]。然而,自注意力机制随着序列长度的增加导致计算复杂度呈二次增长,从而导致成本增加、训练和推理速度变慢,并需要显著增加计算资源。有研究表明[37,38],仅使用mlp也能达到与transformer相当的性能,这表明可以用基础的token混合器来替代自注意力模块。poolformer[39]是一种基于transformer的模型,将transformer中的自注意力模块替换为简单的空间池化操作,作为基础的token混合器。这种方法使模型能够实现与transformer和类似mlp模型相当的性能。huang等人[40]使用傅里叶变换将token转换到频域,并对转换后的token进行自适应滤波操作,从而实现轻量级的token混合。atm[29]通过重新组合token来实现自适应的全局信息整合,在有限的计算成本下表现出色。

4、在基于cnn的单图像超分辨率(sisr)领域中,高分辨率(hr)图像的恢复通常依赖于复杂的网络架构和大量的参数。然而,这些架构通常需要大量的计算资源,从而限制了它们在资源受限环境中的实用性。为了在模型复杂度和性能之间实现平衡,近年来出现了越来越多的轻量级图像超分辨率方法的研究[2,8-14]。srcnn[1]采用了简单的卷积架构,实现了端到端的sisr,突显了卷积神经网络在超分辨率任务中的开创性作用。fsrcnn[2]通过优化srcnn的网络架构,在保持优异超分性能的同时,显著提高了推理速度。espcn[14]创新性地提出了使用亚像素卷积层来将低分辨率(lr)特征重排为高分辨率图像,有效解决了传统上采样方法中与逐像素操作相关的限制。该方法在视觉保真度和计算效率方面都表现出色。resnet[30]的问世激发了众多具有残差结构的轻量级sr模型的发展,推动了超分辨率领域的显著进步[8,10,11,12,31,32]。近年来,基于transformer的sr网络逐渐成为一种趋势,其性能与传统cnn方法相当,甚至更优[22,23,25,27]。

5、卷积神经网络(convolutional neural network,cnn)在超分辨率(sr)领域的成功归因于其强大的特征提取能力和端到端学习框架。研究人员通过训练cnn模型来学习lr到hr图像的映射,从而取得了显著的进展[1-7]。尽管cnn模型在生成高质量sr图像方面表现出色,但这些网络的深度和复杂性导致模型体积庞大且计算需求高,这在资源受限的环境中部署时会成为障碍。为了应对这些挑战,研究人员正在积极探索设计轻量级的超分辨率架构,以在保持性能的同时减少模型体积和计算成本[8-16]。

6、基于cnn的sr模型的感受野主要受到卷积核的大小和深度限制。这些限制制约了模型捕捉图像长远依赖关系的能力,可能导致图像失真或模糊,特别是在较大尺寸图像或复杂场景中尤为明显。为了应对这一挑战,研究人员开始探索在超分辨率任务中使用新兴架构,例如transformer[17-22]。与cnn不同,transformer不受感受野限制,能够有效捕捉全局信息和长期依赖关系,这有望提高sr模型的性能和效果。虽然transformer在计算机视觉领域取得了显著进展,但其训练和推理需要大量计算资源,这主要归因于自注意力(self-attention,sa)机制[17],其计算复杂度随着token长度的增加呈二次增长。此外,transformer在处理局部信息方面存在困难,这在一定程度上限制了模型的性能。基于这些原因,设计轻量级的基于transformer的sr模型仍然是该领域的一项挑战性课题[23-27]。


技术实现思路

1、为了解决上述问题,本专利技术提出了一种多分支混合transformer(multi-branchmixer transformer,mbmt)的高效图像超分辨率方法,属于轻量级sr网络,在显著提高sr模型性能的同时降低了复杂度。

2、本专利技术所采用的技术方案为:

3、一种基于多分支混合transformer-mbmt的高效图像超分辨率方法,该方法的目标是学习从低分辨率图像ilr到高分辨率图像ihr的端到端映射函数f(·):

4、

5、其中,θ表示可学习参数;而mbmt的整体结构分为三个部分:特征扩展层、特征提取层和图像重建层本文档来自技高网...

【技术保护点】

1.一种基于多分支混合Transformer-MBMT的高效图像超分辨率方法,其特征在于,该方法的目标是学习从低分辨率图像ILR到高分辨率图像IHR的端到端映射函数F(·):

2.根据权利要求1所述的一种基于多分支混合Transformer-MBMT的高效图像超分辨率方法,其特征在于,所述MBTM采用了MetaFormer的通用宏架构,其形式表示为:

3.根据权利要求2所述的一种基于多分支混合Transformer-MBMT的高效图像超分辨率方法,其特征在于,所述多分支token混合器由三个分支组成,表达如下:

4.根据权利要求3所述的一种基于多分支混合Transformer-MBMT的高效图像超分辨率方法,其特征在于,所述自适应token混合器ATM(·)的计算步骤如下:

5.根据权利要求3所述的一种基于多分支混合Transformer-MBMT的高效图像超分辨率方法,其特征在于,所述多分支token混合器后包含一个前馈层SGFN,该SGFN采用自门控激活函数Swish的结构。

【技术特征摘要】

1.一种基于多分支混合transformer-mbmt的高效图像超分辨率方法,其特征在于,该方法的目标是学习从低分辨率图像ilr到高分辨率图像ihr的端到端映射函数f(·):

2.根据权利要求1所述的一种基于多分支混合transformer-mbmt的高效图像超分辨率方法,其特征在于,所述mbtm采用了metaformer的通用宏架构,其形式表示为:

3.根据权利要求2所述的一种基于多分支混合transformer-mbmt的高效图像超分辨率...

【专利技术属性】
技术研发人员:张龙万毅
申请(专利权)人:北京三狮科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1