System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及图像超分辨率,具体指一种基于多分支混合transformer-mbmt的高效图像超分辨率方法。
技术介绍
1、单图像超分辨率(single-image super-resolution,sisr)旨在对低分辨率(low-resolution,lr)图像进行放大,以生成高分辨率(high-resolution,hr)图像。深度学习方法在单图像超分辨率(sisr)领域取得了显著进展,其中基于transformer的模型在性能上经常优于基于cnn的方法。然而,由于transformer中的自注意力机制,与基于cnn的方法相比,实现轻量化模型仍然面临挑战。
2、transformer在自然语言处理领域的成功为其在计算机视觉中的应用铺平了道路,在图像处理任务中实现了与传统卷积神经网络(cnn)相当甚至更优的性能水平[17,18,33]。在超分辨率任务中应用transformer可以利用其在捕捉全局信息方面的优势,从而有助于理解图像的结构和内容,以生成高质量的高分辨率(hr)图像[19-22]。ttsr[34]引入了一种纹理transformer来计算低分辨率(lr)图像和参考(ref)图像之间的相关性。通过使用硬注意力和软注意力模块来学习lr和ref之间的联合特征,它有效地将ref的纹理信息传递到hr图像中。swinir[26]使用swin transformer[33]架构进行单图像超分辨率(sisr)任务。它利用transformer的自注意力机制来捕捉图像中的长程依赖关系,通过分层结构增强特征提取和处理效率
3、在视觉transformer模型中,输入特征被转换为token序列,每个token通过自注意力机制与其他token进行交互。这一交互过程通常被称为token混合[17,18]。然而,自注意力机制随着序列长度的增加导致计算复杂度呈二次增长,从而导致成本增加、训练和推理速度变慢,并需要显著增加计算资源。有研究表明[37,38],仅使用mlp也能达到与transformer相当的性能,这表明可以用基础的token混合器来替代自注意力模块。poolformer[39]是一种基于transformer的模型,将transformer中的自注意力模块替换为简单的空间池化操作,作为基础的token混合器。这种方法使模型能够实现与transformer和类似mlp模型相当的性能。huang等人[40]使用傅里叶变换将token转换到频域,并对转换后的token进行自适应滤波操作,从而实现轻量级的token混合。atm[29]通过重新组合token来实现自适应的全局信息整合,在有限的计算成本下表现出色。
4、在基于cnn的单图像超分辨率(sisr)领域中,高分辨率(hr)图像的恢复通常依赖于复杂的网络架构和大量的参数。然而,这些架构通常需要大量的计算资源,从而限制了它们在资源受限环境中的实用性。为了在模型复杂度和性能之间实现平衡,近年来出现了越来越多的轻量级图像超分辨率方法的研究[2,8-14]。srcnn[1]采用了简单的卷积架构,实现了端到端的sisr,突显了卷积神经网络在超分辨率任务中的开创性作用。fsrcnn[2]通过优化srcnn的网络架构,在保持优异超分性能的同时,显著提高了推理速度。espcn[14]创新性地提出了使用亚像素卷积层来将低分辨率(lr)特征重排为高分辨率图像,有效解决了传统上采样方法中与逐像素操作相关的限制。该方法在视觉保真度和计算效率方面都表现出色。resnet[30]的问世激发了众多具有残差结构的轻量级sr模型的发展,推动了超分辨率领域的显著进步[8,10,11,12,31,32]。近年来,基于transformer的sr网络逐渐成为一种趋势,其性能与传统cnn方法相当,甚至更优[22,23,25,27]。
5、卷积神经网络(convolutional neural network,cnn)在超分辨率(sr)领域的成功归因于其强大的特征提取能力和端到端学习框架。研究人员通过训练cnn模型来学习lr到hr图像的映射,从而取得了显著的进展[1-7]。尽管cnn模型在生成高质量sr图像方面表现出色,但这些网络的深度和复杂性导致模型体积庞大且计算需求高,这在资源受限的环境中部署时会成为障碍。为了应对这些挑战,研究人员正在积极探索设计轻量级的超分辨率架构,以在保持性能的同时减少模型体积和计算成本[8-16]。
6、基于cnn的sr模型的感受野主要受到卷积核的大小和深度限制。这些限制制约了模型捕捉图像长远依赖关系的能力,可能导致图像失真或模糊,特别是在较大尺寸图像或复杂场景中尤为明显。为了应对这一挑战,研究人员开始探索在超分辨率任务中使用新兴架构,例如transformer[17-22]。与cnn不同,transformer不受感受野限制,能够有效捕捉全局信息和长期依赖关系,这有望提高sr模型的性能和效果。虽然transformer在计算机视觉领域取得了显著进展,但其训练和推理需要大量计算资源,这主要归因于自注意力(self-attention,sa)机制[17],其计算复杂度随着token长度的增加呈二次增长。此外,transformer在处理局部信息方面存在困难,这在一定程度上限制了模型的性能。基于这些原因,设计轻量级的基于transformer的sr模型仍然是该领域的一项挑战性课题[23-27]。
技术实现思路
1、为了解决上述问题,本专利技术提出了一种多分支混合transformer(multi-branchmixer transformer,mbmt)的高效图像超分辨率方法,属于轻量级sr网络,在显著提高sr模型性能的同时降低了复杂度。
2、本专利技术所采用的技术方案为:
3、一种基于多分支混合transformer-mbmt的高效图像超分辨率方法,该方法的目标是学习从低分辨率图像ilr到高分辨率图像ihr的端到端映射函数f(·):
4、
5、其中,θ表示可学习参数;而mbmt的整体结构分为三个部分:特征扩展层、特征提取层和图像重建层本文档来自技高网...
【技术保护点】
1.一种基于多分支混合Transformer-MBMT的高效图像超分辨率方法,其特征在于,该方法的目标是学习从低分辨率图像ILR到高分辨率图像IHR的端到端映射函数F(·):
2.根据权利要求1所述的一种基于多分支混合Transformer-MBMT的高效图像超分辨率方法,其特征在于,所述MBTM采用了MetaFormer的通用宏架构,其形式表示为:
3.根据权利要求2所述的一种基于多分支混合Transformer-MBMT的高效图像超分辨率方法,其特征在于,所述多分支token混合器由三个分支组成,表达如下:
4.根据权利要求3所述的一种基于多分支混合Transformer-MBMT的高效图像超分辨率方法,其特征在于,所述自适应token混合器ATM(·)的计算步骤如下:
5.根据权利要求3所述的一种基于多分支混合Transformer-MBMT的高效图像超分辨率方法,其特征在于,所述多分支token混合器后包含一个前馈层SGFN,该SGFN采用自门控激活函数Swish的结构。
【技术特征摘要】
1.一种基于多分支混合transformer-mbmt的高效图像超分辨率方法,其特征在于,该方法的目标是学习从低分辨率图像ilr到高分辨率图像ihr的端到端映射函数f(·):
2.根据权利要求1所述的一种基于多分支混合transformer-mbmt的高效图像超分辨率方法,其特征在于,所述mbtm采用了metaformer的通用宏架构,其形式表示为:
3.根据权利要求2所述的一种基于多分支混合transformer-mbmt的高效图像超分辨率...
【专利技术属性】
技术研发人员:张龙,万毅,
申请(专利权)人:北京三狮科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。