System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于聚合Transformer和特征精细化的语义分割模型和方法技术_技高网
当前位置: 首页 > 专利查询>山西大学专利>正文

基于聚合Transformer和特征精细化的语义分割模型和方法技术

技术编号:44402040 阅读:1 留言:0更新日期:2025-02-25 10:16
本发明专利技术公开了基于聚合Transformer和特征精细化的语义分割模型和方法,属于计算机视觉技术领域。针对目前Transformer类型的模型分割效果差、效率低、精度低的问题,本发明专利技术模型由聚合Transformer模块和特征精细化模块两部分组成。由于上下文信息的重要性,聚合Transformer模块先是随机聚和了特征图像素周围的像素,然后对特征图中每一个像素与其它像素建立长距离的远程关系,增加了特征表达的能力。另外,精细化特征模块利用有效自注意力层对编码器输出的特征图进行自注意力建模,使得骨干网络各阶段特征图像素之间具有长距离的远程依赖关系,然后FHL融合高级特征图和低级特征图来实现特征图的精细化,最后利用输出的特征图具有的全局上下文语义信息,来指导各阶段融合的特征学习。

【技术实现步骤摘要】

本专利技术属于计算机视觉,具体涉及一种基于聚合transformer和特征精细化的语义分割模型和方法。


技术介绍

1、语义分割是计算机视觉领域中最基本且最具挑战性的任务之一。它旨在将图像中的每一个像素归类到一个特定的类别,从而实现对图像的详细理解。语义分割在许多实际应用中起着至关重要的作用,如自动驾驶、医学图像分析、遥感影像处理和增强现实等。通过对图像的细粒度解析,语义分割能够提供精确的物体边界和丰富的语义信息,这对于进一步的视觉任务,如目标检测和图像理解,具有重要的推动作用。

2、随着深度学习技术的迅猛发展,特别是卷积神经网络(cnn)的引入,语义分割技术取得了显著进展。传统的图像分割方法依赖于手工设计的特征提取器和分类器,通常难以处理复杂的场景和多样化的物体。而深度学习方法通过自动学习图像的层次化特征,可以在大规模数据集上实现更高的精度和鲁棒性。自fcnet提出以来,各种先进的模型如unet、segnet、deeplab、pspnet等不断涌现,推动了语义分割技术的不断进步。虽然以上方法在语义分割方向取得了较大的进步,但是仍然存在着问题,例如,对复杂场景的处理能力有限,小物体和细粒度特征处理不佳导致分割不理想。这些问题的出现,激发了研究人员对transformer的研究热情,transformer模型最初是为了解决机器翻译中的一些关键问题而提出的,它有效地解决了有效解决了传统序列模型在长期依赖、并行化处理、序列信息利用、表示能力和可解释性等方面的问题,使得其在自然语言处理任务中取得了显著的性能提升。受其启发,dosovitskiy等人在2020年将transformer模型应用于视觉任务,推出了visiontransformer(vit),开创了transformer在计算机视觉领域的应用。vit通过将图像划分为固定大小的图像块,并将每个图像块展平后作为transformer的输入,展示了transformer在大型数据集上的有效性,在图像分类任务中表现出色,具有比传统卷积神经网络(cnn)更强的全局特征捕捉能力。

3、vit的成功,启发了后续一系列基于transformer的视觉模型。例如,detr(detectiontransformer)将物体检测任务表述为一个集合预测问题,使用transformer模型直接预测一组物体的边界框和类别标签。detr通过引入匹配算法解决了目标检测中的标签分配问题,实现了端到端的训练方式,简化了传统检测器中复杂的后处理步骤。

4、随后,segmenter利用transformer进行图像分割任务,通过自注意力机制捕捉图像中的全局特征,实现了高质量的图像分割,在多个图像分割基准数据集上表现出色。进一步地maskformer将图像分割任务中的不同问题(如语义分割、实例分割和全景分割)统一到一个框架下,提出了一种通用的分割框架,通过学习一组可预测的mask嵌入,简化了分割任务的模型设计和实现,使得训练和推理更加一致。

5、mask2former作为maskformer的改进版本,通过引入新的架构和训练策略,进一步提高了分割任务的性能。mask2former改进了mask嵌入的表示方法和训练过程,在多个图像分割任务上取得了新的最佳性能,验证了transformer在视觉任务中的巨大潜力。最近,shim等人在2023年提出了feedformer,这是一种新的transformer变体,专注于改进视觉任务中的特征提取和表征能力。feedformer引入了一种新的注意力机制和特征融合方法,增强了模型对图像中细节和全局信息的捕捉能力,在多个视觉任务上(如图像分类、检测和分割)取得了显著的性能提升,展示了其在各种视觉任务中的广泛适用性和前景。虽然,以上模型取得了很大的进展,但是计算成本非常大,尤其当处理高分辨率图像时,会产生大量的计算量。为了解决这个问题swin提出了分层的变换器,增加了计算效率。segformer提出了轻量型的编解码器,但是它依赖编码器来提高整体的性能,这会导致分割的效率低。


技术实现思路

1、针对目前transformer类型的模型分割效果差、分割效率低、分割精度低的问题,本专利技术提供了一种基于聚合transformer和特征精细化的语义分割模型和方法。充分利用了上下文信息,局部特征信息和编解码器,设计出一种基于聚合transformer和特征精细化的语义分割模型,以u型结构融合了高级特征和低级特征增强了特征表示能力,在提高精确率的情况下,提高了模型分割的效率。

2、为了达到上述目的,本专利技术采用了下列技术方案:

3、基于聚合transformer和特征精细化的语义分割模型,所述模型包括聚合transformer模块atm、特征精细化模块frm;

4、所述聚合transformer模块atm包括卷积层和transformer机制,卷积层负责局部特征提取,transformer机制通过注意力机制处理全局和长距离依赖;

5、所述的特征精细化模块frm包括若干自注意力模块esa和若干融合高级特征和低级特征模块fhl;

6、所述的聚合transformer模块atm用于聚合像素周围的信息,建模像素与其邻域之间的复杂关系,使模型更准确地理解图像中各部分的语义内容;

7、所述的自注意力模块esa使用自注意力机制来精细化生成的特征图,使模型在不同层次上自适应地加强或减弱特定像素之间的连接权重,更容易理解图像中复杂的语义结构和关联;其中,自注意力机制允许模型在处理特征时动态地分配注意力,有利于捕捉像素之间的长距离依赖关系;

8、所述的融合高级特征和低级特征模块fhl利用高级特征的语义指导低级特征的学习过程,使得模型在不同层次上理解和表达图像中的内容;用于增强模型对图像语义的理解能力,提升语义分割任务的准确性和稳定性;其中高级特征包含抽象和语义丰富的信息。

9、进一步,所述的聚合transformer模块atm表示为:

10、f′=convly(f)

11、q,k,v=wqf,wkf,wvf

12、q=agg(q),k=agg(k),v=agg(v)

13、

14、o=woz

15、f=fusion(o,q)

16、其中,f′表示经过聚合transformer模块聚集像素后的特征图,convly()表示尺寸为1×1大小的卷积层,被用来压缩输入特征图的通道数;q表示查询向量矩阵,k表示键向量矩阵,v表示值向量矩阵;wq表示用于生成查询向量的线性变换矩阵,wk表示用于生成键向量的线性变换矩阵,wv表示用于生成值向量的线性变换矩阵;q′表示聚集后的查询向量矩阵,k′表示聚集后的键向量矩阵,v′表示聚集后的值向量矩阵;agg(·)表示聚集操作;o表示最终的输出特征图,wo表示线性变换矩阵,z表示特征图经过注意力机制权重矩阵加权后的特征图。

17、进一步,所述自注意力本文档来自技高网...

【技术保护点】

1.基于聚合Transformer和特征精细化的语义分割模型,其特征在于:所述模型包括聚合Transformer模块ATM、特征精细化模块FRM;

2.根据权利要求1所述的基于聚合Transformer和特征精细化技术的语义分割模型,其特征在于:所述的聚合Transformer模块ATM表示为:

3.根据权利要求1所述的基于聚合Transformer和特征精细化技术的语义分割模型,其特征在于:所述自注意力模块ESA表示为:

4.根据权利要求1所述的基于聚合Transformer和特征精细化技术的语义分割模型,其特征在于:所述融合高级特征和低级特征模块FHL表示为:

5.基于双向聚合Transformer和特征精细化的语义分割方法,其特征在于,包括以下步骤:

6.根据权利要求5所述的基于双向聚合Transformer和特征精细化的语义分割方法,其特征在于:所述步骤2具体包括以下步骤:

7.根据权利要求5所述的基于双向聚合Transformer和特征精细化的语义分割方法,其特征在于:所述步骤3具体包括以下步骤:</p>

8.根据权利要求5所述的基于双向聚合Transformer和特征精细化的语义分割方法,其特征在于:所述步骤4具体包括以下步骤:

...

【技术特征摘要】

1.基于聚合transformer和特征精细化的语义分割模型,其特征在于:所述模型包括聚合transformer模块atm、特征精细化模块frm;

2.根据权利要求1所述的基于聚合transformer和特征精细化技术的语义分割模型,其特征在于:所述的聚合transformer模块atm表示为:

3.根据权利要求1所述的基于聚合transformer和特征精细化技术的语义分割模型,其特征在于:所述自注意力模块esa表示为:

4.根据权利要求1所述的基于聚合transformer和特征精细化技术的语义分割模型,其特征在于:所述...

【专利技术属性】
技术研发人员:齐兴斌赵丽
申请(专利权)人:山西大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1