一种基于Transformer的物体语义边界分割方法技术

技术编号：42163886 阅读：12 留言：0更新日期：2024-07-27 00:12

本发明专利技术公布了一种基于Transformer的物体语义边界分割方法，通过综和利用图像全局上下文特征和局部特征以提取清晰的物体语义边界。方法包括全局上下文特征提取和局部特征抽取。使用全局transformer编码器获取从粗粒度图像划分区域集全局上下文特征；应用局部transformer编码器对区域细分的子区域集抽取局部特征。Transformer编码器由多个子transformer编码器构成，子transformer编码器包含多头自注意力操作MSA、多层感知器MLP和两个归一化层LN。通过特征融合将全局上下文特征和局部特征融合，输入决策头中进行语义边界预测。本发明专利技术所述包括三个主要模块，1)使用全局transformer编码器抽取粗粒度图像划分区域集的全局上下文特征；2)使用局部transformer编码器在细粒度的图像划分区域抽取局部特征；3)通过特征融合模块将全局上下文特征和局部特征融合，输入决策头进行边缘预测。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种基于transformer的物体语义边界分割方法，属于计算机视觉和人工智能相结合的。

技术介绍

1、边缘检测是计算机视觉中常见的问题之一，拥有着广泛的应用，用于图像分割，物体检测，视频物体检测等。边缘检测目的是对输入图像，提取准确的物体边界和视觉显著的边缘。由于诸多因素干扰，包括复杂的背景、不一致的注释等，准确给出物体的语义边界具有很大挑战性。边缘与图像上下文和语义特征相关。因此，计算局部和全局视觉特征有益于生成物体语义边界。传统的边缘检测算子有canny算子、sobel算子、laplace算子等，基于局部特征(例如颜色和纹理)计算边缘。卷积神经网络通过逐步计算上下文和语义特征，一定程度上方便边缘检测。局部细节随着感受野扩大而变得次要。transformer由于其全局注意力机制在计算图像全局依赖关系方面具有较强性能。受此启发，本专利提出一种新的基于transformer的物体语义边界分割方法，通过同时利用图像上下文和局部特征提取准确物体语义边界。

2、本技术的具体步骤分为三个主要阶段，在第一阶段，使用全局的transformer编码器eg计算粗粒度的图像分块上的全局特征；局部的transformer编码器er对细粒度的图像分块抽取局部特征；往每个transformer编码器后面附加双向多级聚合解码器，得到高分辨率图像特征；通过特征融合模块将全局上下文和局部特征结合，通过决策头进行边缘预测。

技术实现思路

1、本专利技术给出一种基于transformer

2、步骤1：在第一阶段，把输入彩色图像划分为多个粗粒度区域；

3、步骤2：用全局transformer编码器来学习图像全局上下文信息。全局transformer编码器由24个transformer子编码器块连接组成。子编码器块包含一个多头自注意力操作(msa)、一个多层感知器(mlp)和两个归一化层(ln)；

4、步骤3：用全局双路耦合解码器把编码的全局上下文信息生成高分辨率特征；

5、步骤4：第二阶段，通过无重叠滑动窗口对输入图像分块，将图像分成细粒度的区域集；

6、步骤5：对区域序列执行局部transformer编码器，其中局部transformer编码器采用与全局transformer编码器结构相同的12个transformer子编码器连接组成，获取局部特征；

7、步骤6：整合局部特征，并输入到局部双路耦合解码器，实现特征到像素的映射；

8、步骤7：融合全局特征和局部特征，并输入到决策头中预测物体语义边界。

9、进一步的，诉述步骤1的具体步骤如下：

10、步骤1.1：在第一阶段，输入彩色图像i，将其转化成一维向量，将输入的图像划分成k×k大的区域，得到个区域；

11、步骤1.2：通过线性投影将区域集映射到隐空间，并组合一维位置向量；

12、步骤1.3：将组合向量表示为作为编码器输入，输入到全局transformer编码器；

13、进一步的，诉述步骤2的具体步骤如下：

14、步骤2.1：输入至全局编码器eg的第一个transformer子编码器中得到

15、更进一步的，诉述步骤2.1的具体步骤如下：

16、(2.11)输入组合向量先经过归一化层，对输入值减去均值除以标准差，再进行线性映射，得到归一化后的向量

17、(2.12)将执行多头自注意力操作，多头自注意力操作对向量进行多次映射，使向量关注到来自各表示子空间的注意，在第m头中由线性映射得到的向量和需要学习的wq、wk、wv矩阵相乘得到q、k、v，由q和k计算相似度s，对s经过soffmax计算出概率p，对p进行权重加和得到attention，计算方式为所以多头自注意力机制表示为其中m为多头数量，wo为投影权重；

18、(2.13)将注意力和相加并输入归一化层以减去均值除以标准差，进行线性映射后得到结果

19、(2.14)将送入多层感知器mlp中对空间位置特征进行全局感知得结果

20、步骤2.2：由于使用24个transformer编码器块组成全局transformer编码器。经过24个连续transformer子编码器编码得到输出结果计算方式为

21、进一步的，诉述步骤3的具体步骤如下：

22、步骤3.1：在全局双路耦合解码器，采用特征从低维到高维和高维到低维方式的组合编码；

23、步骤3.2：将步骤2.2的结果分成4组，将每组的最后一个特征向量作为输入；

24、步骤3.3：把这些输入经过1×1卷积扩展为的3维特征向量；

25、步骤3.4：特征从高维到低维进行组合编码，对最高维即开始，进行3×3卷积做为重塑特征对做相同处理得

26、步骤3.5：特征从低维到高维进行组合编码，从最低层即开始，通过在多层特征上附加一个3×3卷积层，获得另外四个输出特征

27、步骤3.6：将和分别输入4×4和16×16反卷积层，得到八个上采样特征，将从高维到低维和从低维到高维的八个采样特征串接为一个张量；

28、步骤3.7：将该张量经过输入3×3卷积层和一个1×1卷积层以使得采样特征更好地连接，其中包含归一化和relu操作，得到像素级的全局特征dg表示代表全局双路耦合解码器；

29、进一步的，诉述步骤4的具体步骤如下：

30、步骤4.1：在图像i上执行大小为的非重叠滑动窗口操作，使得输入图像i划分为{i1，i2，i3，i4}的小区域；

31、步骤4.2：对于每个小图像区域，将其分成大小为的细粒度patch，并通过局部transformer编码器er计算注意力；

32、进一步的，诉述步骤5的具体步骤如下：

33、步骤5.1：将ii(1≤i≤4)划分的细粒度区域执行步骤2.2操作，对输出分为4组，取每组的i个向量；

34、进一步的，诉述步骤6的具体步骤如下：

35、步骤6.1：将步骤5.1的结果串接得向量

36、步骤6.2：将得到的结果输入局部双路耦合解码器dr中，与全局双路耦合解码器不同的是，将局部双路耦合解码器中的3×3卷积层改为1×1卷积层，避免因填充操作造成的意外边缘。生成高分辨率的局部特征

37、进一步的，诉述步骤7的具体步骤如下：

38、步骤7.1：将第一阶段得到的全局特征gf分两次经过两个3×3卷积层和一个空间特征变换模块；

39、步骤7.2：将第二阶段得到的局部特征rf与步骤7.1第一次得到的结果相融合，经过空间变换模块，再与步骤7.1得到结果相加，最后经过3×3卷积层得到融合特征；

40、步骤7.3：将融合特征输入到局部决策头hr中预测物体的语义边界分割oer。执行操作oer＝hr(本文档来自技高网...

【技术保护点】

1.本专利技术给出一种基于Transformer的图像语义边界分割方法，包括全局图像上下文信息和局部细粒度线索搜索。采取的技术方案主要如下：

【技术特征摘要】

1.本发明给出一种基于transformer的图像语义边界分割方法，...

【专利技术属性】
技术研发人员：杜振龙，顾伟，李晓丽，陈东，
申请(专利权)人：南京工业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人