System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及一种基于transformer的物体语义边界分割方法,属于计算机视觉和人工智能相结合的。
技术介绍
1、边缘检测是计算机视觉中常见的问题之一,拥有着广泛的应用,用于图像分割,物体检测,视频物体检测等。边缘检测目的是对输入图像,提取准确的物体边界和视觉显著的边缘。由于诸多因素干扰,包括复杂的背景、不一致的注释等,准确给出物体的语义边界具有很大挑战性。边缘与图像上下文和语义特征相关。因此,计算局部和全局视觉特征有益于生成物体语义边界。传统的边缘检测算子有canny算子、sobel算子、laplace算子等,基于局部特征(例如颜色和纹理)计算边缘。卷积神经网络通过逐步计算上下文和语义特征,一定程度上方便边缘检测。局部细节随着感受野扩大而变得次要。transformer由于其全局注意力机制在计算图像全局依赖关系方面具有较强性能。受此启发,本专利提出一种新的基于transformer的物体语义边界分割方法,通过同时利用图像上下文和局部特征提取准确物体语义边界。
2、本技术的具体步骤分为三个主要阶段,在第一阶段,使用全局的transformer编码器eg计算粗粒度的图像分块上的全局特征;局部的transformer编码器er对细粒度的图像分块抽取局部特征;往每个transformer编码器后面附加双向多级聚合解码器,得到高分辨率图像特征;通过特征融合模块将全局上下文和局部特征结合,通过决策头进行边缘预测。
技术实现思路
1、本专利技术给出一种基于transformer
2、步骤1:在第一阶段,把输入彩色图像划分为多个粗粒度区域;
3、步骤2:用全局transformer编码器来学习图像全局上下文信息。全局transformer编码器由24个transformer子编码器块连接组成。子编码器块包含一个多头自注意力操作(msa)、一个多层感知器(mlp)和两个归一化层(ln);
4、步骤3:用全局双路耦合解码器把编码的全局上下文信息生成高分辨率特征;
5、步骤4:第二阶段,通过无重叠滑动窗口对输入图像分块,将图像分成细粒度的区域集;
6、步骤5:对区域序列执行局部transformer编码器,其中局部transformer编码器采用与全局transformer编码器结构相同的12个transformer子编码器连接组成,获取局部特征;
7、步骤6:整合局部特征,并输入到局部双路耦合解码器,实现特征到像素的映射;
8、步骤7:融合全局特征和局部特征,并输入到决策头中预测物体语义边界。
9、进一步的,诉述步骤1的具体步骤如下:
10、步骤1.1:在第一阶段,输入彩色图像i,将其转化成一维向量,将输入的图像划分成k×k大的区域,得到个区域;
11、步骤1.2:通过线性投影将区域集映射到隐空间,并组合一维位置向量;
12、步骤1.3:将组合向量表示为作为编码器输入,输入到全局transformer编码器;
13、进一步的,诉述步骤2的具体步骤如下:
14、步骤2.1:输入至全局编码器eg的第一个transformer子编码器中得到
15、更进一步的,诉述步骤2.1的具体步骤如下:
16、(2.11)输入组合向量先经过归一化层,对输入值减去均值除以标准差,再进行线性映射,得到归一化后的向量
17、(2.12)将执行多头自注意力操作,多头自注意力操作对向量进行多次映射,使向量关注到来自各表示子空间的注意,在第m头中由线性映射得到的向量和需要学习的wq、wk、wv矩阵相乘得到q、k、v,由q和k计算相似度s,对s经过soffmax计算出概率p,对p进行权重加和得到attention,计算方式为所以多头自注意力机制表示为其中m为多头数量,wo为投影权重;
18、(2.13)将注意力和相加并输入归一化层以减去均值除以标准差,进行线性映射后得到结果
19、(2.14)将送入多层感知器mlp中对空间位置特征进行全局感知得结果
20、步骤2.2:由于使用24个transformer编码器块组成全局transformer编码器。经过24个连续transformer子编码器编码得到输出结果计算方式为
21、进一步的,诉述步骤3的具体步骤如下:
22、步骤3.1:在全局双路耦合解码器,采用特征从低维到高维和高维到低维方式的组合编码;
23、步骤3.2:将步骤2.2的结果分成4组,将每组的最后一个特征向量作为输入;
24、步骤3.3:把这些输入经过1×1卷积扩展为的3维特征向量;
25、步骤3.4:特征从高维到低维进行组合编码,对最高维即开始,进行3×3卷积做为重塑特征对做相同处理得
26、步骤3.5:特征从低维到高维进行组合编码,从最低层即开始,通过在多层特征上附加一个3×3卷积层,获得另外四个输出特征
27、步骤3.6:将和分别输入4×4和16×16反卷积层,得到八个上采样特征,将从高维到低维和从低维到高维的八个采样特征串接为一个张量;
28、步骤3.7:将该张量经过输入3×3卷积层和一个1×1卷积层以使得采样特征更好地连接,其中包含归一化和relu操作,得到像素级的全局特征dg表示代表全局双路耦合解码器;
29、进一步的,诉述步骤4的具体步骤如下:
30、步骤4.1:在图像i上执行大小为的非重叠滑动窗口操作,使得输入图像i划分为{i1,i2,i3,i4}的小区域;
31、步骤4.2:对于每个小图像区域,将其分成大小为的细粒度patch,并通过局部transformer编码器er计算注意力;
32、进一步的,诉述步骤5的具体步骤如下:
33、步骤5.1:将ii(1≤i≤4)划分的细粒度区域执行步骤2.2操作,对输出分为4组,取每组的i个向量;
34、进一步的,诉述步骤6的具体步骤如下:
35、步骤6.1:将步骤5.1的结果串接得向量
36、步骤6.2:将得到的结果输入局部双路耦合解码器dr中,与全局双路耦合解码器不同的是,将局部双路耦合解码器中的3×3卷积层改为1×1卷积层,避免因填充操作造成的意外边缘。生成高分辨率的局部特征
37、进一步的,诉述步骤7的具体步骤如下:
38、步骤7.1:将第一阶段得到的全局特征gf分两次经过两个3×3卷积层和一个空间特征变换模块;
39、步骤7.2:将第二阶段得到的局部特征rf与步骤7.1第一次得到的结果相融合,经过空间变换模块,再与步骤7.1得到结果相加,最后经过3×3卷积层得到融合特征;
40、步骤7.3:将融合特征输入到局部决策头hr中预测物体的语义边界分割oer。执行操作oer=hr(本文档来自技高网...
【技术保护点】
1.本专利技术给出一种基于Transformer的图像语义边界分割方法,包括全局图像上下文信息和局部细粒度线索搜索。采取的技术方案主要如下:
【技术特征摘要】
1.本发明给出一种基于transformer的图像语义边界分割方法,...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。