一种基于多尺度注意力机制的冰下层结构提取方法技术

技术编号:29211355 阅读:33 留言:0更新日期:2021-07-10 00:48
一种基于多尺度注意力机制的冰下层结构提取方法,涉及使用计算机视觉领域。本发明专利技术提出了一种新型的MsANet网络,该网络以双分支卷积网络作为骨干网络,不仅融合了多尺度特征,且使用了3D注意力机制,以进一步对3D雷达拓扑序列中不同冰层独有的特征进行额外的特征建模,实现了对不同冰层空间关系的细化处理。3D注意力机制和多尺度模块形成的注意力多尺度模块,使得检测到的重要冰层特征可以通过利用多尺度模块得到更丰富的尺度特征,进一步加强对关键冰层特征的建模能力。本发明专利技术同时检测多个冰层位置作为不同任务,利用两分支结构分别学习不同位置冰层的独有特征,最终实现了快速、高精度的基于MsANet网络的冰下层结构提取算法。算法。算法。

【技术实现步骤摘要】
一种基于多尺度注意力机制的冰下层结构提取方法


[0001]本专利技术属于计算机视觉、模式识别与极地冰川学领域,设计一种基于MsANet网络的冰下层结构提取方法。

技术介绍

[0002]随着人民生活水平的提高与技术的发展,对智能分析、制造的期望和需求愈加强烈。其中主要涉及到的大数据分析与人工智能受到了广泛关注。现在,人工智能与不同领域的结合是一个正在不断探索的、具有重要意义的方向。极地冰川学作为一项地理观测和建模演绎的复杂学科,对人类的生产生活、全球气候研究具有极大的意义。为进一步促进对极地冰川的研究,可以从自动化处理冰盖雷达拓扑序列中开始着手。由于手工处理的冰盖雷达图效率低,且手工设计特征的方法过程复杂、效率差,并不适合处理大型数据集。因此,将对极地冰盖雷达图的分析与人工智能相交融具有非常重要的应用意义,诸多国内外极地研究机构都对此方向贡献出诸多的研究投入。在这其中,机器学习是将人工智能变为现实的重要方法,运用机器学习的算法,将收集到的数据加以分析与整理,并建立对应的模型,从而实现自动的分析过程。如果,构建一些能够辅助冰川学家进行冰盖雷达图的分析的系统,实现对冰盖雷达图的自动冰川提取和简单的常规分析,那么在极大方便冰川学家利用提取的极地冰盖数据进行进一步的研究同时,也可以一定程度上避免对极地冰盖下冰层的错误提取的现象。
[0003]极地冰盖下冰层提取主要为极地冰盖的分析、冰川模型的建模进行数据准备。可从提取的冰下层结构直接推导出冰层厚度,再结合之前的冰厚数据,可以进行对冰盖质量变化的估计。利用提取的冰层数据建立的冰川建模可以进一步观测气候变化等与人类生活息息相关的因素。对极地冰盖分析通常通过冰盖雷达图进行,在冰盖雷达图上通常会存在大量的噪声等因素的干扰,尤其是在跨轨方向的雷达拓扑切片受噪声干扰更为严重。而跨轨方向上的冰盖雷达图能更全面、更准确的描述冰盖下地形特征。因此,对冰盖雷达拓扑切片的分析任务更具有挑战和意义。为此,我们设计了本自动分析、提取冰下层结构的提取方法,以希望帮助极地冰盖研究者能快速、准确的提取冰下层结构,实现对冰盖雷达图的初步分析。

技术实现思路

[0004]目前,在此领域的利用深度学习进行的相关工作还相对较少,为此,本专利技术提出了一个轻量、高精度的基于多尺度注意力机制(MsANet)的冰下层结构提取算法。在3D卷积网络中加入多尺度模块与注意力模块,这种结构不仅可以增强网络对输入数据的多尺度特征的表达能力,同时又可以通过注意力模块增强对输入的冰盖雷达拓扑切片的重要冰层结构特征的建模能力。本专利技术提出的MsANet网络对冰盖雷达拓扑序列这类具有一定的空间

序列特征的数据具有良好的建模作用,可以较为快速、准确的从中提取出冰表面层和冰基岩层。
[0005]本专利技术提出的一种轻量、高精度的基于MsANet的冰下层结构提取算法,总体思路是对几帧连续的雷达拓扑切片作为一组输入,以包含一定的空间

序列关系,然后将数据输入到设计的网络中进行训练,期望建立一个能够良好捕获冰层空间和序列间关系的模型;在测试时,网络利用已经建立的冰盖地形的空间

序列特征的特征关系,会直接输出对输入的测试数据的冰层结构的提取结果。方法主要包括以下特征:
[0006](1)新设计的MsANet网络
[0007]具体提出的网络搭建结构如下:
[0008]MsANet由三个部分组成:低级特征提取阶段,高级特征提取阶段和分类阶段。低级特征提取阶段的特征在于通过一个卷积层结构和多尺度模块完成对输入冰下层结构的通用低级特征的多尺度表示,以供为后续提取冰层结构的高级特征做准备;高级特征提取阶段利用含有卷积层、注意力模块和多尺度模块的两路分支结构以分别学习冰表面层和冰基岩层独有的可区别特征;分类阶段利用上述提取到的高级特征进行组合分类,以对目标冰层结构的位置进行准确预测提取。在特征提取阶段,除第一个块外,均引入了多尺度模块,以进行对冰层特征的多尺度表示,增强网络对冰层特征的表示能力。在高级特征提取阶段,在卷积层之后引入的注意力多尺度模块,先利用注意力机制捕获冰下层结构的重要特征,然后再送入多尺度模块,增强对重要的冰层特征的多尺度表示,提高对冰下层结构的空间

序列关系的建模能力。综上所述,我们设计的MsANet是一个能够对多尺度特征进行捕获并加强对序列特征的提取和融合的网络结构。
[0009]其中多尺度模块由三条支路组成,三条支路上分别存在一个不同尺度大小的卷积滤波器,其中卷积核大于3的卷积滤波器进行分解,以减少网络参数量。紧接着,三条支路输出的多尺度特征被级联在一起,以最大程度保留学习的多尺度特征。然后,依次送入瓶颈单元和池化层分别得到对通道间和空间特征的下采样。
[0010]其中注意力模块分为两个子模块,分别为3D位置注意力模块和3D通道注意力模块。3D位置注意力模块着重关注于冰层特征的空间位置关系,在全局空间中的整合相似特征,而3D通道注意力模块着重关注于冰层特征通道之间的关联,以增强通道下特定语义响应能力。通过3D位置注意力模块和3D通道注意力模块从不同角度对冰下层结构的特征进行建模和融合,以达到对冰下层结构特征更准确的建模。(3)使用MsANet网络实现冰下层结构提取的过程
[0011]训练时的特征:
[0012]我们输入到MsANet的数据是连续的T帧的雷达拓扑图;以实际的第个拓扑切片作为地面真值,将地面真值与网络提取得到的冰层位置输入到损失函数中进行网络参数的优化,并使用了指数型变化的学习率以更好的匹配网络的学习速度,从而进一步优化预测过程,提高检测结果。
[0013]提取时的特征:
[0014]测试集也采用同样的T帧连续的雷达拓扑切片作为一组输入送入到已经训练好的网络中,最终得到每一帧的预测图片。
[0015]检测提取的特征:
[0016]将预测冰层位置与原始拓扑切片的地面真值输入到使用的平均像素误差评价指标上,以判断提取的冰层位置与实际标注的结果的平均差值。
[0017]有益效果
[0018]1、本专利技术利用MsANet网络实现了冰下层结构提取
[0019]据我们所知,这是现有的第一项将深度学习技术中的多尺度方法和注意力机制用于冰下层结构的提取的专利技术。本专利技术提出利用MsANet网络实现从雷达拓扑切片中的冰下层结构的提取,进一步实现了对冰盖雷达图的初步简单分析。
[0020]2、本专利技术对从雷达拓扑切片中提取冰下层结构首次引入了多尺度模块以增强网络的特征提取能力
[0021]由于雷达拓扑切片中存在较大的噪声干扰,冰表面层和冰基岩层的位置不易于直接提取,需要通过两冰层间的空间信息和序列信息的结合以进行精确的判断。为充分提取冰层结构的空间特征和序列特征,需要充分考虑帧内不同位置的空间信息和帧间的序列信息。为此,引入了多尺度模块增强网络的基本特征提取能力,丰富了冰盖雷达图的多尺度特征表示。并且,多尺度模块同时考虑了特征的空间特征和序列特征,使两方面特征相结合本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多尺度注意力机制的冰下层结构提取方法,其特征在于,提出的网络搭建结构如下:MsANet由三个部分组成:低级特征提取阶段,高级特征提取阶段和分类阶段;低级特征提取阶段的特征在于通过一个卷积层结构和多尺度模块完成对输入冰下层结构的通用低级特征的多尺度表示,以供为后续提取冰层结构的高级特征做准备;高级特征提取阶段利用含有卷积层、注意力模块和多尺度模块的两路分支结构以分别学习冰表面层和冰基岩层独有的可区别特征;分类阶段利用上述提取到的高级特征进行组合分类,以对目标冰层结构的位置进行准确预测提取;在特征提取阶段,除第一个块外,均引入了多尺度模块,以进行对冰层特征的多尺度表示,增强网络对冰层特征的表示能力;在高级特征提取阶段,在卷积层之后引入的注意力多尺度模块,先利用注意力机制捕获冰下层结构的重要特征,然后再送入多尺度模块,增强对重要的冰层特征的多尺度表示,提高对冰下层结构的空间

序列关系的建模能力;其中多尺度模块由三条支路组成,三条支路上分别存在一个不同尺度大小的卷积滤波器,其中卷积核大于3的卷积滤波器进行分解,以减少网络参数量;紧接着,三条支路输出的多尺度特征被级联在一起,以最大程度保留学习的多尺度特征;然后,依次送入瓶颈单元和池化层分别得到对通道间和空间特征的下采样;其中注意力模块分为两个子模块,分别为3D位置注意力模块和3D通道注意力模块;3D位置注意力模块着重关注于冰层特征的空间位置关系,在全局空间中的整合相似特征,而3D通道注意力模块着重关注于冰层特征通道之间的关联,以增强通道下特定语义响应能力;使用MsANet网络实现冰下层结构提取的过程训练时的特征:输入到MsANet的数据是连续的T帧的雷达拓扑图;以实际的第个拓扑切片作为地面真值,将地面真值与网络提取得到的冰层位置输入到损失函数中进行网络参数的优化,并使用了指数型变化的学习率以更好的匹配网络的学习速度。2.根据权利要求1所述的方法,其特征在于,输入数据处理具体为:将连续的T帧的雷达拓扑序列按顺序排列,这里T取5,得到形如1
×5×
64
×
64大小,即通道数
×
切片数
×
雷达切片图的高
×
雷达切片图的宽的数据准备输入网络中。3.根据权利要求1所述的方法,其特征在于,构建MsANet网络具体为:所构造的MsANet网络的各层具体参数如下:

块1:3D卷积单元、3D批归一化层、Relu激活函数和混合池化层依次按顺序排列;3D卷积单元:输入尺寸为5
×
64
×
64,输入通道数为1,卷积核为3
×5×
3,步长为1,边缘填充方式为“零填充”,输出尺寸为5
×
64
×
64,输出通道数为16;混合池化层结合了最大池化层和平均池化层,混合池化层的结果为这两个池化层结果之和;混合池化层:输入尺寸5
×
64
×
64,输入通道数为16,池化核为1
×2×
2,边缘填充方式为“零填充”,输出尺寸为5
×
32
×
32,输出通道数为16;

块2:3D卷积单元、3D批归一化层、Relu激活函数和多尺度模块依次按顺序排列;3D卷积单元:输入尺寸为5
×
32
×
32,输入通道数为16,卷积核为3
×5×
3,步长为1,边缘填充方式为“零填充”,输出尺寸为5
×
32
×
32,输出通道数为32;多尺度模块:输入尺寸为5
×
32
×
32,输入通道数为32,池化核为1
×2×
2,经过三个支路的多尺度学习和下采样后,输出尺寸为5
×
16
×
16,输出通道数为32;

块3a、块3b:从块3开始,分为两个支路a、b以分别学习冰表面层和冰基岩层的特征;在块3中,三组3D卷积操作、注意力模块和多尺度模块依次按顺序排列;3D卷积单元、3D批归一化层、Relu激活函数为一组3D卷积操作;第一组3D卷积操作中的3D卷积单元:输入尺寸为5
×
16
×
16,输入通道数为32,卷积核为3
×5×
3,步长为1,边缘填充方式为“零填充”,输出尺寸为5
×
16
×
16,输出通道数为64;第二、三组3D卷积操作中的3D卷积单元:输入尺寸为5
×
16
×
16,输入通道数为64,卷积核为3
×5×
3,步长为1,边缘填充方式为“零填充”,输出尺寸为5
×
16
×
16,输出通道数为64;注意力模块:输入尺寸为5
×
16
×
16,输入通道数为64,经过3D位置注意力模块和3D通道注意力模块后通过融合,输出尺寸为5
×
16
×
16,输出通道数为64;多尺度模块:输入尺寸为5
×
16
×
16,输入通道数为64,池化核为1
×2×
2,经过三个支路的多尺度学习和下采样后,输出尺寸为5
×8×
8,输出通道数为64;

块4a、块4b:在块4中,三组3D卷积操作、注意力模块和多尺度模块依次按顺序排列;3D卷积单元、3D批归一化层、Relu激活函数为一组3D卷积操作;第一组3D卷积操作中的3D卷积单元:输入尺寸为5
×8×
8,输入通道数为64,卷积核为3
×5×
3,步长为1,边缘填充方式为“零填充”,输出尺寸为5
×8×
8,输出通道数为128;第二、三组3D卷积操作中的3D卷积单元:输入尺寸为5
×8×
8,输入通道数为128,卷积核为3
×5×
3,步长为1,边缘填充方式为“零填充”,输出尺寸为5
×8×
8,输出通道数为128;注意力模块:输入尺寸为5
×8×
8,输入通道数为128,经过3D位置注意力模块和3D通道注意力模块后通过融合,输出尺寸为5
×8×
8,输出通道数为128;多尺度模块:输入尺寸为5
×8×
8,输入通道数为128,池化核为5
×2×
2,经过三个支路的多尺度学习和下采样后,输出尺寸为1
×4×
4,输出通道数为128;

块5a、块5b:3D卷积单元、Relu激活函数、维度重塑和全连接层依次使用;3D卷积单元:输入尺寸为1
×4×
4,输入通道数为128,卷积核为1
×4×
4,步长为1,无边缘填充,输出尺寸为1
×1×
1,输出通道数为256;维度重塑:输入尺寸为1
×1×
1,通道数256,将此4维数据将至1维,得到输出尺寸为256;全连接层:输入尺寸为256,输出尺寸为64。4.根据权利要求1所述的方法,其特征在于,所构造的多尺度模块结构的各层具体参数如下:

I1支路:由1个3D卷积单元、3D批归一化层和Relu激活函数组成,输入尺寸为D
×
H
×
W,输入通道数为C,卷积核为1
×1×
1,步长为1,无边缘填充,输出尺寸为D
×
H
×
W,输出通道数C;

I2支路:由1个3D卷积单元、3D批归一化层和Relu激活函数组成,输入尺寸为D
×
H
×
W,输入通道数为C,卷积核为3
×3×
3,步长为1,边缘填充方式为“零填充”,输出尺寸为D
×
H
×
W,输出通道数C;

I3支路:由两组1个3D卷积单元、3D批归一化层和Relu激活函数组成;第一组3D卷积核:输入尺寸为D
×
H
×
W,输入通道数为C,卷积核分3
×3...

【专利技术属性】
技术研发人员:蔡轶珩刘丹谢锦杨静贤
申请(专利权)人:北京工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1