基于注意力引导的多尺度上下文信息交互的语义分割方法技术

技术编号:35060271 阅读:80 留言:0更新日期:2022-09-28 11:12
本发明专利技术公开了一种基于注意力引导的多尺度上下文信息交互的语义分割方法,首先将公共数据集CamVid中所有图像数据划分为训练集、验证集及测试集,然后对训练集的所有图像数据进行数据增强和预处理操作;使用残差结构构造ResNet50网络模型;使用注意力机制和深度可分离卷积构造注意力引导模块,使用全局平均池化构造池化单元;将城市场景图像上采样二倍和下采样二倍,然后使用ResNet50模型提取深度特征,最后提取图像的多尺度特征;最终输出语义分割的结果。本发明专利技术解决了现有技术中存在的街道场景语义分割中的多尺度分割受限和单一的串行连接导致的类内分割不一致问题。串行连接导致的类内分割不一致问题。串行连接导致的类内分割不一致问题。

【技术实现步骤摘要】
基于注意力引导的多尺度上下文信息交互的语义分割方法


[0001]本专利技术属于数字图像处理
,具体涉及一种基于注意力引导的多尺度上下文信息交互的语义分割方法。

技术介绍

[0002]图像语义分割的研究目标是获取图像中的每个像素的类别标签,它是场景理解的先验任务,而场景理解则是基于分割,获取图像内所有像素的类别标签。面向街道场景的图像语义分割在智能驾驶、智慧交管等领域都表现出极其重要的应用价值。基于深度学习的语义分割只需要输入数据,就可以通过输入和输出的非线性映射与反向传播机制自动提取图像中的各层特征,通过网络学习到的特征表达能力更强。图像中从底层特征到高层特征的所有特征都利于语义分割,但是深度学习方法受限于模型深度,因此同时提取边缘信息和强结构信息比较困难,提取特征时难免顾此失彼,尤其使在面向街道场景的语义分割中出现小尺度目标丢失、相似性目标难以精准分割的问题。

技术实现思路

[0003]本专利技术的目的是提供一种基于注意力引导的多尺度上下文信息交互的语义分割方法,解决了现有技术中存在的街道场景语义分割中的多尺度分割受限和单一的串行连接导致的类内分割不一致问题。
[0004]本专利技术所采用的技术方案是,基于注意力引导的多尺度上下文信息交互的语义分割方法,具体按照以下步骤实施:
[0005]步骤1、将公共数据集CamVid中所有图像数据划分为训练集、验证集及测试集,然后对训练集的所有图像数据进行数据增强和预处理操作;
[0006]步骤2、使用残差结构构造ResNet50网络模型;使用注意力机制和深度可分离卷积构造注意力引导模块,使用全局平均池化构造池化单元;
[0007]步骤3、首先将城市场景图像S1上采样二倍和下采样二倍,得到图像S2和S3,然后使用ResNet50模型提取S1,S2,S3的深度特征,记为S1′
,S2′
,S3′
,提取S1的第三层特征记为S
l
,最后使用基于注意力引导的多尺度交互编码网络提取图像的多尺度特征F
S

[0008]步骤4、将多尺度特征F
S
与S1的第三层特S
l
依次进行拼接、卷积和四倍上采样积操作,逐渐恢复图像分辨率,最终输出语义分割的结果;
[0009]步骤5、使用训练集和验证集对模型进行训练,在测试集上验证模型的分割效果。
[0010]本专利技术的特点还在于,
[0011]步骤1具体按照以下步骤实施:
[0012]步骤1.1、将CamVid数据集的图像数据按照4∶1∶3的比例划分为训练集、验证集及测试集;
[0013]步骤1.2、对于验证集和测试集的所有图像数据首先使用随机裁剪和随机旋转的方法进行数据增强,然后缩使用双线性插值对图像预处理,将图像缩放到513
×
513像素。
[0014]步骤2具体按照以下步骤实施:
[0015]步骤2.1、构造残差模块:首先使用64个1
×
1的卷积和ReLU函数降维,然后使用3
×
3的卷积和ReLU函数提取特征,最后使用256个1
×
1的卷积和ReLU函数恢复维度;
[0016]步骤2.2、ResNet50的结构表,首先使用64个7
×
7、步长为2的卷积提取特征,然后使用16个残差模块,其中残差结构使特征矩阵隔层相加;
[0017]步骤2.3、使用深度卷积单元和注意力头单元构造注意力引导模块,深度卷积单元首先使用全局平均池化层提取ResNet50输出特征图x的通道维的平均值x',然后使用两组深度可分离卷积单元提取x'的深度特征x”,深度可分离卷积单元的组成依次为3
×
3逐深度卷积层、批归一化层、ReLU激活层、3
×
3逐点卷积层、批归一化层、ReLU激活层,最后对x”使用二倍上采样得到特征x”';
[0018]步骤2.4、注意力引导模块中的注意力头单元首先使用两组注意模块计算x'的通道注意力图y,注意模块组成为3
×
3卷积层、批归一化层、ReLU激活层,然后对通道注意力图y使用1
×
1卷积和Sigmoid激活得到特征y',最后将特征y'和步骤2.3中的特征x”逐元素相乘得到注意力引导模块的输出特征;
[0019]步骤2.5、构造池化单元,对输入的特征图x依次使用全局平均池化、1
×
1卷积、批归一化、ReLU激活得到输出特征图x
g

[0020]步骤2.1、2.3、2.4、2.5中,ReLU激活函数的定义如公式(1)所示:
[0021]ReLU(x)=max(0,x)
ꢀꢀꢀꢀꢀꢀꢀꢀ
(1)
[0022]其中,x表示输入数据,max()函数返回输入数据中的最大值;
[0023]步骤2.4中Sigmoid激活函数定义如式(2)
[0024][0025]其中,x表示输入数据。
[0026]步骤3具体如下:
[0027]步骤3.1、首先将城市场景图像S1上采样二倍和下采样二倍,得到图像S2和S3;然后使用ResNet50模型提取S1,S2,S3的深度特征,记为S'1,S'2,S'3,提取S1的第三层特征记为S
l
;最后对深度特征S'1使用池化单元得到特征S
g

[0028]步骤3.2、将深度特征S'1,S'2,S'3分别使用所述步骤2的注意力引导模块计算通道注意力权重,得到特征S”1
,S”2
,S”3
;然后将特征S
g
与特征S”3
逐元素相加得到特征S
3_1
,将特征S
3_1
与特征S”1
逐元素相加得到特征S
1_1
,最后将S
1_1
与S”2
逐元素相加得到多尺度特征F
S

[0029]步骤4具体如下:
[0030]首先将多尺度特征F
S
与城市场景图像S1的第三层特征S
l
按照通道维度拼接得到特征F
s
',然后对特征F
s
'使用3
×
3卷积和四倍上采样得到语义分割的结果。
[0031]步骤5具体如下:
[0032]使用CamVid数据集的训练集的图像数据训练模型,共训练110100次,每训练367次使用平均交并比mIoU评估验证集的精度;训练模型使用交叉熵损失函数L
ce
,初始学习率设置为0.0005,采用多项式衰减策略。经过训练,本方法在Cityscapes测试集上的平均交并比为74.02%。
[0033]步骤5中,交叉熵损失函数L
ce
的定义如式(3):
[0034][0035]其中,N表示类别总数12;n表本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于注意力引导的多尺度上下文信息交互的语义分割方法,其特征在于,具体按照以下步骤实施:步骤1、将公共数据集CamVid中所有图像数据划分为训练集、验证集及测试集,然后对训练集的所有图像数据进行数据增强和预处理操作;步骤2、使用残差结构构造ResNet50网络模型;使用注意力机制和深度可分离卷积构造注意力引导模块,使用全局平均池化构造池化单元;步骤3、首先将城市场景图像S1上采样二倍和下采样二倍,得到图像S2和S3,然后使用ResNet50模型提取S1,S2,S3的深度特征,记为S1',S2',S3',提取S1的第三层特征记为S
l
,最后使用基于注意力引导的多尺度交互编码网络提取图像的多尺度特征F
S
;步骤4、将多尺度特征F
S
与S1的第三层特S
l
依次进行拼接、卷积和四倍上采样积操作,逐渐恢复图像分辨率,最终输出语义分割的结果;步骤5、使用训练集和验证集对模型进行训练,在测试集上验证模型的分割效果。2.根据权利要求1所述的基于注意力引导的多尺度上下文信息交互的语义分割方法,其特征在于,所述步骤1具体按照以下步骤实施:步骤1.1、将CamVid数据集的图像数据按照4:1:3的比例划分为训练集、验证集及测试集;步骤1.2、对于验证集和测试集的所有图像数据首先使用随机裁剪和随机旋转的方法进行数据增强,然后缩使用双线性插值对图像预处理,将图像缩放到513
×
513像素。3.根据权利要求2所述的基于注意力引导的多尺度上下文信息交互的语义分割方法,其特征在于,所述步骤2具体按照以下步骤实施:步骤2.1、构造残差模块:首先使用64个1
×
1的卷积和ReLU函数降维,然后使用3
×
3的卷积和ReLU函数提取特征,最后使用256个1
×
1的卷积和ReLU函数恢复维度;步骤2.2、ResNet50的结构表,首先使用64个7
×
7、步长为2的卷积提取特征,然后使用16个残差模块,其中残差结构使特征矩阵隔层相加;步骤2.3、使用深度卷积单元和注意力头单元构造注意力引导模块,深度卷积单元首先使用全局平均池化层提取ResNet50输出特征图x的通道维的平均值x',然后使用两组深度可分离卷积单元提取x'的深度特征x”,深度可分离卷积单元的组成依次为3
×
3逐深度卷积层、批归一化层、ReLU激活层、3
×
3逐点卷积层、批归一化层、ReLU激活层,最后对x”使用二倍上采样得到特征x”';步骤2.4、注意力引导模块中的注意力头单元首先使用两组注意模块计算x'的通道注意力图y,注意模块组成为3
×
3卷积层、批归一化层、ReLU激活层,然后对通道注意力图y使用1
×
1卷积和Sigmoid激活得到特征y',最后将特征y'和步骤2.3中的特征x”逐元素相乘得到注意力引导模块的输出特征;步骤2.5、构造池化单元,对输入的特征图x依次使用全局平均池化、1
×
1卷积、批归一化、ReLU...

【专利技术属性】
技术研发人员:赵明华郅宇星李军怀都双丽胡静石程尤珍臻王琳
申请(专利权)人:西安理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1