【技术实现步骤摘要】
基于注意力引导的多尺度上下文信息交互的语义分割方法
[0001]本专利技术属于数字图像处理
,具体涉及一种基于注意力引导的多尺度上下文信息交互的语义分割方法。
技术介绍
[0002]图像语义分割的研究目标是获取图像中的每个像素的类别标签,它是场景理解的先验任务,而场景理解则是基于分割,获取图像内所有像素的类别标签。面向街道场景的图像语义分割在智能驾驶、智慧交管等领域都表现出极其重要的应用价值。基于深度学习的语义分割只需要输入数据,就可以通过输入和输出的非线性映射与反向传播机制自动提取图像中的各层特征,通过网络学习到的特征表达能力更强。图像中从底层特征到高层特征的所有特征都利于语义分割,但是深度学习方法受限于模型深度,因此同时提取边缘信息和强结构信息比较困难,提取特征时难免顾此失彼,尤其使在面向街道场景的语义分割中出现小尺度目标丢失、相似性目标难以精准分割的问题。
技术实现思路
[0003]本专利技术的目的是提供一种基于注意力引导的多尺度上下文信息交互的语义分割方法,解决了现有技术中存在的街道场景语义分割中的多尺度分割受限和单一的串行连接导致的类内分割不一致问题。
[0004]本专利技术所采用的技术方案是,基于注意力引导的多尺度上下文信息交互的语义分割方法,具体按照以下步骤实施:
[0005]步骤1、将公共数据集CamVid中所有图像数据划分为训练集、验证集及测试集,然后对训练集的所有图像数据进行数据增强和预处理操作;
[0006]步骤2、使用残差结构构造ResNet50网 ...
【技术保护点】
【技术特征摘要】
1.基于注意力引导的多尺度上下文信息交互的语义分割方法,其特征在于,具体按照以下步骤实施:步骤1、将公共数据集CamVid中所有图像数据划分为训练集、验证集及测试集,然后对训练集的所有图像数据进行数据增强和预处理操作;步骤2、使用残差结构构造ResNet50网络模型;使用注意力机制和深度可分离卷积构造注意力引导模块,使用全局平均池化构造池化单元;步骤3、首先将城市场景图像S1上采样二倍和下采样二倍,得到图像S2和S3,然后使用ResNet50模型提取S1,S2,S3的深度特征,记为S1',S2',S3',提取S1的第三层特征记为S
l
,最后使用基于注意力引导的多尺度交互编码网络提取图像的多尺度特征F
S
;步骤4、将多尺度特征F
S
与S1的第三层特S
l
依次进行拼接、卷积和四倍上采样积操作,逐渐恢复图像分辨率,最终输出语义分割的结果;步骤5、使用训练集和验证集对模型进行训练,在测试集上验证模型的分割效果。2.根据权利要求1所述的基于注意力引导的多尺度上下文信息交互的语义分割方法,其特征在于,所述步骤1具体按照以下步骤实施:步骤1.1、将CamVid数据集的图像数据按照4:1:3的比例划分为训练集、验证集及测试集;步骤1.2、对于验证集和测试集的所有图像数据首先使用随机裁剪和随机旋转的方法进行数据增强,然后缩使用双线性插值对图像预处理,将图像缩放到513
×
513像素。3.根据权利要求2所述的基于注意力引导的多尺度上下文信息交互的语义分割方法,其特征在于,所述步骤2具体按照以下步骤实施:步骤2.1、构造残差模块:首先使用64个1
×
1的卷积和ReLU函数降维,然后使用3
×
3的卷积和ReLU函数提取特征,最后使用256个1
×
1的卷积和ReLU函数恢复维度;步骤2.2、ResNet50的结构表,首先使用64个7
×
7、步长为2的卷积提取特征,然后使用16个残差模块,其中残差结构使特征矩阵隔层相加;步骤2.3、使用深度卷积单元和注意力头单元构造注意力引导模块,深度卷积单元首先使用全局平均池化层提取ResNet50输出特征图x的通道维的平均值x',然后使用两组深度可分离卷积单元提取x'的深度特征x”,深度可分离卷积单元的组成依次为3
×
3逐深度卷积层、批归一化层、ReLU激活层、3
×
3逐点卷积层、批归一化层、ReLU激活层,最后对x”使用二倍上采样得到特征x”';步骤2.4、注意力引导模块中的注意力头单元首先使用两组注意模块计算x'的通道注意力图y,注意模块组成为3
×
3卷积层、批归一化层、ReLU激活层,然后对通道注意力图y使用1
×
1卷积和Sigmoid激活得到特征y',最后将特征y'和步骤2.3中的特征x”逐元素相乘得到注意力引导模块的输出特征;步骤2.5、构造池化单元,对输入的特征图x依次使用全局平均池化、1
×
1卷积、批归一化、ReLU...
【专利技术属性】
技术研发人员:赵明华,郅宇星,李军怀,都双丽,胡静,石程,尤珍臻,王琳,
申请(专利权)人:西安理工大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。