一种基于深度学习的场景语义分割方法技术

技术编号:27410011 阅读:40 留言:0更新日期:2021-02-21 14:24
本发明专利技术公开了一种基于深度学习的场景语义分割方法。该方法包括了训练阶段和测试阶段,在训练阶段,先使用Resnet101在COCO数据集上预训练得到预训练模型,再将预训练模型加载到构建的卷积神经网络中提取低水平特征图像,之后将低水平特征图像依次通过特征增强网络、自适应可变形空洞空间卷积池化金字塔网络和特征注意力网络进行高水平的特征提取和特征融合,最后通过上采样操作输出语义分割的Mask图,并获得卷积神经网络语义分割模型权重;在测试阶段,将PASCAL VOC 2012或者Cityscapes测试数据集输入到卷积神经网络语义分割模型权重中,得到预测的语义分割Mask图。本发明专利技术在上述方法中可以提高目标图像的边界轮廓精度和场景语义分割的准确度。和场景语义分割的准确度。和场景语义分割的准确度。

【技术实现步骤摘要】
一种基于深度学习的场景语义分割方法


[0001]本专利技术涉及一种计算机视觉技术,涉及图像语义分割领域,特别是涉及一种基于深度学习的场景语义分割方法。

技术介绍

[0002]Hinton等人在2006年提出了深度学习的基本概念,并逐步应用于计算机视觉领域,例如图像、声音和文本等领域,加快解决了计算机视觉领域复杂任务的步伐并提升了各类任务的准确度。
[0003]在图像分类任务中,通过随后几年的发展,提出像AlexNet、VGG、GoogLeNet、Resnet、Inception等一系列的经典网络,这些网络依旧活跃在现在的卷积神经网络中,例如Resnet、Inception会应用于图像分割、目标检测等任务中,以主干网络的方式提取图像的特征,方便应用于下游网络训练,一个好的主干网络也会影响整个任务的精度,因此有必要选择一个符合计算机视觉任务的主干网络。
[0004]在图像分割任务中,近几年时间里相继提出了比较经典的深度学习网络架构,例如FCN、Segnet、Unet、DeepLab系列等,这些网络的主要思想都是以一个编码-解码(encoder-decoder)的方式对目标类别进行语义分割。
[0005]语义分割是一个较为典型的计算机视觉问题,它涉及到将一些原始数据 (如图像)作为输入,并将图像自动的转换为指定突出显示的感兴趣区域的掩模。通常人们使用术语全像素语义分割(full-pixel semantic segmentation),其中图像中的每一个像素会根据所属的感兴趣区域而被自动分配到一个类别ID,最终通过设置不同颜色的Mask图呈现出来,并且语义分割可以应用的领域包括自动驾驶、医疗影像分析、服装分类、地质检测-土地使用情况等多种方向,能够提高商业价值。
[0006]现有的研究方法能够实现对目标类别的图像分割,但也存在着一些不足点,这些不足点主要体现在目标轮廓不能细致划分和识别,因此,为了对目标场景进行准确的语义分割,需要考虑到不同场景类别会有不同的形变能力,怎样对这些具有多种形变能力的图像进行较好的建模塑造,就是提升深度学习网络对场景分割的精确度的关键。

技术实现思路

[0007]针对现有技术不足的情况,本专利技术的目的在于提供一种基于深度学习的场景语义分割方法,可以有效的提高目标轮廓的识别的精度。
[0008]本专利技术采用的技术方案为:一种基于深度学习的场景语义分割方法,包括主干网络、特征增强网络(FE)、自适应可变形空洞空间卷积池化金字塔网络 (ADASP)以及特征注意力网络(FAN);
[0009]所述主干网络采用Resnet101在COCO数据集上预训练得到预训练模型,之后将预训练模型加载到主干网络中进行特征提取,得到低水平的特征图像,另外,此预训练模型包括了1个convolution层(conv1_x)、1个maxpool层、4个残差残差连接块,其中第一个残差连
接块(conv2_x)包含有3个残差块,6个1
ꢀ×
1的卷积层和3个3
×
3的卷积层,第二个残差连接块(conv3_x)包含有4个残差块,8个1
×
1的卷积层和4个3
×
3的卷积层,第三个残差连接块(conv4_x) 包含有23个残差块,46个1
×
1的卷积层和23个3
×
3的卷积层,第四个残差连接块(conv5_x)包含有3个残差块,6个1
×
1的卷积层和3个3
×
3的卷积层,最后通过平均池化层、全连接层以及softmax层输出预训练模型结果,每一个残差连接块都进行了残差连接,这样做的目的在于增强了上下文本信息,若将 Resnet101作为主干网络则去掉最后的平均池化层、全连接层以及softmax层;
[0010]所述特征增强网络能够对主干网络提取的低水平特征图像进行一定程度的细化增强,此特征增强网络包含了1个1
×
1的卷积层、1个3
×
3的自适应可变形卷积层和1个3
×
3的卷积层,每个卷积层串联,进一步增强了上下文本信息;
[0011]所述自适应可变形空洞空间卷积池化金字塔网络在ASPP的基础上增加了自适应可变形卷积,对特征增强后的特征图像进行自适应可变形的特征提取,然后将提取后的特征图像传送到拥有不同感受野的模块当中,且此模块含有不同空洞卷积率,以便进行多尺度的特征提取,确保融合了上下文本信息,最后通过一个1
×
1的卷积进行特征融合,并减少融合后的通道数,减小后面网络的计算复杂度,提高计算速度;
[0012]所述特征注意力网络是将Resnet101中低水平的特征图与经过ADASP 处理之后的高水平特征图进行逐步特征融合的过程。
[0013]为了能够进一步解决上诉的技术问题,本专利技术提供了一种基于深度学习的场景语义分割方法,所述方法步骤包括:
[0014]S1,获取目标图像;
[0015]S2,将目标图像送入主干网络Resnet101中,进行低水平特征提取,得到特征图像A1、A2、A3、A4;
[0016]S3,将特征图像A4送入特征增强网络,细化并增强一部分上下文本信息,得到特征图像B;
[0017]S4,将特征图像B送入ADASP中,得到高水平的特征图像C;
[0018]S5,将特征图像A3、B和C送入到FAN中,得到特征图像D1、D2;
[0019]S6,最后将特征图像进行上采样得到最终的Mask图。
[0020]进一步的,所述网络预设训练epoch为100-200次。
[0021]进一步的,对于所述步骤S1,有:
[0022]将训练数据集图像进行数据预处理,图像随机上下翻转、随机尺寸裁剪等一系列的数据增强操作;
[0023]进一步的,对于所述步骤S2,有:
[0024]将主干网络Resnet101经过conv2_x得到特征图像A1,conv3_x得到特征图像A2,conv4_x得到特征图像A3,conv5_x得到特征图像A4;
[0025]进一步的,对于所述步骤S3,有:
[0026]将主干网络Resnet101最后一层得到的特征图像A4送入到特征增强网络中,细化并增强一部分上下文本信息,得到特征图像B;
[0027]进一步的,对于所述步骤S4,有:
[0028]将经过特征增强网络之后的特征图像B送入到ADASP中,得到高水平的特征图像C,
其中,自适应可变形卷积(Adaptive deformable convolution)采用的卷积核为:
[0029][0030]其中用W代表加权采样之和,网格k定义采样位置,用p
k
代表采样点在自适应可变形卷积核中的位置,s
k
表示对采样点p
k
的学习因子,Δp
k
表示可学习偏移量,Δm
k
表示可调制本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度学习的场景语义分割方法,其特征在于,网络结构包括主干网络、特征增强网络(FE)、自适应可变形空洞空间卷积池化金字塔网络(ADASP)以及特征注意力网络(FAN);所述主干网络采用Resnet101在COCO数据集上预训练得到预训练模型,之后将预训练模型加载到主干网络中进行特征提取,得到低水平的特征图像,另外,此预训练模型包括了1个convolution层(conv1_x)、1个maxpool层、4个残差残差连接块,其中第一个残差连接块(conv2_x)包含有3个残差块,6个1
×
1的卷积层和3个3
×
3的卷积层,第二个残差连接块(conv3_x)包含有4个残差块,8个1
×
1的卷积层和4个3
×
3的卷积层,第三个残差连接块(conv4_x)包含有23个残差块,46个1
×
1的卷积层和23个3
×
3的卷积层,第四个残差连接块(conv5_x)包含有3个残差块,6个1
×
1的卷积层和3个3
×
3的卷积层,最后通过平均池化层、全连接层以及softmax层输出预训练模型结果,每一个残差连接块都进行了残差连接,这样做的目的在于增强了上下文本信息,若将Resnet101作为主干网络则去掉最后的平均池化层、全连接层以及softmax层;所述特征增强网络能够对主干网络提取的低水平特征图像进行一定程度的细化增强,此特征增强网络包含了1个1
×
1的卷积层、1个3
×
3的自适应可变形卷积层和1个3
×
3的卷积层,每个卷积层串联,进一步增强了上下文本信息;所述自适应可变形空洞空间卷积池化金字塔网络在ASPP的基础上增加了自适应可变形卷积,对特征增强后的特征图像进行自适应可变形的特征提取,然后将提取后的特征图像传送到拥有不同感受野的模块当中,且此模块含有不同空洞卷积率,以便进行多尺度的特征提取,确保融合了上下文本信息,最后通过一个1
×
1的卷积进行特征融合,并减少融合后的通道数,减小后面网络的计算复杂度,提高运行速度;所述特征注意力网络是将Resnet101中低水平的特征图与ADASP之后高水平的特征图进行逐步特征融合的过程。2.根据权利要求1所述的基于深度学习的场景语义分割方法,其特征在于,所述特征增强网络(FE)、自适应可变形空洞空间卷积池化金字塔网络(ADASP)以及特征注意力网络(FAN)包括一下六个步骤:S1,获取目标图像;S2,将目标图像送入主干网络Resnet101中,进行低水平特征提取,得到特征图像A1、A2、A3、A4;S3,将特征图像A4送入特征增强网络,细化并增强一部分上下文本信息,得到特征图像B;S4,将特征图像B送入ADASP中,得到高水平的特征图像C;S5,将特征图像A3、B和C送入到FAN中,得到特征图像D1、D2;S6,最后将特征图像进行上采样得到最终的Mask。3.根据权利要求2所述的基于深度学习的场景语义分割方法,其特征在于,所述具体步骤为:对于步骤S1,有:将训练数据集图像进行数据预处理,图像随机上下翻转、随机尺寸裁剪等一系列的数据增强操作;
对于步骤S2,有:将主干网络Resnet101经过conv2_x得到特征图像A1,conv3_x得到特征图像A2,conv4_x得到特征图像A3,conv5_x得到特征图像A4;对于步骤S3,有:将主干网络Resnet101最后一层得到的特征图像A4送入到特征增强网络中,细化并增强一部分上下文本信息,得到特征图像B;对于步骤S4,有:将经过特征增强网络之后的特征图像B送入到ADASP中,得到高水平的特征图像C,其中,自适应可变形卷积(Adaptive deformable convolution)采用的卷积核为:其中用W代表加权采样之和,网格k定义采样位置,用p
k
代表采样点在自适应可变形卷积核中的位置,s
k
表示对采样点p
k
的学习因子,Δp
k<...

【专利技术属性】
技术研发人员:赵成明陈金令李洁何东王熙
申请(专利权)人:西南石油大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1