当前位置: 首页 > 专利查询>厦门大学专利>正文

一种基于深度学习的实时高性能街景图像语义分割方法技术

技术编号:22001328 阅读:53 留言:0更新日期:2019-08-31 05:41
一种基于深度学习的实时高性能街景图像语义分割方法。准备街景图像训练、验证和测试数据集;对数据集图像进行下采样,减小图像的分辨率;对现有的轻量级分类网络进行改造作为语义分割的基础特征提取网络;在基础特征提取网络后串联一个鉴别性孔洞空间金字塔池化用于解决语义分割的多尺度问题;将若干个卷积层堆叠,形成浅层的空间信息保存网络;使用特征融合网络将得到的特征图进行融合形成预测结果;将输出图像与数据集中的语义标注图像进行对比,利用反向传播算法进行端到端的训练,得到实时高性能街景图像语义分割网络模型;将待测试的街景图像输入实时高性能街景图像语义分割网络模型中得到街景图像的语义分割结果。

A Real-time and High Performance Street Scene Image Semantic Segmentation Method Based on Deep Learning

【技术实现步骤摘要】
一种基于深度学习的实时高性能街景图像语义分割方法
本专利技术涉及计算机视觉技术,尤其是涉及一种基于深度学习的实时高性能街景图像语义分割方法。
技术介绍
语义分割属于场景理解的任务之一,它提供详细的像素级别分类,是计算机视觉领域一个非常基础但是又非常具有挑战性的任务。语义分割可以被广泛的应用在各种现实场景中,比如无人驾驶、机器人或者增强现实等,这些应用对语义分割算法有着强烈的需求。早期的语义分割使用的是基于手工特征的方法,比如随机森林等,但是这些方法的效果并不理想。近年来,随着深度学习技术的不断发展,深度卷积神经网络被广泛的用于各种计算机视觉任务中,比如图像分类、目标跟踪等,并且取得了非常好的效果。在FCN方法(J.Long,E.Shelhamer,andT.Darrell,“Fullyconvolutionalnetworksforsemanticsegmentation,”inProc.IEEEConf.Comput.Vis.PatternRecognit.(CVPR),Jun.2015,3431–3440.)(它将深度卷积神经网络的全连接层全部用卷积层来代替)第一次将深度学习引入到语义分割之后,深度卷积神经网络开始成为解决语义分割问题的首选方法。得益于深度学习技术,语义分割在最近几年取得了非常巨大的进步,它在各大数据集上都达到了非常好的分割效果,比如著名的Deeplabv3+(L.-C.Chen,Y.Zhu,G.Papandreou,F.Schroff,andH.Adam,“Encoder-decoderwithatrousseparableconvolutionforsemanticimagesegmentation,”inProc.Eur.Conf.Comput.Vis.(ECCV),Sep.2018,pp.833–851.)和PSPNet(H.Zhao,J.Shi,X.Qi,X.Wang,andJ.Jia,“Pyramidsceneparsingnetwork,”inProc.IEEEConf.Comput.Vis.PatternRecognit.(CVPR),Jun.2017,2881–2890.)在街景图像理解数据集Cityscapes上分别达到了82+%和81+%的mIoU。但是这些高性能的语义分割算法是建立在大量的操作、计算量和内存消耗基础上,他们严重依赖于复杂的网络模型,比如VGG(K.SimonyanandA.Zisserman,“Verydeepconvolutionalnetworksforlarge-scaleimagerecognition,”inProc.Int.Conf.Learn.Representations,May.2015.)或者Resnet(K.He,X.Zhang,S.Ren,andJ.Sun,“Deepresiduallearningforimagerecognition,”inProc.IEEEConf.Comput.Vis.PatternRecognit.(CVPR),Jun.2016,770–778)等网络。这些网络往往会产生大量的参数和消耗非常多的运行时间,只考虑分割精度而不考虑时间消耗的做法导致他们缺乏良好的实用性。而许多现实中的实际应用对时间很敏感,他们要求语义分割算法拥有实时的处理速度和快速的交互、响应,对这些应用来说速度和精度是同样重要的,特别是对于计算资源有限的平台或者是像街景这样复杂的应用场景。与单纯追求高精度的语义分割相反,研究怎么样使语义分割运行得更快的同时还不会牺牲太多的精度仍然还很滞后。目前改进计算有效性的工作主要聚焦在图像分类和目标跟踪两个方面,针对快速语义分割的研究还比较少。实时高性能语义分割算法对能否将语义分割真正落地到实际应用上起到了至关重要的作用。
技术实现思路
本专利技术的目的在于提供不仅拥有实时的处理速度,还具有比较高的精度,在街景图像语义分割的速度和精度之间达到很好平衡的一种基于深度学习的实时高性能街景图像语义分割方法。本专利技术包括以下步骤:1)准备街景图像训练、验证和测试数据集;2)对步骤1)中的数据集图像进行下采样,减小图像的分辨率;3)对现有的轻量级分类网络进行改造作为语义分割的基础特征提取网络;4)在步骤3)中得到的基础特征提取网络后串联一个鉴别性孔洞空间金字塔池化用于解决语义分割的多尺度问题;5)将若干个卷积层堆叠,形成一个浅层的空间信息保存网络;6)使用专门设计的特征融合网络将步骤4)和步骤5)中得到的特征图进行融合形成预测结果;7)将步骤6)的输出图像与数据集中的语义标注图像进行对比,利用反向传播算法进行端到端的训练,得到实时高性能街景图像语义分割网络模型;8)将待测试的街景图像输入步骤7)的实时高性能街景图像语义分割网络模型中得到街景图像的语义分割结果。在步骤1)中,所述数据集可为著名的公开数据集Cityscapes,所述数据集Cityscapes是一个带有逐像素语义标注的大型街景图像理解数据集,标注包含30个语义类;数据集Cityscapes由5000张带有精细标注和20000张带有粗糙标注的高分辨率街景图像组成,每张图像的分辨率为1024×2048,这些图像来自于50个不同的城市,是在不同的季节和变化的场景下拍摄的,使用5000张带有精细标注的街景图像,这部分数据集被划分成训练、验证和测试集三个部分,分别带有2975、500和1525张图片,而且只使用19个常见的语义类作为分割对象,包括road、sidewalk、building、wall、fence、pole、trafficlight、trafficsign、vegetation、terrain、sky、person、rider、car、truck、bus、train、motorcycle和bicycle。在步骤2)中,所述对步骤1)中的数据集图像进行下采样的具体方法可为:Cityscapes数据集的图像分辨率为1024×2048,由于处理大分辨率的图像将严重影响语义分割网络的运行速度,因此首先对输入图像进行下采样来缩小图像的分辨率,从而加速网络的运行速度;但是,图像的分辨率也不能太小,太小的图像会丢失许多细节信息影响语义分割的精度,具体来说,对于训练和验证过程将图像的分辨率缩小到448×896,对于测试过程将图像的分辨率缩小到400×800。在步骤3)中,所述现有的轻量级分类网络可采用谷歌最新发布的MobilenetV2轻量级分类网络作为改造对象,具有速度快、模型小、精度高等特点,MobilenetV2依次由1个3×3的conv2d操作、17个bottleneck操作、1个1×1的conv2d操作、1个7×7的avgpool操作和1个1×1的conv2d操作组成,其中conv2d表示标准的卷积操作,而bottleneck表示由1个1×1的卷积层、一个3×3的逐深度可分离卷积层和一个1×1的卷积层组成的模块,avgpool表示平均池化操作;因为MobilenetV2是一个图像分类网络,不断地减小特征图的分辨率,最后一个bottleneck块输出的特征图尺寸只有原始输入图像的32分之一,网络的最终输出将是一个概率向量;语义分割是一个图像到图本文档来自技高网
...

【技术保护点】
1.一种基于深度学习的实时高性能街景图像语义分割方法,其特征在于包括以下步骤:1)准备街景图像训练、验证和测试数据集;2)对步骤1)中的数据集图像进行下采样,减小图像的分辨率;3)对现有的轻量级分类网络进行改造作为语义分割的基础特征提取网络;4)在步骤3)中得到的基础特征提取网络后串联一个鉴别性孔洞空间金字塔池化用于解决语义分割的多尺度问题;5)将若干个卷积层堆叠,形成一个浅层的空间信息保存网络;6)使用特征融合网络将步骤4)和步骤5)中得到的特征图进行融合形成预测结果;7)将步骤6)的输出图像与数据集中的语义标注图像进行对比,利用反向传播算法进行端到端的训练,得到实时高性能街景图像语义分割网络模型;8)将待测试的街景图像输入步骤7)的实时高性能街景图像语义分割网络模型中得到街景图像的语义分割结果。

【技术特征摘要】
1.一种基于深度学习的实时高性能街景图像语义分割方法,其特征在于包括以下步骤:1)准备街景图像训练、验证和测试数据集;2)对步骤1)中的数据集图像进行下采样,减小图像的分辨率;3)对现有的轻量级分类网络进行改造作为语义分割的基础特征提取网络;4)在步骤3)中得到的基础特征提取网络后串联一个鉴别性孔洞空间金字塔池化用于解决语义分割的多尺度问题;5)将若干个卷积层堆叠,形成一个浅层的空间信息保存网络;6)使用特征融合网络将步骤4)和步骤5)中得到的特征图进行融合形成预测结果;7)将步骤6)的输出图像与数据集中的语义标注图像进行对比,利用反向传播算法进行端到端的训练,得到实时高性能街景图像语义分割网络模型;8)将待测试的街景图像输入步骤7)的实时高性能街景图像语义分割网络模型中得到街景图像的语义分割结果。2.如权利要求1所述一种基于深度学习的实时高性能街景图像语义分割方法,其特征在于在步骤1)中,所述数据集为公开数据集Cityscapes,所述数据集Cityscapes是一个带有逐像素语义标注的大型街景图像理解数据集,标注包含30个语义类;数据集Cityscapes由5000张带有精细标注和20000张带有粗糙标注的高分辨率街景图像组成,每张图像的分辨率为1024×2048,这些图像来自于50个不同的城市,是在不同的季节和变化的场景下拍摄的,使用5000张带有精细标注的街景图像,这部分数据集被划分成训练、验证和测试集三个部分,分别带有2975、500和1525张图片,而且只使用19个常见的语义类作为分割对象,包括road、sidewalk、building、wall、fence、pole、trafficlight、trafficsign、vegetation、terrain、sky、person、rider、car、truck、bus、train、motorcycle和bicycle。3.如权利要求1所述一种基于深度学习的实时高性能街景图像语义分割方法,其特征在于在步骤2)中,所述对步骤1)中的数据集图像进行下采样的具体方法为:Cityscapes数据集的图像分辨率为1024×2048,由于处理大分辨率的图像将严重影响语义分割网络的运行速度,因此首先对输入图像进行下采样来缩小图像的分辨率,从而加速网络的运行速度;图像的分辨率也不能太小,太小的图像会丢失许多细节信息影响语义分割的精度;对于训练和验证过程将图像的分辨率缩小到448×896,对于测试过程将图像的分辨率缩小到400×800。4.如权利要求1所述一种基于深度学习的实时高性能街景图像语义分割方法,其特征在于在步骤3)中,所述现有的轻量级分类网络采用谷歌最新发布的MobilenetV2轻量级分类网络作为改造对象,具有速度快、模型小、精度高特点,MobilenetV2依次由1个3×3的conv2d操作、17个bottleneck操作、1个1×1的conv2d操作、1个7×7的avgpool操作和1个1×1的conv2d操作组成,其中conv2d表示标准的卷积操作,而bottleneck表示由1个1×1的卷积层、一个3×3的逐深度可分离卷积层和一个1×1的卷积层组成的模块,avgpool表示平均池化操作;因为MobilenetV2是一个图像分类网络,不断地减小特征图的分辨率,最后一个bottleneck块输出的特征图尺寸只有原始输入图像的32分之一,网络的最终输出将是一个概率向量;语义分割是一个图像到图像的过程,需要保证网络的最终输出是一个预测图,所以需要对MobilenetV2的网络结构进行修改才能作为的基础特征提取网络;首先将最后一个bottleneck块后面的所有卷积层和池化层去掉,得到只剩下1个3×3的conv2d和17个bottleneck的简化版MobilenetV2;经过上一步修改后的MobilenetV2可以输出原始输入图像32分之一大小的特征图,为了能够获得更大分辨率的输出特征图,将孔洞卷积和MobilenetV2结合在一起,孔洞卷积的作用就是在加大网络深度的同时不会改变特征图的分辨率,利用孔洞卷积可以获得更大的感受野面积和得到更加稠密的特征图;尽管孔洞卷积需要比较多的运行时间,但是MobilenetV2是一个极其快速的网络,通过将二者结合在一起可以很好的做到速度与精度的平衡;所述MobilenetV2和孔洞卷积的结合方式是:简化版MobilenetV2前面部分的网络配置保持不变,当特征图分辨率下降到原始输入图像的8分之一大小后,也就是第6个bottleneck块之后,在后面的每个bottleneck块的逐深度可分离卷积层中加入带有不同孔洞率的孔洞卷积,同时将逐深度可分离卷...

【专利技术属性】
技术研发人员:严严董根顺王菡子
申请(专利权)人:厦门大学
类型:发明
国别省市:福建,35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1