本发明专利技术公开了一种面向道路场景的快速语义分割方法,具体包括如下步骤:步骤1,基于卷积神经网络构建模型;步骤2,利用训练数据对步骤1构建的模型进行训练;步骤3,利用损失函数计算经步骤2训练后的模型损失,并根据所得模型损失结果计算梯度;步骤4,根据步骤3所得梯度对模型参数进行更新。本发明专利技术提供的分割方法能够快速地进行图像分割,同时得到较高的精度。
A fast semantic segmentation method for road scene
【技术实现步骤摘要】
一种面向道路场景的快速语义分割方法
本专利技术属于计算机视觉
,涉及一种面向道路场景的快速语义分割方法。
技术介绍
近年来,图像语义分割已经成为计算机视觉的研究热点,它可以应用在机器人视觉,智能驾驶的环境感知等多种场景下。所谓语义分割,就是要理解拍摄图片中的多个目标元素,将其按照各自的轮廓精确分割开来。对于计算机而言,图像是一个多通道的数值矩阵。要使计算机理解和分割目标元素,需要从原始数值矩阵中找到每种目标元素的数值特征,根据这些特征来理解图像中包含哪些目标元素,然后更深层次的分析图像中目标元素又是按照什么结构组合成图片。总的来说,图像语义分割的目的是识别出图片中目标及其相互关系,这就是对人脑视觉系统的一种模拟。人类是通过视觉感知系统来理解周围环境,而图像分割技术则是通过模仿人的视觉感知系统来获取,理解和识别图片中的信息。图像语义分割作为图像处理和模式识别领域中的非常重要的任务,是许多计算机视觉技术的前置步骤。根据语义分割的结构来做检测和跟踪,可以缩小检测和跟踪的区域,甚至可以直接给出一些物体的轮廓;根据语义分割的结果来做图像文字描述,可以加入大量的目标间位置信息;根据语义分割的结果来做图像的风格转换,可以快速地对背景区域进行定位和替换,也可以对特定的目标进行替换。因此,图像语义分割具有很强的理论和研究价值。早期的语义分割方法依赖于手工特征。比如使用随机决策森林来预测分类概率,并使用条件随机域的概率模型来处理不确定性,并在图像中整合上下文信息。近年来,由于大规模训练数据集和高性能图形处理单元(GPU)的出现,卷积神经网络(CNNs)在计算机视觉领域取得了不错的发展。此外,优秀的深度学习开源框架,如Caffe、MXNet和Tensorflow也促进了深度学习算法的发展。强大的深度神经网络大大降低了分类误差,语义分割在这一过程中也取得了很大的进展。目前很多研究者都在尝试以尽量小的运算量和尽量少的参数量来获得尽量高的精度,从而使得模型能够运行在车载终端平台,比如像图像分类模型SqueezeNet、ShuffleNet和MobileNet。在语义分割领域,由于输入大小为3×H×W,输出大小为C×H×W,输出与输入的宽高完全相同且C往往比3大许多,使得在得到输出的过程中会产生大量的运算。同时为了得到较高的分割精度,图像进行降采样的次数会较少从而使得中间特征的宽高依旧很大,进而导致运算量的进一步增大。综合以上两点,语义分割是一个运算量非常大的任务。为了减少语义分割所产生的计算量,通常而言有两种方式:减小图片大小和降低模型复杂度。减小图片大小可以最直接地减少运算量,但是图像会丢失掉大量的细节从而影响精度。降低模型复杂度则会导致模型的特征提取能力减弱,从而影响分割精度。目前面向道路场景的语义分割模型很难做到平衡实时性和高分割精度的矛盾。并且现有的语义分割框架大多是基于全卷积网络。全卷积网络通过将分类网络改造成全卷积网络,成功地提高了语义分割的性能。换句话说,全卷积网络就是将分类模型的全连接层替换为卷积层。但是,全卷积网络对像素与像素之间的关系并没有考虑到,忽略了在通常的基于像素分类的分割方法中使用的空间规整(spatialregularization)步骤,缺乏空间一致性。
技术实现思路
本专利技术的目的是提供一种面向道路场景的快速语义分割方法,解决了现有分割方法存在的图像精度低及特征提取能力弱的问题。本专利技术所采用的技术方案是,一种面向道路场景的快速语义分割方法,具体包括如下步骤:步骤1,基于卷积神经网络构建模型;步骤2,利用训练数据对步骤1构建的模型进行训练;步骤3,利用损失函数计算经步骤2训练后的模型损失,并根据所得模型损失结果计算梯度;步骤4,根据步骤3所得梯度对模型参数进行更新。本专利技术的特征还在于:步骤1的具体过程为:使用若干个卷积核构成一个卷积神经网络对输入图像进行处理,从而实现输入3×H×W的数据得到1×H×W的预测输出,其中H为输入图像高度,W为输入图像宽度;根据如下公式(1)构建模型:其中,Fout为输出特征,Fin为输入特征,Ki为第i个卷积核,N为输出通道数,b为偏置;由于图像是二维数据,所以输入特征的大小为Cin×Hin×Win,使用的卷积核大小为Cout×Cin×Hk×Wk,得到的输出特征为Cout×Hout×Wout;其中,Cin和Cout为输入和输出特征的通道数,Hin和Win为输入特征的高和宽,Hk和Wk为卷积核的高和宽,Hout和Wout为输出特征的高和宽;对于输入为Cin×Hin×Win的特征,使用Cout个大小为Cin×Hk×Wk的卷积核在输入特征上进行滑动乘加操作,便得到了Cout个大小为Hout×Wout的特征。步骤1中输出特征的高和宽的计算过程如下:其中,p为边框宽度,s为步长。步骤2的具体过程为:所述训练数据包括人为采集的图像以及与采集图像对应的标签图像;训练的过程即为:由输入图像得到标签图像,输入图像为彩色RGB图像,标签图像为单通道的灰度图像。步骤2中,由于图像像素的灰度值直接代表了该像素属于的类别;当图像有C个类需要分割时,则标签图像中的每个像素值为0~C-1。步骤3的具体过程为:步骤3.1,确定模型目标:假定模型的输入数据为X,标签数据为Y,模型是参数为ω的fω,使用的损失函数为L,则模型的目标便为:ω=argminωL(fω(X),Y)(4);步骤3.2,根据步骤3.1,所得的模型目标确定语义分割损失函数:语义分割本质上属于分类任务,而图像上每个像素的类别有且仅有一个,即像素标签中有且仅有一个数值为1,其余均为0;则对于语义分割的损失函数为:L(fω(X),Y)=-logfω(xt)(8);其中fω(xt)为标签为1对应类别的预测概率值;步骤3.3,为了降低模型的复杂度,在模型上增加一个权重衰减,则增加权重衰减后的损失函数如下所示:L(fω(X),Y)=-logfω(xt)+α·ω2(9);其中α为权重;步骤3.4,采用如下公式对模型进行归一化处理:其中,C为通道数,xi为某个像素位置模型输出的值,yi为对应的预测概率值;步骤3.5,根据步骤3.4所得结果,基于求导中的链式法则求得每一个参与运算的参数所对应的梯度值,梯度值得计算过程如下公式(11)所示:其中,xk与xt都是由参数ω卷积得到。步骤4的具体过程如下:按照如下公式(12)、(13)对模型中的参数进行更新:mt+1=ρ·mt+Δω(12);ωt+1=ωt-lr·mt+1(13);其中,mt为当前动量,mt+1为更新后的动量,ωt为当前参数,ωt+1为更新后的参数,Δω为梯度,ρ为取值0~1之间的权重参数,lr为更新的步长。本专利技术的有益效果是,本专利技术提供的一种本文档来自技高网...
【技术保护点】
1.一种面向道路场景的快速语义分割方法,其特征在于:具体包括如下步骤:/n步骤1,基于卷积神经网络构建模型;/n步骤2,利用训练数据对步骤1构建的模型进行训练;/n步骤3,利用损失函数计算经步骤2训练后的模型损失,并根据所得模型损失结果计算梯度;/n步骤4,根据步骤3所得梯度对模型参数进行更新。/n
【技术特征摘要】
1.一种面向道路场景的快速语义分割方法,其特征在于:具体包括如下步骤:
步骤1,基于卷积神经网络构建模型;
步骤2,利用训练数据对步骤1构建的模型进行训练;
步骤3,利用损失函数计算经步骤2训练后的模型损失,并根据所得模型损失结果计算梯度;
步骤4,根据步骤3所得梯度对模型参数进行更新。
2.根据权利要求1所述的一种面向道路场景的快速语义分割方法,其特征在于:所述步骤1的具体过程为:使用若干个卷积核构成一个卷积神经网络对输入图像进行处理,从而实现输入3×H×W的数据得到1×H×W的预测输出,其中H为输入图像高度,W为输入图像宽度;
根据如下公式(1)构建模型:
其中,Fout为输出特征,Fin为输入特征,Ki为第i个卷积核,N为输出通道数,b为偏置;
由于图像是二维数据,所以输入特征的大小为Cin×Hin×Win,使用的卷积核大小为Cout×Cin×Hk×Wk,得到的输出特征为Cout×Hout×Wout;
其中,Cin和Cout为输入和输出特征的通道数,Hin和Win为输入特征的高和宽,Hk和Wk为卷积核的高和宽,Hout和Wout为输出特征的高和宽;
对于输入为Cin×Hin×Win的特征,使用Cout个大小为Cin×Hk×Wk的卷积核在输入特征上进行滑动乘加操作,便得到了Cout个大小为Hout×Wout的特征。
3.根据权利要求2所述的一种面向道路场景的快速语义分割方法,其特征在于:所述步骤1中输出特征的高和宽的计算过程如下:
其中,p为边框宽度,s为步长。
4.根据权利要求3所述的一种面向道路场景的快速语义分割方法,其特征在于:所述步骤2的具体过程为:所述训练数据包括人为采集的图像以及与采集图像对应的标签图像;
训练的过程即为:由输入图像得到标签图像,输入图像为彩色RGB图像,标签图像为单通道的灰度图像。
5.根据权利要求4所述的一种面向道...
【专利技术属性】
技术研发人员:欧勇盛,彭远哲,王志扬,熊荣,
申请(专利权)人:中国科学院深圳先进技术研究院,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。