一种基于对抗训练的图像语义分割方法技术

技术编号:17408749 阅读:23 留言:0更新日期:2018-03-07 06:00
本发明专利技术属于计算机视觉技术领域,公开了一种基于对抗训练的图像语义分割方法,用于解决现有语义分割方法不能实现图像全局信息和局部信息的有意义融合以及不能进行学习图像中的高阶势能的问题。本发明专利技术由于基于对抗训练网络来定义整个网络的损失函数,作为通用函数逼近器的对抗网络,不仅可以学习如何组合不同层的信息,而且还可以“迫使”生成网络学习到分割图片中的单点、配对、高阶势能等信息,实现图像局部台特征和全部特征的有机融合,得到效果更加逼真的分割图像;同时逐层训练的方法,避免了复杂的网络初始化参数过程,使得整个网络可以使用随机初始化的方法。

A method of image semantic segmentation based on confrontation training

The invention belongs to the technical field of computer vision, discloses an image segmentation method based on semantic confrontation training, used to solve the image of global information and local information methods fail to segment the existing semantic meaningful fusion and cannot learn the higher-order potential problem in image. Due to the loss of function of network confrontation training based on the definition of the whole network, as a general function approximator against the network, not only can learn how to combine different layers of information, but also can be \forced\ to generate network learning in the image segmentation, single point matching, high order potential information, realize the organic integration between the local image the characteristics and all of the characteristics, get the segmentation effect more vivid image; at the same time, the training method of layer by layer, avoids the network initialization parameters of the complex process of the whole network can use the method of random initialization.

【技术实现步骤摘要】
一种基于对抗训练的图像语义分割方法
本专利技术属于计算机视觉
,涉及图像语义分割和对抗训练,具体涉及一种基于对抗训练的图像语义分割方法。
技术介绍
随着人工智能的发展及普及,图像语义分割在计算机视觉领域的重要地位日渐凸显。许多应用都需要精确、高效的分割技术,如自动驾驶,室内导航,人机交互等等。近五年来,深度学习方法在计算机视觉领域取得巨大成功,各种网络结构被相继提出用以解决该领域的不同问题,如图像分类、定位等。然而,计算机视觉领域最成功的网络结构卷积神经网络(ConvolutionalNeuralNetwork,CNN)对于图像语义分割来说,有一个重大的缺点:由于网络结构中大量的最大池化层堆叠,CNN最后获取的特征是整张图片的信息,而忽略了图片的局部特征,如图片中物体的边缘、位置等信息。诚然,CNN的特征不变性正是分类定位任务所要求的,然而图像语义分割指的是将图片中每个像素点归为一个类别,这就要求在获取全局特征的同时,保留局部特征。所以,当CNN直接运用到图像语义分割时,往往不能取得特别好的效果。并且CNN最后的分割结果,各像素之间的预测值往往是相互独立的,这也使得最后的分割结果很难保留原始图片的细节信息。在现有的比较常见的解决上述问题的方法中,大致可归于以下三类;跨层连接:这是指从卷积神经网络的中间层获取图片局部特征,与网络的高层的全局特征进行融合,这样最后生成的分割图像会保留一部分细节信息。条件随机场:这是一种概率图模型,它利用CNN的分割结果来定义单点势能以及配对势能,接着进行推断来得到模型参数,这种方法迫使CNN的分割结果具有空间上的连续性,可以恢复更多的细节信息。其它结构方面的改变:比如空洞卷积,循环卷积神经网络等。总体说来,图像语义分割还存在以下问题:(1)跨层连接对于不同层信息的融合方式过于简单,不能实现图像全局信息和局部信息的有意义融合。(2)条件随机场只局限于单点势能以及配对势能,并没有采用更高阶的势能,比如超像素的标签的连续性,然而,这些更高阶的势能已经被证明在提升分割的结果中是有意义的。
技术实现思路
本专利技术的目的在在于:针对上述技术问题,而提供一种基于对抗训练的图像语义分割方法,利用对抗训练来进行更有效的信息融合以及自动学习分割结果的高阶势能。为解决技术问题,本专利技术所采用的技术方案是:一种基于对抗训练的图像语义分割方法,其特征在于,包括如下步骤:步骤1:将原始图像输入到卷积神经网络进行前向传递,得到低分辨率分割图像;步骤2:将步骤1中得到的低分辨率分割图像进行上采样,然后将该上采样与卷积神经网络的中间特征层连接得到连接特征层,再将连接特征层进行1x1卷积操作得到新的分割结果;然后将得到的新的分割结果与原始图像的下采样分割结果进行对抗训练,利用梯度下降算法分别更新生成网络G及判别网络D参数,直至对抗训练的网络损失函数收敛;步骤3:根据步骤2中的选取的上采样次数确定对抗训练的网络的层数,根据网络的层数确定步骤2重复的次数。如果步骤2中进行2次上采样,那么对抗训练中的网络层数为2,即完成第一次步骤2之后再重复一次步骤2;若步骤2中进行3次上采样,那么对抗训练中的网络层数为2,在完成第一次步骤2之后再重复二次步骤2。所述对抗训练为一种深度网络生成型模型,能够学习真实数据分布,对抗训练包括生成网络G和判别网络D,其中对抗训练网络的损失函数定义如下:其中x代表的真实数据,G(z)表下生成网络生成的数据;D(·)指的是将数据x或G(z)输入判别网络D,判别网络D输出结果取值为[0,1],判别网络D输出结果取值表示输入是真实数据的可能性,其中判别网络D输出结果值越趋近于0,表明是由生成网络G生成的数据,判别网络D输出结果值越趋近于1,表明是真实数据;生成网络G为了学习真实数据分布Pdata(x),首先对输入噪声z定义了先验分布Pz(z),生成网络G生成的数据G(z;θG),其中θG指的是生成网络的参数;判别网络D(x;θD)输出的一个标量值,代表的是x来自真实数据分布Pdata(x)的概率;其中θD指的是判别网络D的参数。由上述(1)公式得到,生成网络G的梯度下降算法定义如下:由上述(1)公式得到,生成网络G的梯度下降算法定义如下:其中,m代表的是样本个数。梯度下降算法指的是沿着模型中参数梯度的负方向,即损失函数变小趋势的方向更新参数,是一种基本的最优化方法。具体的步骤3中确定好重复次数后,将上一次步骤2中获得的连接特征层进行上采样,然后将该上采样与卷积神经网络对应的中间特征层进行连接得到此次步骤的连接特征层,再将此次步骤的连接特征层进行1x1卷积操作得到新的分割结果;然后将得到的新的分割结果与真实图像下采样分割结果进行对抗训练,对抗训练包括生成网络G和判别网络D,利用梯度下降算法分别更新生成网络G的参数及判别网络D的参数,直至对抗训练的网络损失函数收敛。本专利技术中,指的是将卷积神经网络(CNN),即生成网络G,生成的分割图像与真实的分割图像交由一个判别网络D进行判定,判别网络的损失函数的物理意义是使得判别网络尽量区分生成的分割图像与真实的分割图像;而生成网络的损失函数的物理意义是使生成的分割图像尽可能逼近真实的分割图像,尽可能“欺骗”判别网络。由于本专利技术基于对抗网络来定义整个网络的损失函数,作为通用函数逼近器的对抗网络,不仅可以学习如何组合不同层的信息,而且还可以“迫使”生成网络学习到分割图片中的单点、配对、高阶势能等信息,实现图像局部台特征和全部特征的有机融合,得到效果更加逼真的分割图像;同时逐层训练的方法,避免了复杂的网络初始化参数过程,使得整个网络可以使用随机初始化的方法。综上所述,与现有技术相比,本专利技术具有以下有益效果:(1)利用对抗网络实现了不同层信息有意义的融合;(2)利用对抗训练来定义网络的生成图像与真实图像的网络损失函数,可以学习到图片中的高阶势能,生成更加逼真的分割图像;(3)逐层训练的方式,由低分辨率的分割图像逐渐生成原始图片尺寸的分割图像,使得训练更加稳定,能有效缓解生成网络G陷入“崩溃”模式的情形。同时,这种训练方式使得不同层的输出具有不同的含义,增加了生成网络G的可解释性。附图说明图1是本专利技术一实施例的示意图。具体实施方式下面结合实施例对本专利技术作进一步的描述,所描述的实施例仅仅是本专利技术一部分实施例,并不是全部的实施例。基于本专利技术中的实施例,本领域的普通技术人员在没有做出创造性劳动前提下所获得的其他所用实施例,都属于本专利技术的保护范围。本专利技术的基于对抗训练的图像语义分割方法,包括如下步骤:包括如下步骤:步骤1:将原始图像输入到卷积神经网络进行前向传递,得到低分辨率分割图像;步骤2:将步骤1中得到的低分辨率分割图像进行上采样,然后将该上采样与卷积神经网络的中间特征层连接得到连接特征层,再将连接特征层进行1x1卷积操作得到新的分割结果;然后将得到的新的分割结果与原始图像的下采样分割结果进行对抗训练,利用梯度下降算法分别更新生成网络G及判别网络D参数,直至对抗训练的网络损失函数收敛;步骤3:根据步骤2中的选取的上采样次数确定对抗训练的网络的层数,根据网络的层数确定步骤2重复的次数。如果步骤2中进行2次上采样,那么对抗训练中的网络层数为2,即完成第一次步骤2之后再重复本文档来自技高网
...
一种基于对抗训练的图像语义分割方法

【技术保护点】
一种基于对抗训练的图像语义分割方法,其特征在于,包括如下步骤:步骤1:将原始图像输入到卷积神经网络进行前向传递,得到低分辨率分割图像;步骤2:将步骤1中得到的低分辨率分割图像进行上采样,然后将该上采样与卷积神经网络的中间特征层连接得到连接特征层,再将连接特征层进行1×1卷积操作得到新的分割结果;然后将得到的新的分割结果与真实图像下采样分割结果进行对抗训练,对抗训练包括生成网络G和判别网络D,利用梯度下降算法分别更新生成网络G的参数及判别网络D的参数,直至对抗训练的网络损失函数收敛;步骤3:根据步骤2中的选取的上采样次数确定对抗训练中网络的层数,根据网络的层数确定步骤2重复的次数。

【技术特征摘要】
1.一种基于对抗训练的图像语义分割方法,其特征在于,包括如下步骤:步骤1:将原始图像输入到卷积神经网络进行前向传递,得到低分辨率分割图像;步骤2:将步骤1中得到的低分辨率分割图像进行上采样,然后将该上采样与卷积神经网络的中间特征层连接得到连接特征层,再将连接特征层进行1×1卷积操作得到新的分割结果;然后将得到的新的分割结果与真实图像下采样分割结果进行对抗训练,对抗训练包括生成网络G和判别网络D,利用梯度下降算法分别更新生成网络G的参数及判别网络D的参数,直至对抗训练的网络损失函数收敛;步骤3:根据步骤2中的选取的上采样次数确定对抗训练中网络的层数,根据网络的层数确定步骤2重复的次数。2.根据权利要求1所述的基于对抗训练的图像语义分割方法,其特征在于,对抗训练的网络损失函数定义如下:其中x代表的真实数据,G(z)表示生成网络生成的数据;D(·)指的是将数据x或G(z)输入判别网络D,判别网络D输出结果取值为[0,1],判别网络D输出结果取值表示输入是真实数据的可能性;生成...

【专利技术属性】
技术研发人员:高建彬邓泽露
申请(专利权)人:电子科技大学
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1