基于双重类别级对抗网络的图像语义分割方法技术

技术编号:33772853 阅读:43 留言:0更新日期:2022-06-12 14:25
本发明专利技术公开了一种基于双重类别级对抗网络的图像语义分割方法,属于深度学习技术领域。包括以下步骤:首先,利用类别级对抗网络基于局部语义类别一致性的思想,兼顾源域和目标域的边缘分布对齐和条件分布对齐,使得源域和目标域进行协同训练,根据不同的对齐效果来调整相应对抗损失的权重;其次,通过计算目标预测的信息熵值确定目标图像的置信水平,依据熵值大小将目标域划分为集合一和集合二;最后,利用集合一及其预测图作为伪标签,再次使用CLAN模型训练集合二图像,以减少域内差异,从而有效提升不同数据集间的自适应水平,提高算法的泛化性能。本发明专利技术基于多个数据集进行实验,验证了该方法的可行性,能够有效提高语义分割效率。分割效率。分割效率。

【技术实现步骤摘要】
基于双重类别级对抗网络的图像语义分割方法


[0001]本专利技术属于深度学习领域,涉及一种基于双重类别级对抗网络的图像语义分割方法。

技术介绍

[0002]图像语义分割是指对图像中的每一个像素点进行分类,并通过整合得到了包含语义信息的分割结果,即根据图像的语义对图形进行分割,这里语义是指图像的内容或信息细节。语义分割是图像理解的基础,广泛应用于医学影像分析、自动驾驶、地理信息系统等领域。最初的图像语义分割方法主要基于RDF等机器学习方法和概率图模型,语义分割的结果一般为图中物体的类别。全卷积神经网络(Fully Convolutional Network,FCN)的出现使得深度学习技术开始广泛应用于图像语义分割,此时语义分割可以识别图像中所包含的个体。近年来,基于深度学习的图像语义分割技术得到长足的发展,例如,DeepLab系列模型结合了深度卷积神经网络(DCNNs)和概率图模型,其中Deeplab

v2引用了不同特征层的多分辨率信息,采用了多孔空间金字塔池化结构(ASPP),有效地学习不同尺度目标的相关信息,进一步提高目标的分割精度;DeepLab

v3+采用可任意控制编

解码器来提高特征的分辨率并恢复原始像素信息,同时采用空洞卷积方法平衡语义分割精度和效率。
[0003]图像语义分割一般采用监督学习方法,训练样本需要像素级标注信息,人工标注成本较大,一种解决方案是采用合成图像构成的训练集。通常将合成图像数据集称为源域(Source Domain),真实场景的数据集称为目标域(Target Domain)。源域和目标域之间往往不可避免地存在着很大的视觉差异,即域偏移(Domain Shift),如纹理、光照、视角差异等等,这些差异会导致通过源域训练得到的深度学习模型对目标域的分割精度不理想,容易出现过拟合现象,难以泛化到目标域数据集上。域自适应(Domain Adaptation)是迁移学习在计算机视觉领域中重要技术之一,主要解决当源域和目标域之间的数据分布存在偏差时,如何利用源域数据训练出适应目标域数据的模型。其中,源域中都是带有标注信息的样本,而目标域没有或者只有少数数据有标注信息。现有的域自适应方法,大多采用原图或高层次抽象特征图进行跨域训练,往往会产生语义不一致或类别错分问题。

技术实现思路

[0004]专利技术目的:本专利提出一种基于双重类别级对抗网络的域自适应分割方法,通过提升不同数据集间的自适应水平,有效实现对无标注数据集的语义分割,提高算法的泛化性能。
[0005]技术方案:本专利技术提出一种基于双重类别级对抗网络的图像语义分割方法,所述方法包括以下步骤:
[0006]步骤一:获取图像数据集,获取用于源域的合成图像数据集GTA5,即视频游戏数据集,以及虚拟城市数据集SYNTHIA,获取用于目标域的真实图像数据集Cityscapes,即城市景观数据集,该数据集由训练集和测试集两部分组成,其中训练集用来训练模型,测试集则
用来评估模型的泛化能力;
[0007]步骤二:构建域间类别级对抗网络,所述域间类别级对抗网络由域间生成器和域间鉴别器组成,其中,域间生成器由特征提取器和两个互斥分类器构成,将步骤一中源域和目标域图像输入域间类别级对抗网络进行协同训练,计算源域和目标域之间的差异;
[0008]步骤三:计算网络的对抗损失函数并进行两域间的自适应网络的训练:输入图像进行步骤二的操作后,通过两个互斥分类器得到两个预测张量,计算两个张量之间的距离差异由此调整对抗损失大小,使用对抗损失函数训练源域和目标域之间的类别级对抗网络;
[0009]步骤四:划分目标域图像,利用步骤三中训练好的网络输出目标预测图,计算预测图的信息熵值,根据熵值大小排序,并依据简单比率λ
E
将目标域划分为集合一和集合二两部分,集合一的熵值较小且集合一占总目标域的比例为λ
E

[0010]步骤五:目标域内的自适应训练,将步骤四中的集合一看作源域,其预测图作为伪标签,并将集合二看作目标域,二次利用类别级对抗网络进行域内自适应训练;
[0011]步骤六:训练总体模型并获得分割结果,将Cityscapes中的测试集图像输入步骤五训练好的网络中,以实现对测试集图像的语义分割。
[0012]其中,步骤一中所述的获取图像数据集包括以下步骤:
[0013]步骤一:所述的源域数据集GTA5和SYNTHIA都是合成的虚拟数据,数据集中包含图片信息和逐像素的语义信息作为分割标签;
[0014]步骤二:所述的目标域数据集Cityscapes是现实场景的真实数据,数据集中包含2975幅图像的训练集和500幅图像的测试集,目标域数据不含有任何标签信息。
[0015]其中,步骤二中,通过以下步骤构建域间类别级对抗网络:
[0016]步骤1:如图2所示,域间生成器由特征提取器和两个互斥分类器组成,使用残差网络ResNet

101在ImageNet数据集上的预训练框架作为域间生成器网络的主干部分,即框架的前半部分为特征提取器,进入步骤2;
[0017]步骤2:复制框架中最后一个分类模块的两个副本,并行排列在特征提取器后作为两个互斥分类器,进入步骤3;
[0018]步骤3:将源域和目标域图像输入网络中进行协同训练,并进行分割损失计算:
[0019][0020]其中,样本X
s
∈R
H
×
W
×3是来自源域的图像,Y
s
是其相应的像素标签,C为语义分割的类别数,P
s(h,w,c)
为C类语义在像素(h,w)上的离散分布;Y
s(h,w,c)
为C类语义在像素(h,w)上的正确标注概率,如果像素(h,w)属于C类,Y
s(h,w,c)
=1,否则Y
s(h,w,c)
=0。
[0021]其中,步骤三中,计算网络的对抗损失函数并进行两域间的自适应网络的训练包括以下步骤:
[0022]步骤1:训练过程中,两个互斥分类器对输入图像进行逐像素的语义分类,两个分类器C1和C2具有不同的参数,采用最小化两个分类器的余弦相似度来增强它们的卷积层的权值散度,有以下权重差异损失:
[0023][0024]其中,和是分别将C1和C2的卷积滤波器的权值进行扁平化和串联后得到的向量;
[0025]步骤2:输入图像进入互斥分类器会输出两个预测张量P
(1)
和P
(2)
,计算两个预测张量的距离差异,将距离差异作为对抗损失的权重,使得分割图上的每个像素都能有不同的权重来调整对抗损失,进入步骤三;
[0026]步骤三:采用自适应对抗损失函数进行训练:
[0027][0028]其中,P
(1)
和P
(2)
分别为C1和C2的预测张量,M(...

【技术保护点】

【技术特征摘要】
1.一种基于双重类别级对抗网络的图像语义分割方法,其特征在于,所述方法包括以下步骤:步骤一:获取图像数据集,获取用于源域的合成图像数据集GTA5,即视频游戏数据集,以及虚拟城市数据集SYNTHIA,获取用于目标域的真实图像数据集Cityscapes,即城市景观数据集,该数据集由训练集和测试集两部分组成,其中训练集用来训练模型,测试集则用来评估模型的泛化能力;步骤二:构建域间类别级对抗网络,所述域间类别级对抗网络由域间生成器和域间鉴别器组成,其中,域间生成器由特征提取器和两个互斥分类器构成,将步骤一中源域和目标域图像输入域间类别级对抗网络进行协同训练,计算源域和目标域之间的差异;步骤三:计算网络的对抗损失函数并进行两域间的自适应网络的训练:输入图像进行步骤二的操作后,通过两个互斥分类器得到两个预测张量,计算两个张量之间的距离差异由此调整对抗损失大小,使用对抗损失函数训练源域和目标域之间的类别级对抗网络;步骤四:划分目标域图像,利用步骤三中训练好的网络输出目标预测图,计算预测图的信息熵值,根据熵值大小排序,并依据简单比率λ
E
将目标域划分为集合一和集合二两部分,集合一的熵值较小且集合一占总目标域的比例为λ
E
;步骤五:目标域内的自适应训练,将步骤四中的集合一看作源域,其预测图作为伪标签,并将集合二看作目标域,二次利用类别级对抗网络进行域内自适应训练;步骤六:训练总体模型并获得分割结果,将Cityscapes中的测试集图像输入步骤五训练好的网络中,以实现对测试集图像的语义分割。2.根据权利要求1所述的一种基于双重类别级对抗网络的图像语义分割方法,其特征在于,步骤一中所述的获取图像数据集包括以下步骤:步骤一:所述的源域数据集GTA5和SYNTHIA都是合成的虚拟数据,数据集中包含图片信息和逐像素的语义信息作为分割标签;步骤二:所述的目标域数据集Cityscapes是现实场景的真实数据,数据集中包含2975幅图像的训练集和500幅图像的测试集,目标域数据不含有任何标签信息。3.根据权利要求1所述的一种基于双重类别级对抗网络的图像语义分割方法,其特征在于,步骤二中,通过以下步骤构建域间类别级对抗网络:步骤1:域间生成器由特征提取器和两个互斥分类器组成,使用残差网络ResNet

101在ImageNet数据集上的预训练框架作为域间生成器网络的主干部分,即框架的前半部分为特征提取器,进入步骤2;步骤2:复制框架中最后一个分类模块的两个副本,并行排列在特征提取器后作为两个互斥分类器,进入步骤3;步骤3:将源域和目标域图像输入网络中进行协同训练,并进行分割损失计算:其中,样本X
s
∈R
H
×
W
×3是来自源域的图像,Y
s
是其相应的像素标签,C为语义分割的类别数,P
s(h,w,c)
为C类语义在像素(h,w)上的离散分布;Y
s(h,w,c)
为C类语义在像素(h,w)上的正确标注概率,如果像素(h,w)属于C类,Y
s(h,w,c)
=1,否则Y
s(h,w,c)
=0。4.根据权利要求1所述的一种基于双重类别级对抗网络的图像语义分割方法,其特征
在于,步骤三中,计算网络的对抗损失函数并进行两域间的自适应网络的训练包括以下步骤:步骤1:训练过程中,两个互斥分类器对输入图像进行逐像素的语义分类,两个分类器C1和C2具有不同的参数,采用最小化两个分类器的余弦相似度增强它们的卷积层的权值散度,权重差异损失如下:其中,和是分别将C1和C2的卷积滤波器的权值进行扁平化和串联后得到的向量;步骤2:输入图像进入互斥分类器会输出两个预测张量P
(1)
和P
(2)
,计算两个预测张量的距离差异,将距离差异作为对抗损失的权重,使得分割图上的每个像素都能有不同的权重来调整对抗损失,进入步骤三;步骤三:采用自适应对抗损失函数进行训练:其中,P
(1)
和P
(2)
分别为C1和C2的预测张量,M(
·
,
·
)为余弦距离,参数λ
local
控制对抗损失的自适应权值,ε为一个参数,G1为域间生成器,D1为域间鉴别器,X
s
为源域图像,X
t
为目标...

【专利技术属性】
技术研发人员:琚艳刘斌
申请(专利权)人:南京工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1