一种基于生成对抗网络的目标域导向的无监督图像转换方法技术

技术编号:22309291 阅读:32 留言:0更新日期:2019-10-16 09:18
本发明专利技术提供一种基于生成对抗网络的目标域导向的无监督图像转换方法,属于计算机视觉领域。本发明专利技术用来实现无监督的跨领域图像到图像的转换任务,属于计算机视觉领域。本方法设计了一个自编码重构网络,通过最小化源域图像的重构损失来提取源域图像的分层表征。同时,通过权值共享策略,共享网络模型中的两组生成对抗网络中编码和解码高层语义信息的网络层的权值,以保证输出图像能够保留输入图像的基本结构和特征。然后,两个判别器分别用来区分输入图像是各自领域的真实图像还是生成的图像。本方法能够有效进行无监督的跨域图像转换,生成高质量的图像。实验证明所提方法在CelebA等标准数据集上取得了很好的结果。

An unsupervised image transformation method based on the target domain guidance of the generation countermeasure network

【技术实现步骤摘要】
一种基于生成对抗网络的目标域导向的无监督图像转换方法
本专利技术属于计算机视觉领域,涉及一种基于生成对抗网络的无监督图像转换方法。
技术介绍
随着移动设备的普及以及互联网带宽的快速增长,图形图像数据呈现爆炸式地增长,它们承载着海量待挖掘的信息。近年来,计算机视觉领域的研究迅速发展,特别是随着生成对抗网络的发展,图像转换问题也引起了广泛的关注。图像转换是指将图像从一种表示场景转换到另一种表示场景,同时保持图像的内容不发生改变。很多计算机视觉、计算机图形学和图像处理领域的问题其实都可以理解为是图像转换问题,例如,图像着色可以看做是将灰度图转换为其对应的彩色图;图像修复可以看做是将有缺失的图像补全到其对应的完整图像;图像高分辨率可以看做是将低分辨率的图像转换为其相对应的高分辨率的图像,图像风格转换则可以看做是在保留原图像基本特征的情况下,将图像转化为另一种风格的图像等等,诸如此类的工作还有很多。而这些任务,在我们的生产生活中都是广泛存在的。传统的算法大多是针对特定的问题而设计,并且只能用于特定的应用场景。后来,随着卷积神经网络(ConvolutionalNeuralNetworks,CNNs)的发展,越来越多的图像转换问题得以解决。但由于不同任务的建模方式以及其优化设计都不尽相同,这使得图像转换问题的任务负担仍十分巨大。一种解决图像转换任务的方法是训练一个有监督的前向卷积神经网络,通过使用像素损失函数来测量输出图像与真实图像之间的差异,这也是最直观的方法之一。例如Dong等人提出了一种深度卷积神经网络模型来学习低分辨率图像和高分辨率图像之间的一个端到端映射,从而实现图像从低分辨率到高分辨率的转换(DongC,ChenCL,HeK,etal.Imagesuper-resolutionusingdeepconvolutionalnetworks[J].IEEETransactionsonPatternAnalysisandMachineIntelligence,2016,38(2):295-307.)。该模型通过最小化输出图像与其对应的真实的高分辨率图像间的均方误差,来优化模型。但通过最小化输出图像与真实图像之间的均方误差很可能会使模型输出模糊的结果,因为最小化均方误差输出的是所有可能的输出结果的平均值。使用像素级损失函数的方法可以生成合理的图像,但是这些损失函数在很多情况下不能够捕获输出图像和真实图像之间的感知差异。最近的一些理论分析和实验结果表明,从预训练好的分类网络中提取的高层特征可以捕获真实图像的感知信息,而使用感知信息可以生成更高质的图像。特别是,这些从预训练好的网络的隐藏层中提取的特征有助于解读输入图像的语义信息,而且隐藏特征的格拉姆矩阵可以捕获图像风格的分布。Mahendran和Vedaldi通过最小化特征重建损失来反演卷积网络的特征,以便理解由不同的网络层保留的图像信息(MahendranA,VedaldiA:Understandingdeepimagerepresentationsbyinvertingthem[C]//ProceedingsoftheIEEEConferenceonComputerVisionandPatternRecognition.2015.)。这种优化方法还可以通过生成图像以最大化类预测分数或单个特征,以便理解在训练的网络中编码的功能,解决特征可视化问题。Gatys等人则用该方法来处理风格迁移和纹理合成问题(GatysLA,EckerAS,BethgeM:Texturesynthesisusingconvolutionalneuralnetworks[C]//ProceedingsoftheNeuralInformationProcessingSystemsConference.2015.)。这些能够方法生成高质量的图像,但是由于推理需要解决优化问题,所以速度很慢。近几年,生成对抗网络(GenerativeAdversarialNetworks,GANs)相关的研究呈现出蓬勃的发展态势(GoodfellowIJ,Pouget-AbadieJ,MirzaM,etal.Generativeadversarialnets[C]//ProceedingsoftheConferenceonNeuralInformationProcessingSystems.2014,2672-2680.)。鉴于GAN具有很好的生成能力以及其灵活的设计,GAN及其衍生模型被广泛地用于图像转换问题,并且已在图像转换问题上取得了显著的成绩。很多实验研究表明,融入GAN可以生成更加真实的图像。Pix2pix为图像转换任务提供了一个通用的框架,该框架可以解决许多在过去需要使用不同损失函数才能解决的问题(IsolaP,ZhuJY,ZhouT,etal.Image-to-imagetranslationwithconditionaladversarialnetworks[C]//ProceedingsoftheIEEEConferenceonComputerVisionandPatternRecognition.2017,5967-5976.)。Pix2pix使用两个配对的数据集,数据集A是一种样式的图像的集合,数据集B是数据集A中图像的另一种样式的集合。Pix2pix学习两个数据集之间的映射并生成图像。生成的图像和目标之间的误差通过损失函数计算,进一步调整参数以生成与目标图像类似的逼真图像。而在Pix2pix模型的基础之上,又有许多新的衍生模型被提出,在提升转换图像质量的同时,能够解决更多的图像转换问题。这些方法可以生成很优秀的图像,但存在一个关键的问题,即需要配对数据来提供有监督的学习,然而,配对数据在很多问题上很难获得,因为人工标注的代价高昂。为了解决这一问题,CycleGAN直接使用两组生成器和判别器来学习源域和目标域之间的映射和逆映射(ZhuJY,ParkT,IsolaP,etal.Unpairedimage-to-imagetranslationusingcycle-consistentadversarialnetworks[C]//ProceedingsoftheIEEEInternationalConferenceonComputerVision.2017,2242-2251.)。两个生成器分别将各自领域的输入图像转换为对应领域的输出图像,两个判别器则在各自的领域内判断输入图像是真实图像还是由生成器生成的图像。此外,CycleGAN提出了一种循环一致性损失,即通过双向转换来进行图像重构。这种循环一致性可以减少可能的映射空间,不仅能够让模型生成更高质量的图像,还可以减轻GAN模型的崩溃问题。CoGAN则是考虑到两个域的图像具有相同的基本特征,提出了一种权重共享策略,通过共享生成器和判别器中与高级语义信息相对应的权重,可以学习不同域中的一个联合分布,从而实现跨领域图像到图像的转换(LiuMY,TuzelO.Coupledgenerativeadversarialnetworks[C]//ProceedingsoftheConferenceonNeuralInformationProc本文档来自技高网...

【技术保护点】
1.一种基于生成对抗网络的目标域导向的无监督图像转换方法,其特征在于,包括如下步骤:步骤一图像的预处理:从真实的源域数据分布pdata(x)中采样得到真实的源域图像x,从真实的目标域数据分布pdata(y)中采样得到真实的目标域图像y,对真实的源域图像x和真实的目标域图像y进行统一的处理,把它们缩放为统一的像素大小,同时对图像像素值进行归一化处理;步骤二生成图像:将归一化处理好的真实的源域图像x分别输入到两个生成器中,两个生成器为自编码重构网络Gr和转换网络Gt;其中,Gr通过重构输入的真实的源域图像x,来获得源域图像的分层表征;Gt则将输入的真实的源域图像x转换为目标域的图像;通过共享Gr与Gt中与高层语义信息相关的层级的参数,以保证源域图像和目标域图像的语义信息一致;

【技术特征摘要】
1.一种基于生成对抗网络的目标域导向的无监督图像转换方法,其特征在于,包括如下步骤:步骤一图像的预处理:从真实的源域数据分布pdata(x)中采样得到真实的源域图像x,从真实的目标域数据分布pdata(y)中采样得到真实的目标域图像y,对真实的源域图像x和真实的目标域图像y进行统一的处理,把它们缩放为统一的像素大小,同时对图像像素值进行归一化处理;步骤二生成图像:将归一化处理好的真实的源域图像x分别输入到两个生成器中,两个生成器为自编码重构网络Gr和转换网络Gt;其中,Gr通过重构输入的真实的源域图像x,来获得源域图像的分层表征;Gt则将输入的真实的源域图像x转换为目标域的图像;通过共享Gr与Gt中与高层语义信息相关的层级的参数,以保证源域图像和目标域图像的语义信息一致;其中,pdata(x)表示真实的源域数据分布,x表示真实的源域图像...

【专利技术属性】
技术研发人员:葛宏伟姚瑶周东清张强郭枫
申请(专利权)人:大连理工大学
类型:发明
国别省市:辽宁,21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1