一种基于内容风格分离的无监督图像到图像翻译方法技术

技术编号:28375628 阅读:16 留言:0更新日期:2021-05-08 00:03
本公开的实施例公开了无监督图像到图像的翻译方法。该方法的一具体实施方式包括:获取初始图像,将初始图像缩放到特定尺寸;通过编码器对初始图像进行空间特征提取,得到特征信息;将特征信息输入至内容风格分离模块,得到内容特征信息和风格特征信息;响应于获取到参考图像,生成参考图像的参考风格特征信息,响应于未获取到参考图像,则将参考风格特征信息设置为与风格特征信息形状一致的高斯噪声;将内容特征信息与参考风格特征信息,输入至生成器,得到将初始图像翻译成参考图像风格的目标图像;将目标图像缩放到与初始图像相匹配的尺寸,得到最终目标图像。该实施方式可以应用于多种不同的高级视觉任务,提升了整个系统的可扩展性。

【技术实现步骤摘要】
一种基于内容风格分离的无监督图像到图像翻译方法
本公开的实施例涉及计算机视觉和图像处理
,具体涉及无监督图像到图像的翻译方法。
技术介绍
图像到图像的翻译由于可以学习不同视觉域之间的映射而受到广泛关注。在现在社交媒体或聊天软件中,许多将聊天的对象转换成可爱的动物,并且聊天的过程中转换之后的动物表情与原对象保持一致。或者更换聊天背景的风格,同时保持背景的空间结构信息。或者在增强现实应用的虚实结合的场景中需要将虚拟场景与真实场景进行互换等,都是图像到图像的典型应用。Pix2pix(pixelstopixels,像素点到像素点转换工具)是第一个使用条件生成对抗网络来进行图像到图像的翻译。并在此基础上,一系列的探索应用图像到图像转换技术处理其他计算机视觉任务。如图像超分辨率、图像着色、风格迁移和其他低层级的图像任务。为了减少实际应用中成对训练数据的缺乏,Zhu等人使用一致性约束并提出了循环生成对抗网络(简称:CycleGAN),其中引入额外的生成器将目标域的图像映射到源域的图像,完成无监督的图像到图像的翻译任务。通过架设源域的图像与目标域的图像共享一个共同的内容空间,Liu等人在UNIT(UNsupervisedImage-to-imageTranslationnetworks,无监督图像到图像翻译网络)中提出了一种基于对抗生成网络与变分自编码器的无监督图像到图像翻译的方法。基于这两个方法,许多工作将注意力机制应用到了该任务上。一些工作将图像到图像翻译的任务由一对一扩展到一对多。通过假设一个图像可以分解为领域无关的内容编码和领域相关的风格编码,CIIT(ConditionalIage-to-ImageTranslation,条件语言与图像翻译),EG-UNIT(ExemplarGuidedUnsupervisedImage-to-imageTranslationwithsemanticconsistency,语义一致性的范例引导无监督图像到图像的翻译),MUNIT(MultimodalUNsupervisedImage-to-imageTranslationnetworks,多模态无监督图像到图像翻译网络)以及DRIT(DiveRseImage-to-imageTranslationviadisentangledrepresentations,基于非纠缠表示的图像到图像的多样性翻译)等方法在两个图像域之间学习一对多的映射。其他方法在图像翻译的过程中加入额外的约束来提高图像中风格和内容解耦的效果。然而,上述方法通过两个独立的编码器来分别提取图像的内容特征信息和风格特征信息,而不是利用一个统一的框架。因此,这一类方法的缺点在于:1、不能保证内容的特征有效地关注到图像中有意义的物体上。2、风格特征往往关注于整张图像的外观,无法有效提取出不同物体的不同风格。针对上述的这两个缺点,一些研究通过引入高级视觉任务来作为额外的约束。例如Wu等人提出使用物体关键点检测来约束图像的内容特征。Shen等人在图像到图像翻译的方法中加入图像中物体的检测技术,来分别提取一张图像中不同物体的内容信息和风格信息。Roy等人在方法中加入图像场景的语义解析,来确保内容特征学习到与图像语义相关的特征。这一类方法的缺点在于需要针对特定的高级视觉任务来设计不同的网络架构,如果新的数据上不能提供对应的高级视觉信息,同一个方法难以扩展到多个图像到图像翻译的任务中去。
技术实现思路
本公开的内容部分用于以简要的形式介绍构思,这些构思将在后面的具体实施方式部分被详细描述。本公开的内容部分并不旨在标识要求保护的技术方案的关键特征或必要特征,也不旨在用于限制所要求的保护的技术方案的范围。本公开的一些实施例提出了无监督图像到图像的翻译方法,来解决以上
技术介绍
部分提到的技术问题中的一项或多项。根据上述实际需求和技术难题,本专利技术的目的在于:提出一个统一框架来实现不同场景下的图像到图像翻译的方法,通过在特征空间中衡量特征信息与高级视觉任务的相关性来分离图像的内容特征信息与风格特征信息。通过组合初始图像的内容特征信息与参考图像的参考风格特征信息来生成翻译之后的目标图像。本方法的训练数据不需要成对的数据,仅使用两个不同类别的图像集合即可完成训练。同时,本方法通过提出一种特征融合方法,有效降低水滴现象对生成图像的影响,得到更好的图像生成质量。本公开的上述各个实施例具有如下有益效果:专利技术了一种统一架构来提取图像的内容特征信息与风格特征信息,并且能应用于多种不同的高级视觉任务,十分灵活,提升了整个系统的可扩展性。专利技术了一种新型的图像内容特征与风格特征的分离模块。通过计算在特征空间中衡量提取的图像空间特征与高级视觉任务的相关性。其中提取相关度大于等于预定阈值的部分作为内容特征信息,提取相关度小于预定阈值的部分为风格特征信息。有利于保证内容特征信息稳定关注在图像中有效的物体上。同时使得风格特征信息包含图像中的不同物体。通过在生成器中使用归一化的特征融合方法,对现有方法修改幅度小。可以方便快速地扩展到其他方法中去。有效降低水滴现象对生成图像的影响,能够使得方法更加稳健地生成结果,得到更好质量的目标图像。附图说明结合附图并参考以下具体实施方式,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。贯穿附图中,相同或相似的附图标记表示相同或相似的元素。应当理解附图是示意性的,元件和元素不一定按照比例绘制。图1是根据本公开的一些实施例的无监督图像到图像的翻译方法的一些实施例的流程图;图2是根据本公开的无监督图像到图像的翻译方法的一些实施例的流程图;图3是根据本公开的一些实施例的无监督图像到图像的翻译方法的一个应用场景的示意图;图4是根据本公开的一些实施例的无监督图像到图像的翻译方法的另一个应用场景的示意图;图5是根据本公开的一些实施例的无监督图像到图像的翻译方法的再一个应用场景的示意图;图6是根据本公开的一些实施例的无监督图像到图像的翻译方法的另一个应用场景的示意图;图7是根据本公开的一些实施例的无监督图像到图像的翻译方法的再一个应用场景的示意图。具体实施方式下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例。相反,提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。另外还需要说明的是,为了便于描述,附图中仅示出了与有关专利技术相关的部分。在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。需要注意,本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。下面将参考附图并结合实施例来详细说明本公开。图1是根据本公开的一些实施例的无监督图像到图像的翻译本文档来自技高网
...

【技术保护点】
1.一种无监督图像到图像的翻译方法,包括:/n在测试过程中,获取初始图像,将初始图像缩放到特定尺寸;/n通过编码器对初始图像进行空间特征提取,得到特征信息,其中,特征信息的表现形式为四维张量;/n将特征信息输入至内容风格分离模块,得到内容特征信息和风格特征信息,其中,内容特征信息表现形式为四维张量,风格特征信息表现形式为二维张量;/n响应于获取到参考图像,基于参考图像、编码器和内容风格分离模块,生成参考图像的参考风格特征信息,响应于未获取到参考图像,则将参考风格特征信息设置为与风格特征信息形状一致的高斯噪声;/n将内容特征信息与参考风格特征信息,输入至生成器,得到将初始图像翻译成参考图像风格的目标图像;/n将目标图像缩放到与初始图像相匹配的尺寸,得到最终目标图像。/n

【技术特征摘要】
1.一种无监督图像到图像的翻译方法,包括:
在测试过程中,获取初始图像,将初始图像缩放到特定尺寸;
通过编码器对初始图像进行空间特征提取,得到特征信息,其中,特征信息的表现形式为四维张量;
将特征信息输入至内容风格分离模块,得到内容特征信息和风格特征信息,其中,内容特征信息表现形式为四维张量,风格特征信息表现形式为二维张量;
响应于获取到参考图像,基于参考图像、编码器和内容风格分离模块,生成参考图像的参考风格特征信息,响应于未获取到参考图像,则将参考风格特征信息设置为与风格特征信息形状一致的高斯噪声;
将内容特征信息与参考风格特征信息,输入至生成器,得到将初始图像翻译成参考图像风格的目标图像;
将目标图像缩放到与初始图像相匹配的尺寸,得到最终目标图像。


2.根据权利要求1所述的方法,其中,初始图像是来自预定类别的图像。


3.根据权利要求2所述的方法,其中,编码器是用于分离内容特征信息和风格特征信息的编码器,其中,编码器提取的初始图像的空间特征信息被用于高级视觉任务。


4.根据权利要求3所述的方法,其中,内容风格分离模块用于分离内容特征信息与风格特征信息,其中,内容风格分离模块是具有选择、压缩和提取功能的模块,内容风格分离模块包括内容特征提取模块和风格特征提取模块,其中:
内容特征提取模块,用于提取初始图像的空间特征中的不同通道中的信息与高级视觉任务的相关性,将对应相关度大于等于预定阈值的部分提取出来作为内容特征信息;
风格特征提取模块,用于提取初始图像的空间特征中的不同通道中的信息与高级视觉任务的相关性,将对应相关度低于预定阈值的部分提取出来,并通过池化层处理,作为风格特征信息。


5.根据权利要求4所述的...

【专利技术属性】
技术研发人员:陆峰刘云飞
申请(专利权)人:北京航空航天大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1