一种基于内容风格分离的无监督图像到图像翻译方法技术

技术编号：28375628 阅读：16 留言：0更新日期：2021-05-08 00:03

本公开的实施例公开了无监督图像到图像的翻译方法。该方法的一具体实施方式包括：获取初始图像，将初始图像缩放到特定尺寸；通过编码器对初始图像进行空间特征提取，得到特征信息；将特征信息输入至内容风格分离模块，得到内容特征信息和风格特征信息；响应于获取到参考图像，生成参考图像的参考风格特征信息，响应于未获取到参考图像，则将参考风格特征信息设置为与风格特征信息形状一致的高斯噪声；将内容特征信息与参考风格特征信息，输入至生成器，得到将初始图像翻译成参考图像风格的目标图像；将目标图像缩放到与初始图像相匹配的尺寸，得到最终目标图像。该实施方式可以应用于多种不同的高级视觉任务，提升了整个系统的可扩展性。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于内容风格分离的无监督图像到图像翻译方法
本公开的实施例涉及计算机视觉和图像处理
，具体涉及无监督图像到图像的翻译方法。
技术介绍
图像到图像的翻译由于可以学习不同视觉域之间的映射而受到广泛关注。在现在社交媒体或聊天软件中，许多将聊天的对象转换成可爱的动物，并且聊天的过程中转换之后的动物表情与原对象保持一致。或者更换聊天背景的风格，同时保持背景的空间结构信息。或者在增强现实应用的虚实结合的场景中需要将虚拟场景与真实场景进行互换等，都是图像到图像的典型应用。Pix2pix(pixelstopixels，像素点到像素点转换工具)是第一个使用条件生成对抗网络来进行图像到图像的翻译。并在此基础上，一系列的探索应用图像到图像转换技术处理其他计算机视觉任务。如图像超分辨率、图像着色、风格迁移和其他低层级的图像任务。为了减少实际应用中成对训练数据的缺乏，Zhu等人使用一致性约束并提出了循环生成对抗网络(简称：CycleGAN)，其中引入额外的生成器将目标域的图像映射到源域的图像，完成无监督的图像到图像的翻译任务。通过架设源域的图像与目标域的图像共享一个共同的内容空间，Liu等人在UNIT(UNsupervisedImage-to-imageTranslationnetworks，无监督图像到图像翻译网络)中提出了一种基于对抗生成网络与变分自编码器的无监督图像到图像翻译的方法。基于这两个方法，许多工作将注意力机制应用到了该任务上。一些工作将图像到图像翻译的任务由一对一扩展到一对多。通过假设一个图像可以分解...

【技术保护点】
1.一种无监督图像到图像的翻译方法，包括：/n在测试过程中，获取初始图像，将初始图像缩放到特定尺寸；/n通过编码器对初始图像进行空间特征提取，得到特征信息，其中，特征信息的表现形式为四维张量；/n将特征信息输入至内容风格分离模块，得到内容特征信息和风格特征信息，其中，内容特征信息表现形式为四维张量，风格特征信息表现形式为二维张量；/n响应于获取到参考图像，基于参考图像、编码器和内容风格分离模块，生成参考图像的参考风格特征信息，响应于未获取到参考图像，则将参考风格特征信息设置为与风格特征信息形状一致的高斯噪声；/n将内容特征信息与参考风格特征信息，输入至生成器，得到将初始图像翻译成参考图像风格的目标图像；/n将目标图像缩放到与初始图像相匹配的尺寸，得到最终目标图像。/n

【技术特征摘要】
1.一种无监督图像到图像的翻译方法，包括：
在测试过程中，获取初始图像，将初始图像缩放到特定尺寸；
通过编码器对初始图像进行空间特征提取，得到特征信息，其中，特征信息的表现形式为四维张量；
将特征信息输入至内容风格分离模块，得到内容特征信息和风格特征信息，其中，内容特征信息表现形式为四维张量，风格特征信息表现形式为二维张量；
响应于获取到参考图像，基于参考图像、编码器和内容风格分离模块，生成参考图像的参考风格特征信息，响应于未获取到参考图像，则将参考风格特征信息设置为与风格特征信息形状一致的高斯噪声；
将内容特征信息与参考风格特征信息，输入至生成器，得到将初始图像翻译成参考图像风格的目标图像；
将目标图像缩放到与初始图像相匹配的尺寸，得到最终目标图像。

2.根据权利要求1所述的方法，其中，初始图像是来自预定类别的图像。

3.根据权利要求2所述的方法，其中，编码器是用于分离内容特征信息和风格特征信息的编码器，其中，编码器提取的初始图像的空间特征信息被用于高级视觉任务。

4.根据权利要求3所述的方法，其中，内容风格分离模块用于分离内容特征信息与风格特征信息，其中，内容风格分离模块是具有选择、压缩和提取功能的模块，内容风格分离模块包括内容特征提取模块和风格特征提取模块，其中：
内容特征提取模块，用于提取初始图像的空间特征中的不同通道中的信息与高级视觉任务的相关性，将对应相关度大于等于预定阈值的部分提取出来作为内容特征信息；
风格特征提取模块，用于提取初始图像的空间特征中的不同通道中的信息与高级视觉任务的相关性，将对应相关度低于预定阈值的部分提取出来，并通过池化层处理，作为风格特征信息。

5.根据权利要求4所述的...

【专利技术属性】
技术研发人员：陆峰，刘云飞，
申请(专利权)人：北京航空航天大学，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人