基于注意力循环对抗网络的风格迁移系统、方法、装置制造方法及图纸

技术编号:33528149 阅读:12 留言:0更新日期:2022-05-19 01:53
本发明专利技术公开了一种基于注意力循环对抗网络的风格迁移系统、方法、装置,该方法首先选取两张不同风格图像的A,B图像输入网络;对A图像随机嵌套式剪裁多个小块输入多尺度块transformer编码器学习特征,通过反卷积和上采样逐层融合低维全局信息,最后融合动态过滤后的高维全局信息生成迁移结果;通过循环对抗的方式,同时训练A2B和B2A的映射;引入基于块的判别器和内容损失函数训练收敛,最终完成A,B的风格互相迁移。本发明专利技术首次提出了基于循环对抗网络的零次学习风格迁移方法,利用嵌套式剪裁小块挖掘块内部和块之间的关系特征,可以生成真实合理的迁移效果。优于现有方法,具有通用性强、数据依赖性小,风格生成个性化强等优点。优点。优点。

【技术实现步骤摘要】
基于注意力循环对抗网络的风格迁移系统、方法、装置


[0001]本专利技术涉及计算机图形学以及深度学习领域,特别涉及一种基于注意力循环对抗网络的风格迁移系统、方法、装置。

技术介绍

[0002]图像到图像的翻译是一个长期存在的问题,它寻求将图像转换为参考图像的风格。尽管生成性对抗网络在生成高质量结果方面取得了巨大成功,但由于需要依赖具有相同风格的图像数据库,因此在实际应用中,它们中的大多数成本过高。最近的工作表明,对用户提供的图像中包含的小块内部统计信息进行建模,对于风格迁移任务是有效的。这种解决方案能够处理无法拥有大型数据集的普通用户提供的各种各样风格图像,这些输入时网络在训练前没有见过的。因此更加适用于实际应用。尽管现有的研究已经在零次或一次预处理方面取得了显著的成功,但其生成结果的真实性受到卷积核学习的深层特征描述能力的限制。由于局部感知场的视野受限,且用于编码像素间空间相关性的卷积核参数共享,当参考风格图像用不同的风格模式描绘图片场景的不同区域时,这些方法可能会产生非用户期待的风格化结果。因此,需要一个依赖于关于信号结构的最小先验知识的深度模型来提高风格化的质量。受自然语言处理领域的最新进展的启发,基于transformer的模型最近显示出强大的能力,能够对计算机视觉和图像处理任务输入信号中存在的丰富关系进行编码。他们的自我注意机制允许捕捉输入序列的远距离和近距离元素之间的依赖关系,这同样适合于探索不同风格图像子块中的内部关系。本方法提出了一种新的多尺度块transformer编码器,该编码器能够充分利用随机剪裁的子块层次特征中所有元素之间的关系,用于零次学习图像转换和风格化任务。在实际应用中许多现有图像转换方法的另一个障碍是它们需要成对的训练数据。为了克服这一限制,CycleGAN建议避免构建成对数据集的繁重工作。其循环一致性学习方案已成功应用于许多任务,如化妆迁移和医学图像处理。然而,CycleGAN需要大型数据集来学习双向风格映射。最近的一项工作在视频风格迁移问题上试图解决这个问题,仅使用少量的关键图片进行训练。但它主要关注如何将用户在关键帧上绘制的风格传输到视频中不同连续帧中的同一对象。它不适用于在包含不同对象的图像之间迁移风格。
[0003]目前的方法需要从大量数据中学习指定风格的特征分布,因此需要大量的同类风格的输入图片。另一方面,由于同类风格的图像同样拥有较高的差别,大量的数据训练弱化了个体的风格,生成结果偏向平均的风格模式。为了避免用户在寻找大型数据集以及不同风格的成对图像时遇到困难,本专利技术引入了循环一致性学习方案,以同时使用基于多尺度块的方式优化。

技术实现思路

[0004]针对现有技术不足,本专利技术提供了一种基于注意力循环对抗网络的风格迁移系统、方法、装置。
[0005]为实现上述专利技术目的,本专利技术的技术方案为:一种基于注意力循环对抗网络的风格迁移系统,包括两组图片嵌套式随机裁取模块和循环对抗生成模块;所述循环对抗生成模块包括两组生成器和与其对应的判别器;所述生成器包括多尺度块transformer编码器模块和动态过滤解码器模块;
[0006]所述图片嵌套式随机裁取模块用于对每张图片随机剪裁为嵌套的多张子图块;
[0007]所述多尺度块transformer编码器模块包括块级transformer编码器和跨块级transformer编码器,对图片嵌套式随机裁取模块得到的子图块进行编码,得到高维特征;
[0008]所述动态过滤解码器模块用于对多尺度块transformer编码器模块得到的高维特征进行反卷积,在反卷积阶段动态过滤浅层的高维特征,自适应地学习所需要的特征,以减少原始特征的影响;
[0009]所述循环对抗生成模块利用对抗损失、循环一致损失和重建损失约束双向映射的训练,完成图片的风格互相迁移。
[0010]本专利技术提出了一种应用于上述系统的基于注意力循环对抗网络的风格迁移方法,包括以下步骤:
[0011]S1,选取两张不同风格的训练图像A和B,其中A属于x域,B属于y域;利用图片嵌套式随机裁取模块进行数据预处理,在每轮迭代中对每张图像随机位置嵌套式剪裁,得到多个指定大小的嵌套子块组合;
[0012]S2,将步骤S1获取的预处理数据通过卷积降维、增加通道数,得到基于块的卷积特征,再输入多尺度块transformer编码器模块中进行编码,得到高维特征,学习块内部的自注意信息和块之间的自注意信息;
[0013]S3,利用动态过滤解码器模块对步骤S2得到的高维特征t
c
进行反卷积,通过反卷积和上采样并逐层融合内容全局信息,在最后一层利用动态滤波器过滤全局浅层的高维特征,自适应地学习所需的浅层内容全局特征,得到图像生成结果;
[0014]S4,基于循环一致对抗法同时训练两组生成器,通过其对应的判别器对抗损失,再利用像素级别的L2范式计算循环一致损失和重建损失,通过以上三个损失约束生成器训练,直至生成器收敛,最终完成训练图像A和B的风格互相迁移。
[0015]一种基于注意力循环对抗网络的风格迁移装置,包括一个或多个处理器,用于上述的基于注意力循环对抗网络的风格迁移方法。
[0016]一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时,用于实现上述的基于注意力循环对抗网络的风格迁移方法。
[0017]本专利技术的有益效果为:本专利技术提出的基于注意力循环对抗网络的风格迁移系统利用多尺度块transformer编码器,无需大量数据集预训练模型,也无需标注真实目标数据,仅需两张图片基于循环对抗的训练方案即可实现风格迁移。本专利技术方法提出了循环对抗transformer编码器和基于GAN的深度模型,以零次学习方式处理图像到图像的转换问题。本方法的网络在图像风格化应用中对普通用户的要求最低,并且在零次学习图像翻译任务上优于现有方法。本专利技术方法仅需要两张图片就能生成高质量的风格合理的迁移结果。其中由于单张图像的信息量较少,生成网络基于此很难训练出鲁棒的迁移网络,本专利技术方法采用多尺度块进行数据增强,深入挖掘图像的风格信息和结构分布,并通过多尺度块的transformer学习块内和块间的关系特征,基于循环一致的方案训练两张图片内容和风格
之间的映射。本专利技术提出的基于循环一致误差和重建误差的循环一致方案,解决了在风格迁移任务上缺少真实数据目标结果的问题,生成了合理分布的目标风格的迁移结果。
附图说明
[0018]图1是本专利技术的基于单张图像的风格迁移方法的流程图;
[0019]图2是本专利技术的基于生成对抗网络和transformer进行多尺度块零次学习的风格迁移方法的流程图;
[0020]图3是本专利技术方法在多尺度块transformer编码器的示意图;
[0021]图4是本专利技术方法在不同场景下图像翻译的结果;
[0022]图5是本专利技术方法在视频连续帧上的不同风格参考图的结果;
[0023]图6是本专利技术方法在输入风格为不同绘画图像场景下的迁移结果与现有方法本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于注意力循环对抗网络的风格迁移系统,其特征在于,包括两组图片嵌套式随机裁取模块和循环对抗生成模块;所述循环对抗生成模块包括两组生成器和与其对应的判别器;所述生成器包括多尺度块transformer编码器模块和动态过滤解码器模块;所述图片嵌套式随机裁取模块用于对每张图片随机剪裁为嵌套的多张子图块;所述多尺度块transformer编码器模块包括块级transformer编码器和跨块级transformer编码器,对图片嵌套式随机裁取模块得到的子图块进行编码,得到高维特征;所述动态过滤解码器模块用于对多尺度块transformer编码器模块得到的高维特征进行反卷积,在反卷积阶段动态过滤浅层的高维特征,自适应地学习所需要的特征,以减少原始特征的影响;所述循环对抗生成模块利用对抗损失、循环一致损失和重建损失约束双向映射的训练,完成图片的风格互相迁移。2.一种应用权利要求1所述系统的基于注意力循环对抗网络的风格迁移方法,其特征在于,包括以下步骤:S1,选取两张不同风格的训练图像A和B,其中A属于x域,B属于y域;利用图片嵌套式随机裁取模块进行数据预处理,在每轮训练中对每张图像随机位置嵌套式剪裁,得到K个指定大小的嵌套子块组合;S2,将步骤S1获取的预处理数据通过卷积降维、增加通道数,得到基于块的卷积特征,再输入多尺度块transformer编码器模块中进行编码,得到高维特征,学习块内部的自注意信息和块之间的自注意信息;S3,利用动态过滤解码器模块对步骤S2得到的高维特征进行反卷积,通过反卷积和上采样并逐层融合相应维度的内容全局信息,在最后一层利用动态滤波器过滤全局浅层的高维特征,自适应地学习所需的浅层内容全局特征,得到图像生成结果;S4,基于循环一致对抗法同时训练两组生成器,通过其对应的判别器对抗损失,再利用像素级别的L2范式计算循环一致损失和重建损失,通过以上三个损失约束生成器、判别器训练,直至网络收敛,最终完成训练图像A和B的风格互相迁移。3.根据权利要求2所述的方法,其特征在于,所述步骤(1)具体为:在每轮迭代中对训练图像A和B进行随机位置嵌套式剪裁,得到指定K个指定边长像素大小的块组合,将K个裁剪的子块重塑为边长像素H=W=256的图像和4.根据权利要求2所述的方法,其特征在于,所述步骤(2)具体包括以下子步骤:S201,将步骤S1获取的预处理图像通过卷积降维,增加通道数,得到h*w*c大小的块特征;接着将其展开为长度为h*w的维度为c的特征序列(其中h,w分别为特征图的高和宽,c为特征图的通道数);S202,将步骤S201展开后的特征序列送入块级transformer编码器T
p
中进行编码,学习得到子块级的关系特征;将该子块级的关系特征在通道维度上连接,以生成大小为(h,w,Kc)的特征;将该大小为(h,w,Kc)的特征输入跨块级transformer编码器T
c
以得到高维特征,即得跨多尺度块之间的关系特征t
c
。5.根据权利要求2所述的方法,其特征在于,所述步骤(3)具体为:由步骤S3学习到的...

【专利技术属性】
技术研发人员:高林何月陈岚李融陈姝宇
申请(专利权)人:中科计算技术创新研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1