基于注意力循环对抗网络的风格迁移系统、方法、装置制造方法及图纸

技术编号：33528149 阅读：12 留言：0更新日期：2022-05-19 01:53

本发明专利技术公开了一种基于注意力循环对抗网络的风格迁移系统、方法、装置，该方法首先选取两张不同风格图像的A,B图像输入网络；对A图像随机嵌套式剪裁多个小块输入多尺度块transformer编码器学习特征，通过反卷积和上采样逐层融合低维全局信息，最后融合动态过滤后的高维全局信息生成迁移结果；通过循环对抗的方式，同时训练A2B和B2A的映射；引入基于块的判别器和内容损失函数训练收敛，最终完成A,B的风格互相迁移。本发明专利技术首次提出了基于循环对抗网络的零次学习风格迁移方法，利用嵌套式剪裁小块挖掘块内部和块之间的关系特征，可以生成真实合理的迁移效果。优于现有方法，具有通用性强、数据依赖性小，风格生成个性化强等优点。优点。优点。

全部详细技术资料下载

【技术实现步骤摘要】
基于注意力循环对抗网络的风格迁移系统、方法、装置

[0001]本专利技术涉及计算机图形学以及深度学习领域，特别涉及一种基于注意力循环对抗网络的风格迁移系统、方法、装置。

技术介绍

[0002]图像到图像的翻译是一个长期存在的问题，它寻求将图像转换为参考图像的风格。尽管生成性对抗网络在生成高质量结果方面取得了巨大成功，但由于需要依赖具有相同风格的图像数据库，因此在实际应用中，它们中的大多数成本过高。最近的工作表明，对用户提供的图像中包含的小块内部统计信息进行建模，对于风格迁移任务是有效的。这种解决方案能够处理无法拥有大型数据集的普通用户提供的各种各样风格图像，这些输入时网络在训练前没有见过的。因此更加适用于实际应用。尽管现有的研究已经在零次或一次预处理方面取得了显著的成功，但其生成结果的真实性受到卷积核学习的深层特征描述能力的限制。由于局部感知场的视野受限，且用于编码像素间空间相关性的卷积核参数共享，当参考风格图像用不同的风格模式描绘图片场景的不同区域时，这些方法可能会产生非用户期待的风格化结果。因此，需要一个依赖于关于信号结构的最小先验知识的深度模型来提高风格化的质量。受自然语言处理领域的最新进展的启发，基于transformer的模型最近显示出强大的能力，能够对计算机视觉和图像处理任务输入信号中存在的丰富关系进行编码。他们的自我注意机制允许捕捉输入序列的远距离和近距离元素之间的依赖关系，这同样适合于探索不同风格图像子块中的内部关系。本方法提出了一种新的多尺度块transformer编码器，该编码器能够充分利用随机剪...

【技术保护点】

【技术特征摘要】
1.一种基于注意力循环对抗网络的风格迁移系统，其特征在于，包括两组图片嵌套式随机裁取模块和循环对抗生成模块；所述循环对抗生成模块包括两组生成器和与其对应的判别器；所述生成器包括多尺度块transformer编码器模块和动态过滤解码器模块；所述图片嵌套式随机裁取模块用于对每张图片随机剪裁为嵌套的多张子图块；所述多尺度块transformer编码器模块包括块级transformer编码器和跨块级transformer编码器，对图片嵌套式随机裁取模块得到的子图块进行编码，得到高维特征；所述动态过滤解码器模块用于对多尺度块transformer编码器模块得到的高维特征进行反卷积，在反卷积阶段动态过滤浅层的高维特征，自适应地学习所需要的特征，以减少原始特征的影响；所述循环对抗生成模块利用对抗损失、循环一致损失和重建损失约束双向映射的训练，完成图片的风格互相迁移。2.一种应用权利要求1所述系统的基于注意力循环对抗网络的风格迁移方法，其特征在于，包括以下步骤：S1，选取两张不同风格的训练图像A和B，其中A属于x域，B属于y域；利用图片嵌套式随机裁取模块进行数据预处理，在每轮训练中对每张图像随机位置嵌套式剪裁，得到K个指定大小的嵌套子块组合；S2，将步骤S1获取的预处理数据通过卷积降维、增加通道数，得到基于块的卷积特征，再输入多尺度块transformer编码器模块中进行编码，得到高维特征，学习块内部的自注意信息和块之间的自注意信息；S3，利用动态过滤解码器模块对步骤S2得到的高维特征进行反卷积，通过反卷积和上采样并逐层融合相应维度的内容全局信息，在最后一层利用动态滤波器过滤全局浅层的高维特征，自适应地学习所需的浅层内容全局特征，得到图像生成结果；S4，基于循环一致对抗法同时训练两组生成器，通过其对应的判别器对抗损失，再利用像素级别的L2范式计算循环一致损失和重建损失，通过以上三个损失约束生成器、判别器训练，直至网络收敛，最终完成训练图像A和B的风格互相迁移。3.根据权利要求2所述的方法，其特征在于，所述步骤(1)具体为：在每轮迭代中对训练图像A和B进行随机位置嵌套式剪裁，得到指定K个指定边长像素大小的块组合，将K个裁剪的子块重塑为边长像素H＝W＝256的图像和4.根据权利要求2所述的方法，其特征在于，所述步骤(2)具体包括以下子步骤：S201，将步骤S1获取的预处理图像通过卷积降维，增加通道数，得到h*w*c大小的块特征；接着将其展开为长度为h*w的维度为c的特征序列(其中h,w分别为特征图的高和宽，c为特征图的通道数)；S202，将步骤S201展开后的特征序列送入块级transformer编码器T
p
中进行编码，学习得到子块级的关系特征；将该子块级的关系特征在通道维度上连接，以生成大小为(h,w,Kc)的特征；将该大小为(h,w,Kc)的特征输入跨块级transformer编码器T
c
以得到高维特征，即得跨多尺度块之间的关系特征t
c
。5.根据权利要求2所述的方法，其特征在于，所述步骤(3)具体为：由步骤S3学习到的...

【专利技术属性】
技术研发人员：高林，何月，陈岚，李融，陈姝宇，
申请(专利权)人：中科计算技术创新研究院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人