当前位置: 首页 > 专利查询>复旦大学专利>正文

基于残差的级联渐进优化的多模态跨视角图像生成方法技术

技术编号:37441289 阅读:9 留言:0更新日期:2023-05-06 09:13
本发明专利技术提供了一种基于残差的级联渐进优化的多模态跨视角图像生成方法,用于对源视角图像进行视角转换,包括以下步骤:步骤1,获取源视角图像的真实目标视角图像,构建变分自编码器提取真实目标视角图像的第一隐编码;步骤2,使用对抗生成网络生成粗糙目标视角图像;步骤3,构建多级级联的残差优化网络优化粗糙目标视角图像,得到精细目标视角图像;步骤4,通过变分自编码器提取精细目标视角图像的第二隐编码并与第一隐编码计算重构损失;步骤5,构建整体损失函数;步骤6,训练对抗生成网络后对于需进行视角转换的源视角图像,对抗生成网络随机采样第二隐编码生成多模态的粗糙目标视角图像,并经过多级级联的残差优化网络进行图像质量优化。像质量优化。像质量优化。

【技术实现步骤摘要】
基于残差的级联渐进优化的多模态跨视角图像生成方法


[0001]本专利技术属于计算机图像生成
,具体涉及一种基于残差的级联渐进优化的多模态跨视角图像生成方法。

技术介绍

[0002]跨视角图像生成是一个预测当前场景从另一个视角观测的图像结果的任务,其作为计算机视觉中的一个重要算法,在无人机检测、地貌估计等众多领域有广泛的应用空间。随着无人机、遥感卫星等技术的进步,已有一些室外场景的大视角跨度的配对图像数据集出现,如何通过算法设计实现一个视图预测另一个视图的任务已经成为目前的主要问题。近年来对抗生成网络的出现和技术进步,使得机器生成图像成为了可能。因此,如何利用生成对抗网络来实现跨视角图像生成,受到了越来越多的关注。
[0003]在跨视角图像生成任务中,由于不同视角之间存在遮挡、视野范围不同等问题,即使是人类也很难推测另一个视角中可能出现哪些新的物体。文献(T.Zhou,S.Tulsiani,W.Sun,J.Malik,and A.A.Efros,“View synthesis by appearance flow,”in ECCV,2016,pp.286

301.)采用了一种光流结合对抗训练的方法,来推测简单场景或单个物体的小角度变换后的视图。而针对大视角跨度(如遥控卫星视角到地面视角)的跨视角图像生成算法仍存在生成效果差和生成模式单一的问题。文献(Max Jaderberg,Karen Simonyan,Andrew Zisserman,et al.,“Spatial transformer networks,”in NIPS,2015,pp.2017

2025.)提出了一种基于可学习仿射变换的方法实现视图的仿射变换,而当视角发生极大的变化,该方法难以拟合视图中的景深变化,更难以生成此前被遮挡的新物体或新区域。
[0004]文献(K.Regmi and A.Borji,“Cross

view image synthesis using conditional gans,”in CVPR,2018,pp.3501

3510.)提出了两种遥感

地面视角的跨视角生成算法,主要通过级联或并联一个语义估计网络来约束生成图像的语义分布。然而该方法生成的效果在语义分布上与真实分布情况仍有较大差距,进而导致生成图像的整体质量的降低,且生成模式单一。
[0005]文献(Tang,D.Xu,N.Sebe,Y.Wang,J.J.Corso,and Y.Yan,“Multi

channel attention selection GAN with cascaded semantic guidance for cross

view image translation,”in CVPR,2019,pp.2417

2426.)提出了一种语义引导的跨视角图像生成模型,通过引入语义分割图作为引导条件,并采用一种多通道注意力选择的粗糙到精细生成策略,从而提高生成图像的质量。然而该方法仍然没有考虑到生成模式单一的问题,难以模拟多变的室外场景风格(如天气、光照等变化因素),且其图像质量优化程度有限。

技术实现思路

[0006]本专利技术是为了解决上述问题而进行的,目的在于提供一种基于残差的级联渐进优化的多模态跨视角图像生成方法。
[0007]本专利技术提供了一种基于残差的级联渐进优化的多模态跨视角图像生成方法,用于
对源视角图像进行视角转换得到多模态的目标视角图像,具有这样的特征,包括以下步骤:
[0008]步骤1,获取源视角图像的真实目标视角图像,构建基于KL

散度约束的变分自编码器,通过变分自编码器将真实目标视角图像映射到低维向量,得到符合高斯分布的第一隐编码;
[0009]步骤2,使用基于U型网络的对抗生成网络,根据源视角图像、目标视角语义分割图以及第一隐编码生成粗糙目标视角图像;
[0010]步骤3,构建多个残差优化网络,并将多个残差优化网络进行级联来对粗糙目标视角图像进行渐进优化,得到精细目标视角图像;
[0011]步骤4,构建基于重构损失的变分自编码器对精细目标视角图像提取第二隐编码,并将第二隐编码与第一隐编码进行重构损失计算后将重构后的第二隐编码存储至隐编码空间;
[0012]步骤5,构建整体损失函数,包括用于多级级联的残差优化网络的对抗损失函数和重构损失函数以及用于变分自编码器的KL

散度约束和重构损失函数;
[0013]步骤6,对对抗生成网络进行训练,训练完成后,对于一个需进行视角转换的源视角图像,对抗生成网络从隐编码空间中随机采样高斯分布的第二隐编码,通过第二隐编码、源视角图像以及目标视角语义分割图生成多模态的粗糙目标视角图像,再经过多级级联的残差优化网络进行图像质量的渐进优化后得到多模态的精细目标视角图像。
[0014]在本专利技术提供的基于残差的级联渐进优化的多模态跨视角图像生成方法中,还可以具有这样的特征:其中,步骤1中,变分自编码器使用残差卷积神经网络构成,将输入的真实目标视角图像进行多次下采样至M维向量,并与随机采样的M维高斯分布向量计算KL

散度,计算公式如下:
[0015][0016][0017]公式(1)和公式(2)中,E()为变分自编码器,N(0,1)为标准高斯分布,p(z)和q(z)分别为标准高斯分布和网络拟合的隐编码概率分布。
[0018]在本专利技术提供的基于残差的级联渐进优化的多模态跨视角图像生成方法中,还可以具有这样的特征:其中,步骤2中,对抗生成网络的输入层为六通道,并通过双线性插值将目标视角语义分割图与源视角图像进行尺度统一。
[0019]在本专利技术提供的基于残差的级联渐进优化的多模态跨视角图像生成方法中,还可以具有这样的特征:其中,步骤3中,每个残差优化网络均包括一个四层卷积神经网络构成的残差估计网络和一个U型图像优化网络,每级残差优化网络均通过残差估计网络对输入图像进行残差估计得到残差图,再对输入图像与残差图进行加权求和后通过U型图像优化网络进行图像优化,优化后的图像作为下一级残差优化网络的输入图像,在经过多级残差优化网络优化后得到精细目标视角图像,每级残差优化网络的计算公式如下:
[0020][0021]公式(3)中,R
i
为第i级的残差优化网络,I
a
为输入的粗糙目标视角图像,S
pano
为目标视角语义分割图,I
res
为本级的残差估计网络估计得到的残差图,和分别为前
一级的残差优化网络优化后的图像和本级的残差优化网络优化后的图像。
[0022]在本专利技术提供的基于残差的级联渐进优化的多模态跨视角图像生成方法中,还可以具有这样的特征:其中,步骤1与步骤4中的变分自编码器参数共享。
[0023]在本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于残差的级联渐进优化的多模态跨视角图像生成方法,用于对源视角图像进行视角转换得到多模态的目标视角图像,其特征在于,包括以下步骤:步骤1,获取所述源视角图像的真实目标视角图像,构建基于KL

散度约束的变分自编码器,通过所述变分自编码器将所述真实目标视角图像映射到低维向量,得到符合高斯分布的第一隐编码;步骤2,使用基于U型网络的对抗生成网络,根据所述源视角图像、目标视角语义分割图以及所述第一隐编码生成粗糙目标视角图像;步骤3,构建多个残差优化网络,并将多个所述残差优化网络进行级联来对所述粗糙目标视角图像进行渐进优化,得到精细目标视角图像;步骤4,构建基于重构损失的所述变分自编码器对所述精细目标视角图像提取第二隐编码,并将所述第二隐编码与所述第一隐编码进行重构损失计算后将重构后的所述第二隐编码存储至隐编码空间;步骤5,构建整体损失函数,包括用于多级级联的所述残差优化网络的对抗损失函数和重构损失函数以及用于所述变分自编码器的KL

散度约束和重构损失函数;步骤6,对所述对抗生成网络进行训练,训练完成后,对于一个需进行视角转换的所述源视角图像,所述对抗生成网络从所述隐编码空间中随机采样高斯分布的所述第二隐编码,通过所述第二隐编码、所述源视角图像以及所述目标视角语义分割图生成多模态的所述粗糙目标视角图像,再经过多级级联的所述残差优化网络进行图像质量的渐进优化后得到多模态的所述精细目标视角图像。2.根据权利要求1所述的基于残差的级联渐进优化的多模态跨视角图像生成方法,其特征在于:其中,所述步骤1中,所述变分自编码器使用残差卷积神经网络构成,将输入的所述真实目标视角图像进行多次下采样至M维向量,并与随机采样的M维高斯分布向量计算KL

散度,计算公式如下:度,计算公式如下:公式(1)和公式(2)中,E()为所述变分自编码器,N(0,1)为标准高斯分布,p(z)和q(z)分别为标准高斯分布和网络拟合的隐编码概率分布。3.根据权利要求1所述的基于残差的级联渐进优化的多模态跨视角图像生成方法,其特征在于:其中,所述步骤2中,所述对抗生成网络的输入层为六通道,并通过双线性插值将所述目标视角语义分割图与所述源视角图像进行尺度统一。4.根据权利要求1所述的基于残差的级联渐进优化的多模态跨视角图像生成方法,其特征在于:其中,所述步骤3中,每个所述残差优化网络均包括一个四层卷积神经网络构成的残差估计网络和一个U型图像优化网络,每...

【专利技术属性】
技术研发人员:陈涛章伟希范佳媛
申请(专利权)人:复旦大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1