基于非对称卷积网络和注意力机制的跨视角图像生成方法技术

技术编号：28677395 阅读：25 留言：0更新日期：2021-06-02 02:54

本发明专利技术公开了一种基于非对称卷积网络和注意力机制的跨视角图像生成方法，该网络结构由两个部分组成：一阶段生成网络和二阶段生成网络。首先，将原始输入送到一阶段生成网络中生成粗略的结果，然后将一阶段网络生成的粗略结果作为输入送到二阶段生成网络中生成精细的结果，将其作为最终的结果输出。本方法在U‑net网络中嵌入非对称卷积来提高网络在不同尺度上提取对象特征的能力，并且使用空间自适应归一化代替传统的批归一化。此外，为了更好地学习来自不同视图的图像之间的对应关系，本方法使用SE模块来细化中间特征图，从而生成更真实的图像。最后，本方法还设计了一个额外的损失函数来增强网络的学习能力，从而实现更稳定的优化过程。

全部详细技术资料下载

【技术实现步骤摘要】
基于非对称卷积网络和注意力机制的跨视角图像生成方法
本专利技术涉及跨视角图像生成领域，具体为一种基于非对称卷积网络和注意力机制的跨视角图像生成方法。
技术介绍
图像翻译是近年来一种基于深度学习的热门技术，深度学习技术非常适合应用于图像翻译当中，最初在图像转换方向具有较好效果的是卷积神经网络，卷积神经网络对图像特征的高层特征的抽取能够使图像风格和内容进行分离。近年来，生成式对抗网络(GAN)成为了人工智能领域热门的研究方向，GAN在图像领域任务表现突出，GAN识别图像时，不但识别了图片的内容，还可以生成各种不同内容的图片，这种生成模型提出了一种全新的概念，大量的研究者投入到了GAN的研究当中。跨视角图片生成是图像翻译中一个长期存在的问题。首先，空中图像覆盖的区域比街景图像更宽，而街景图像包含更多关于物体(如房屋，道路，树木)的细节。因此，航空图像中的信息不仅噪声太大，而且对街景图像合成的信息量也较少。同样，一个网络需要估计很多区域来合成航空图像。第二，像汽车这样的瞬变物体(或人)在图像对应的位置不存在。它们是在不同的时间拍摄的。第三，街景不同的房屋鸟瞰看上去相似。这导致合成的街景图像包含具有相似颜色和纹理的建筑物，阻碍了生成建筑物的多样性。第四个挑战是由于通畅和闭塞而在两个视图中的道路之间的变化。尽管道路边缘在街道视图中几乎是线性的和可见的，但在空中观察它们通常被密集的遮挡和是扭曲的。第五，当使用模型生成的分割图作为地面真实值以提高生成图像的质量时，就像这里所做的那样，标签噪声和模型误差会在结果中引入一些伪像。...

【技术保护点】
1.一种基于非对称卷积网络和注意力机制的跨视角图像生成方法，其特征在于，包括以下步骤：/n(1)将俯视图Ia和街景图的语义图Sg输入到生成器1中，利用非对称卷积神经网络提取特征生成粗略的街景图Ig’和特征图F1；/n(2)将步骤(1)中生成的粗略的街景图Ig’输入到生成器2中，利用非对称卷积神经网络提取特征生成相应的粗略的语义图Sg’和特征图F2；/n(3)将步骤(1)和步骤(2)中的特征图F1和F2在通道上连接到一起输入到SE模块中，生成精细的特征图F1’和F2’；/n(4)将俯视图Ia和步骤(1)中生成的粗略的街景图Ig’在通道上连接起来，然后再和步骤(3)中生成的精细的特征图F1’和F2’连接起来输入到生成器3中，利用非对称卷积神经网络提取特征生成精细的街景图Ig”；/n(5)将步骤(4)中生成的精细的街景图Ig”输入到生成器2中，利用非对称卷积神经网络提取特征生成相应的精细的语义图Sg”作为最终的输出；/n(6)通过损失函数不断地更新学习参数从而生成更加真实的结果。/n

【技术特征摘要】
1.一种基于非对称卷积网络和注意力机制的跨视角图像生成方法，其特征在于，包括以下步骤：
(1)将俯视图Ia和街景图的语义图Sg输入到生成器1中，利用非对称卷积神经网络提取特征生成粗略的街景图Ig’和特征图F1；
(2)将步骤(1)中生成的粗略的街景图Ig’输入到生成器2中，利用非对称卷积神经网络提取特征生成相应的粗略的语义图Sg’和特征图F2；
(3)将步骤(1)和步骤(2)中的特征图F1和F2在通道上连接到一起输入到SE模块中，生成精细的特征图F1’和F2’；
(4)将俯视图Ia和步骤(1)中生成的粗略的街景图Ig’在通道上连接起来，然后再和步骤(3)中生成的精细的特征图F1’和F2’连接起来输入到生成器3中，利用非对称卷积神经网络提取特征生成精细的街景图Ig”；
(5)将步骤(4)中生成的精细的街景图Ig”输入到生成器2中，利用非对称卷积神经网络提取特征生成相应的精细的语义图Sg”作为最终的输出；
(6)通过损失函数不断地更新学习参数从而生成更加真实的结果。

2.根据权利要求1所述的一种基于非对称卷积网络和注意力机制的跨视角图像生成方法，其特征在于，所述利用非对称卷积神经网络提取特征的具体方法是：
在非对称卷积网络中，使用1x3、3x1和3x3的卷积组来替代原来的U-net网络中使用的3x3的卷积核来提取特征；
在训练阶段，非对称卷积神经网络将这三个卷积层的计算结果进行融合，获得最终输出；
在测试阶段，使用融合后的卷积核参数来初始化现有的网络，使网络结构和原始网络完全一样，网络参数采用了特征提取能力更强的参数即融合后的卷积核参数，因此在测试阶段不会增加计算量。

3.根据权利要求1所述的一种基于非对称卷积网络和注意力机制的跨视角图像生成方法，其特征在于，在所述非对称卷积神经网络提取过程中，使用空间自适应归一化代替传统的批归一化，生成空间自适应缩放因子，在归一化过程中保留了语义信息；
在所述空间自适应归一化中，仿射层是从语义分割图中学习得来；除了现在所学得的仿射参数需要空间自适应，还要...

【专利技术属性】
技术研发人员：丁浩，王彩玲，张晓峰，蒋国平，
申请(专利权)人：南京邮电大学，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人