当前位置: 首页 > 专利查询>东北大学专利>正文

一种基于Cascade-GAN的多波段红外图像融合方法技术

技术编号:31237535 阅读:20 留言:0更新日期:2021-12-08 10:22
本发明专利技术涉及一种基于Cascade

【技术实现步骤摘要】
一种基于Cascade

GAN的多波段红外图像融合方法


[0001]本专利技术涉及图像融合
,尤其涉及一种基于Cascade

GAN的多波段红外图像融合方法。

技术介绍

[0002]红外传感器通过收集外界的红外辐射,利用辐射差产生红外图像可将目标与背景区分开,且具有能够日夜工作的特性,使红外传感器在目标识别、检测、视觉感知等领域应用广泛。然而,红外传感器虽具备大量适用于探测的优点,但也有其局限性,随着应用任务的复杂化和应用环境的扩展,以及红外隐身和干扰技术的进步,红外热成像系统在很多应用场景下存在对目标的探测识别能力较差、自动预警系统虚警率高以及动态范围不足等缺陷,因此如何通过改善红外图像质量以提高系统性能就显得格外重要。
[0003]图像融合方法能够利用目标在不同红外波段图像里固有的、较强的差异性和互补性,获取目标更多的有效信息,将其融合从而获得更为健壮和信息丰富的融合图像,以此有效的提高系统的效能。目前深度学习是解决高级视觉任务的重要手段,但针对图像融合的深度学习技术大多数都是围绕着可见光图像和红外图像的融合展开,而针对多波段红外图像的融合仍旧采用传统技术,例如多尺度变换、稀疏表示等方法。多尺度变换将源图像分解成不同尺度进行特征提取,并采用适当的融合策略对各个尺度特征进行融合,然后利用逆算子重建融合后的图像。基于稀疏低秩表示学习方法需要从大量高质量的自然图像中学习过完备字典,并对每个图像片段进行稀疏编码,根据给定的融合规则融合稀疏表示系数,最后利用学习到的过完备字典融合系数重建融合图像。以上两种传统方法均需要手动选择变换方法和制定融合规则,且过程非常复杂。
[0004]现有的传统融合方法针对不同源图像的融合采用相同的变换或表示,但是这对红外多波段的图像融合并不适用,因为不同波段的红外图像存在波长长短的区别,因此对同一场景可能存在不同的表现形式。此外,现有方法中融合规则大多采用人工设计的方式,且越来越复杂,实现难度和计算代价也在不断提高。

技术实现思路

[0005]针对上述问题,本专利技术的目的在于提供一种基于Cascade

GAN的多波段红外图像融合方法,利用目标在不同红外波段图像里固有的、较强的差异性和互补性,获取目标更多的有效信息。实现一个以生成对抗网络GAN作为基础网络的统一深度学习框架,进行红外多波段图像去噪与图像融合的联合处理,建立总损失函数,利用图像融合过程中的语义信息来指导图像去噪,并通过图像去噪提高输出的融合图像的质量,使最终得到的图像同时具备高信噪比和高信息熵两种特性,以保证后续利用图像进行的目标识别与目标检测等高级视觉任务的顺利进行。
[0006]本专利技术采用的技术方案如下:
[0007]本专利技术所提出的一种基于Cascade

GAN的多波段红外图像融合方法,包括以下步
卷积内核和泄漏的ReLU激活函数,以及批处理归一化;在所有的卷积层中,将stride设置为2;最后一个线性层根据前四个卷积层提取的特征对输入进行判别,输出概率向量。
[0016]进一步的,所述注意力机制包括通道注意力模块CAM和空间注意力模块SAM两部分,两部分按顺序连接,中间特征映射首先输入CAM,然后将通道精细化特征映射作为SAM的输入;其中,为了在每个通道中聚集丰富的信息,CAM分别使用max

pooling、overlapping

pooling和avg

pooling来挤压输入特征图的空间信息;其中overlapping

pooling的应用可以提升预测精度,减缓过拟合;经过压缩操作,可以得到三个通道向量;然后,这三个通道向量送入共享全连接层与一个隐藏层,再经由元素级求和操作和sigmoid函数激活三个通道向量,由此便可以获得通道关注向量;将其与输入特征映射相乘,便使得网络对刚兴趣通道区域有更多的关注。
[0017]进一步的,所述步骤S4具体包括:
[0018]分别设定损失函数用于指导两个网络的生成器和判别器的优化:
[0019]无噪声的环境下,指导FuGAN的生成器训练的损失函数由G
Fu
与D
Fu
之间的对抗损失和控制高频特征损失的感知损失以及控制低频特征损失的SSIM损失组成:
[0020][0021]其中λ1、λ2是在训练中逐步修改的比率;
[0022]对抗损失的定义如下:
[0023][0024]其中e为判定融合图像的概率标签;由于判别器D
Fu
是一个多分类器,输出1
×
3概率向量,因此,D
Fu
(
·
)[0]表示向量的第一项,即融合图像为短波红外图像的概率,同样,D
Fu
(
·
)[1]、D
Fu
(
·
)[2]表示向量的第二项和第三项,即融合图像为中波红外图像、长波红外图像的概率;由于生成器G
Fu
期望判别器D
Fu
不能区分融合图像和真实数据,所以e设为1;
[0025]感知损失:需要将源图像的高级特征与训练网络生成的融合图像的同级特征进行比较;选择目前现成的VGG

16网络模型的2,4,6,8层作为特征提取子网络;将三种波段的红外图像沿通道连接得到三通道图像F,作为参考图像输入,将相同的三幅单通道融合图像连接后作为融合结果输入I:
[0026][0027]其中j表示VGG

16网络的第j层;C
j
H
j
W
j
表示第j层通道的特征映射,大小为H
j
W
j
;φ
j
(F)和φ
j
(I))分别表示由VGG

16网络的第j层得到的输出特征映射,最终损耗用L2范数计算;通过感知损失项的约束,可以促使生成器G
Fu
得到视觉效果良好的融合图像;
[0028]SSIM损失:约束融合图像的相关性损失、亮度失真和对比度失真,SSIM损失定义如下:
[0029][0030]其中ω表示权重,ω1+ω2+ω3=1;
[0031]采用最小二乘生成对抗网络,该网络采用最小二乘损失函数作为判别器的损失函
数,FuGAN的判别器D
Fu
的损耗函数L
Df
由三种红外源图像和融合图像的决策损耗四部分组成;用来表示这四种损耗:
[0032][0033]考虑鉴别器输出的1
×
3个向量,我们有P
SWIR
=D
Fu
(x)[0]、P
MWIR
=D
Fu
(x)[1]、P
LWIR
=D
Fu
(x)[2]本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于Cascade

GAN的多波段红外图像融合方法,其特征在于,所述方法包括以下步骤:S1、数据集准备:通过红外传感器分别采集相同场景下短波红外、中波红外、长波红外图像,并对图像进行加噪处理,其中原始图像和加噪后的图像分别保存在Image文件夹和Noise文件夹下;将相同场景下的原始红外图像及加噪后图像对应的长波、中波、短波分别沿通道进行连接,作为训练数据集输入Cascade

GAN进行无监督学习;S2、DnGAN网络设计:将原始图像与加噪后的图像输入DnGAN,DnGAN包括生成器G
Dn
和判别器D
Dn
两部分,二者存在对抗博弈的关系,生成器G
Dn
不断生成更接近原始图像的去噪图像,而判别器D
Dn
确定原始图像和生成的去噪图像之间的差异,最终的目标是建立一个去噪生成网络,使其能够生成与原始无噪图像无法区分的去噪图像;S3、FuGAN网络设计:将去噪图像输入融合生成对抗网络FuGAN,同样是以生成对抗网络作为基础网络,通过生成器G
Fu
与判别器D
Fu
的对抗博弈实现高质量融合图像的输出;生成器G
Fu
通过编码器提取图像特征,通过解码器重建输出单通道融合图像;判别器D
Fu
对其输出的图像分别根据三种波段的单通道红外源图像进行鉴别,输出对应的判别概率向量,作为反馈来驱动生成器G
Fu
学习输入图像的数据分布进而进行融合,直到判别器D
Fu
无法对生成器G
Fu
输出的图像判别真伪;S4、训练策略:首先,利用在无噪声的环境下训练好的网络来初始化融合生成对抗网络FuGAN,然后以端到端的方式训练两个网络的级联,同时在这过程确定FuGAN的权值;去噪生成对抗网络DnGAN中的权值也通过后续网络的误差反向传播来更新。2.根据权利要求1所述的一种基于Cascade

GAN的多波段红外图像融合方法,其特征在于:所述步骤S2中,生成器G
Dn
主要由编码器和解码器两大部分组成,并引入上下采样对操作;通过编码器提取图像的特征,并对特征进行下采样操作,获得不同尺度的特征图,然后再在该尺度上进行一次特征提取操作,最终通过解码器实现两个尺度的特征融合并实现去噪图像的重建;通过下采样和上采样操作对,实现特征图的缩放,实现卷积核感受野的变化,从而利用更多的上下文信息,以此提高去噪效果。3.根据权利要求2所述的一种基于Cascade

GAN的多波段红外图像融合方法,其特征在于:所示编码器由4个CNN组成,4个CNN从上到下分别有3
×
3、1
×
1、3
×
3和1
×
1大小的128、32、32、128个核;为了缓解梯度的消失,弥补特征的损失,重用之前计算的特征,引入DenseNet,并以前馈的方式在每一层和所有层之间建立短的直接连接;所示解码器同样为4层CNN,与编码器的结构相似,只是四个卷积层的内核数分别为256、64、64和256;所有卷积层的步数设为1;为了避免爆炸/消失的梯度和加速训练,应用批归一化;采用ReLU激活函数加快收敛速度,避免梯度稀疏;下采样采用max pooling,步长为2;上采样操作通过4
×
4核的反卷积来实现,目的是将feature map扩展到与之前尺度相同的空间大小。4.根据权利要求2所述的一种基于Cascade

GAN的多波段红外图像融合方法,其特征在于:所述判别器D
Dn
本质上是一个二分类器,在第一层到第三层的卷积层中使用3
×
3卷积内核和ReLU激活函数,从输入图像中提取特征映射,然后对其进行分类;所有卷积层的步幅设为2;设置最后一层利用tanh激活函数生成一个标量,该标量表示输入数据来源于原始图像而非G
Dn
生成的假图像的概率。5.根据权利要求1所述的一种基于Cascade

GAN的多波段红外图像融合方法,其特征在
于:所述步骤S3中,生成器G
Fu
主要由编码器和解码器两大部分组成;编码器由5个卷积层组成,并在第一层和第四层卷积层后引入注意力机制,聚焦于对当前任务更为关键的信息,降低对其他信息的关注度,从而提高整个网络的效率;引入DenseNet,并以前馈的方式在每一层和所有层之间建立短的直接连接,以此缓解梯度的消失,弥补特征的损失,重用之前计算的特征;判别器由4个卷积层和一个线性层组成;这四个卷积层使用3
×
3卷积内核和泄漏的ReLU激活函数,以及批处理归一化;在所有的卷积层中,将stride设置为2;最后一个线性层根据前四个卷积层提取的特征对输入进行判别,输出概率向量。6.根据权利要求5所述的一种基于Cascade

GAN的多波段红外图像融合方法,其特征在于:所述注意力机制包括通道注意力模块CAM和空间注意力模块SAM两部分,两部分按顺序连接,中间特征映射首先输入CAM,然后将通道精细化特征映射作为SAM的输入;其中,为了在每个通道中聚集丰富的信息,CAM分别使用max

pooling、overlapping

pooling和avg

pooling来挤压输入特征图的空间信息;其中overlapping

pooling的应用可以提升预测精度,减缓过拟合;经过压缩操作,可以得到三个通道...

【专利技术属性】
技术研发人员:彭玉怀王文茜郭钰王晨路吴菁晶
申请(专利权)人:东北大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1