一种基于模态差异缩减的RGB-T图像语义分割方法技术

技术编号:28944404 阅读:27 留言:0更新日期:2021-06-18 21:55
本发明专利技术公开了一种基于模态差异缩减的RGB‑T图像语义分割方法,包括(1)构建双向模态差异缩减子网络,对输入的RGB和热红外配准的图像对提取更具辨别力的RGB特征和热红外特征并同时构建监督学习模型:(2)构建自适应通道加权融合模块,通过加权融合模块对多层级RGB特征和热红外特征进行逐通道加权融合得到多层级融合特征;(3)获取多层级融合特征,再通过计算得到空间相关性矩阵和通道相关性矩阵;(4)将空间相关性矩阵和通道相关性矩阵通过反卷积操作恢复为全分辨率,经过通道变换操作以及softmax函数进行逐像素分类计算后预测语义分割掩膜图;(5)训练算法网络得到模型参数。

【技术实现步骤摘要】
一种基于模态差异缩减的RGB-T图像语义分割方法
本专利技术属于图像处理领域,涉及一种基于模态差异缩减的RGB-T图像语义分割方法,可用于计算机视觉任务中图像的预处理过程。
技术介绍
语义分割旨在利用模型或算法为自然图像中的每个像素分配类别标签。作为场景感知的关键技术之一,语义分割在自动驾驶、行人检测以及医学影像分析等计算机视觉任务中起着至关重要的作用。现有的语义分割方法可以分为两大类:一类是传统的语义分割方法,另一类是基于深度学习的语义分割方法。传统的语义分割方法主要通过低层次的手工特征与平面分类器结合来完成图像语义分割。这类方法鲁棒性差,在复杂场景下难以得到令人满意的结果。随着深度学习技术的广泛应用,基于深度学习的语义分割方法取得了突破性进展,相较于传统方法,其分割效果更好,鲁棒性更强。到目前为止,基于深度学习技术的RGB图像语义分割方法取得了突出的效果。然而,在光照条件差的情况下,这些算法的性能可能会显著下降。热红外图像可以提供目标的轮廓信息和语义信息,能够对RGB图像进行有效地补充。现有的RGB-T语义分割方法通常采用简单的策略来捕获RGB图像和热红外图像中的互补信息,如“YuxiangSun,WeixunZuo,andMingLiu.Rtfnet:Rgb-thermalfusionnetworkforsemanticsegmentationofurbanscenes.RAL,4(3):2576–2583,2019.”仅利用逐元素相加的方式在编码器中直接融合两个模态图像的各层级特征;“QishenHa,KoheiWatanabe,TakumiKarasawa,YoshitakaUshiku,andTatsuyaHarada.Mfnet:Towardsreal-timesemanticsegmentationforautonomousvehicleswithmulti-spectralscenes.InIROS,pages5108–5115,2017.”仅利用级联的方式在解码器中直接融合两个模态图像的各层级特征。这些方法没有考虑到由于成像机制不同导致的RGB图像和热红外图像的模态差异问题。这一问题进一步导致通过简单的融合策略无法充分地利用跨模态互补信息,从而降低RGB-T图像语义分割方法的精度。除此之外,待检测图像中目标的多样性,例如目标的类别、大小和形状,也是语义分割任务中的关键问题之一。在单模态RGB图像语义分割算法中,多尺度上下文信息及其远程依赖关系已经被证明是解决这一问题的有效方法。然而,在RGB-T语义分割任务中,多尺度上下文信息及其远程依赖关系还没有被很好地挖掘和利用,仅有“QishenHa,KoheiWatanabe,TakumiKarasawa,YoshitakaUshiku,andTatsuyaHarada.Mfnet:Towardsreal-timesemanticsegmentationforautonomousvehicleswithmulti-spectralscenes.InIROS,pages5108–5115,2017.”使用两个不同感受野的卷积并行的结构,来获取少量的上下文信息,这对于复杂场景下的RGB-T语义分割任务的效果非常有限,目标的多样性的问题仍然无法有效解决。
技术实现思路
专利技术目的:针对上述现有技术的不足,本专利技术目的在于提出一种基于模态差异缩减的RGB-T图像语义分割方法,主要解决现有技术未考虑到可见光图像和热红外图像的模态差异以及上下文信息利用不充分,进而导致的语义分割精度低的问题。实现本专利技术的关键是在网络编码阶段对RGB特征与热红外特征的模态差异进行缩减并融合,使融合后特征更具辨别力,同时对融合后特征的多尺度上下文信息及其远程依赖关系进行充分的挖掘。技术方案:一种基于模态差异缩减的RGB-T图像语义分割方法,包括如下步骤:(1)构建双向模态差异缩减子网络,对输入的RGB和热红外配准的图像对提取更具辨别力的RGB特征和热红外特征并同时构建监督学习模型:双向模态差异缩减子网络双向地缩减模态差异,通过缩减由图像转换方法生成的伪图像各层级特征与其相应真图像各层级特征的模态差异,以提取具有辨别力的RGB特征和热红外特征,然后分别提取RGB伪图像和热红外伪图像的各层级特征,以相应的RGB的真图像和热红外真图像的各层级特征作为其监督,构建监督学习模型;(2)构建自适应通道加权融合模块,通过加权融合模块对所述步骤(1)得到的多层级RGB特征和热红外特征进行逐通道加权融合得到多层级融合特征;(3)获取利用步骤(2)得到的多层级融合特征,再通过计算得到空间相关性矩阵和通道相关性矩阵,将其作用于多尺度特征中,建立多尺度上下文信息及其空间、通道维度上的长期依赖之间的联系;(4)将步骤(3)中得到的空间相关性矩阵和通道相关性矩阵通过反卷积操作恢复为全分辨率,经过通道变换操作以及softmax函数进行逐像素分类计算后预测语义分割掩膜图;(5)训练算法网络得到模型参数:在训练数据集上,对步骤(4)的预测语义分割掩膜图和步骤(1)中生成的伪图像特征采用监督学习模型,通过加权后的交叉熵损失函数和平均绝对误差损失函数,端对端地完成算法网络训练,得到网络模型参数。进一步地,步骤(1)中所述的双向模态差异缩减子网络包含从RGB模态到热红外模态以及从热红外模态到RGB模态两个部分,上述两个部分均采用结构相同的“编码器-解码器-编码器”网络,其中编码器使用ResNet-50网络和ResNet-18网络,解码器使用图像生成网络,通过双线性插值的上采样策略,以生成伪图像。更进一步地,在步骤(1)中,通过同时缩减由ResNet-18网络提取生成的伪热红外图像的五个不同分辨率的层级特征和由ResNet-18网络提取其相应的真热红外图像的五个不同分辨率的层级特征间的差异,以及由ResNet-18网络提取生成的伪RGB图像的五个不同分辨率的层级特征和由ResNet-18网络提取其相应的真RGB图像的五个不同分辨率的层级特征间的差异;以获取由ResNet-50网络提取的具有更强辨别力的RGB多层级特征和由ResNet-50网络提取的其相应的热红外多层级特征利用对进行监督,利用利用对进行监督。更进一步地,步骤(2)中所述的自适应通道加权融合模块是将步骤(1)得到的RGB图像的前四层特征和其相应的热红外图像前四层特征作为输入,自适应地生成对应层级的RGB权重向量W1、W2、W3、W4以及对应层级的热红外权重向量1-W1、1-W2、1-W3、1-W4,最后通过加权求和的方式实现跨模态信息融合,得到多层级融合特征进一步地,步骤(3)中多尺度空间、通道上下文模块的输入分别为和以建立多尺度上下文信息及其在空间、通道维度上的长期依赖的交互,其中:(31)多尺度空间上下文模块包括一个洞卷积金字塔结构,一个自空间相关性矩阵,一个跨空间相关性矩阵;(32)多尺度通道上下文模块包括一本文档来自技高网
...

【技术保护点】
1.一种基于模态差异缩减的RGB-T图像语义分割方法,其特征在于,包括如下步骤:/n(1)构建双向模态差异缩减子网络,对输入的RGB和热红外配准的图像对提取更具辨别力的RGB特征和热红外特征并同时构建监督学习模型:/n双向模态差异缩减子网络双向地缩减模态差异,通过缩减由图像转换方法生成的伪图像各层级特征与其相应真图像各层级特征的模态差异,以提取具有辨别力的RGB特征和热红外特征,然后分别提取RGB伪图像和热红外伪图像的各层级特征,以相应的RGB的真图像和热红外真图像的各层级特征作为其监督,构建监督学习模型;/n(2)构建自适应通道加权融合模块,通过加权融合模块对所述步骤(1)得到的多层级RGB特征和热红外特征进行逐通道加权融合得到多层级融合特征;/n(3)获取利用步骤(2)得到的多层级融合特征,再通过计算得到空间相关性矩阵和通道相关性矩阵,将其作用于多尺度特征中,建立多尺度上下文信息及其空间、通道维度上的长期依赖之间的联系;/n(4)将步骤(3)中得到的空间相关性矩阵和通道相关性矩阵通过反卷积操作恢复为全分辨率,经过通道变换操作以及softmax函数进行逐像素分类计算后预测语义分割掩膜图;/n(5)训练算法网络得到模型参数:/n在训练数据集上,对步骤(4)的预测语义分割掩膜图和步骤(1)中生成的伪图像特征采用监督学习模型,通过加权后的交叉熵损失函数和平均绝对误差损失函数,端对端地完成算法网络训练,得到网络模型参数。/n...

【技术特征摘要】
1.一种基于模态差异缩减的RGB-T图像语义分割方法,其特征在于,包括如下步骤:
(1)构建双向模态差异缩减子网络,对输入的RGB和热红外配准的图像对提取更具辨别力的RGB特征和热红外特征并同时构建监督学习模型:
双向模态差异缩减子网络双向地缩减模态差异,通过缩减由图像转换方法生成的伪图像各层级特征与其相应真图像各层级特征的模态差异,以提取具有辨别力的RGB特征和热红外特征,然后分别提取RGB伪图像和热红外伪图像的各层级特征,以相应的RGB的真图像和热红外真图像的各层级特征作为其监督,构建监督学习模型;
(2)构建自适应通道加权融合模块,通过加权融合模块对所述步骤(1)得到的多层级RGB特征和热红外特征进行逐通道加权融合得到多层级融合特征;
(3)获取利用步骤(2)得到的多层级融合特征,再通过计算得到空间相关性矩阵和通道相关性矩阵,将其作用于多尺度特征中,建立多尺度上下文信息及其空间、通道维度上的长期依赖之间的联系;
(4)将步骤(3)中得到的空间相关性矩阵和通道相关性矩阵通过反卷积操作恢复为全分辨率,经过通道变换操作以及softmax函数进行逐像素分类计算后预测语义分割掩膜图;
(5)训练算法网络得到模型参数:
在训练数据集上,对步骤(4)的预测语义分割掩膜图和步骤(1)中生成的伪图像特征采用监督学习模型,通过加权后的交叉熵损失函数和平均绝对误差损失函数,端对端地完成算法网络训练,得到网络模型参数。


2.如权利要求1所述的一种基于模态差异缩减的RGB-T图像语义分割方法,其特征在于,步骤(1)中所述的双向模态差异缩减子网络包含从RGB模态到热红外模态以及从热红外模态到RGB模态两个部分,上述两个部分均采用结构相同的“编码器-解码器-编码器”网络,其中编码器使用ResNet-50网络和ResNet-18网络,解码器使用图像生成网络,通过双线性插值的上采样策略,以生成伪图像。


3.如权利要求2所述的一种基于模态差异缩减的RGB-T图像语义分割方法,其特征在于,在步骤(1)中,通过同时缩减由ResNet-18网络提取生成的伪热红外图像的五个不同分辨率的层级特征和由ResNet-18网络提取其相应的真热红外图像的五个不同分辨率的层级特征间的差异,以及
由ResNet-18网络提取生成的伪RGB图像的五个不同分辨率的层级特征和由ResNet-18网络提取其相应的真RGB图像的五个不同分辨率的层级特征间的差异;
以获取由ResNet-50网络提取的具有更强辨别力的RGB多层级特征和由ResNet-50网络提取的其相应的热红外多层级特征
利用对进行监督,利用利用对进行监督。


4.如权利要求3所述的一种基于模态差异缩减的RGB-T图像语义分割方法,其特征在于,步骤(2)中所述的自适应通道加权融合模块是将步骤(1)得到的RGB图像的前四层特征和其相应的热红外图像前四层特征作为输入,自适应地生成对应层级的RGB权重向量W1、W2、W3、W4以及对应层级的热红外权重向量1-W1、1-W2、1-W3、1-W4,最后通过加权求和的方式实现跨模态信息融合,得到多层级融合特征


5.如权利要求1所述的一种基于模态差异缩减的RGB-T图像语义分割方法,其特征在于,步骤(3)中多尺度空间、通道上下文模块的输入分别为和以建立多尺度上下文信息及其在空间、通道维度上的长期依赖的交互,其中:
(31)多尺度空间上下文模块包括一个洞卷积金字塔结构,一个自空间相关性矩阵,一个跨空间相关性矩阵;
(32)多尺度...

【专利技术属性】
技术研发人员:张强赵什陆黄年昌张鼎文韩军功
申请(专利权)人:西安电子科技大学
类型:发明
国别省市:陕西;61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1