当前位置: 首页 > 专利查询>南通大学专利>正文

一种面向多模态图像能见度检测的神经网络构建方法技术

技术编号:29759464 阅读:17 留言:0更新日期:2021-08-20 21:12
本发明专利技术公开了一种面向多模态图像能见度检测的神经网络构建方法,包括如下步骤:构建基于注意力模型的多尺度可变形卷积可见光图像特征提取子网络;构建基于注意力模型的多尺度可变形卷积远红外图像特征提取子网络;构建可见光‑远红外双模态图像特征融合网络模块;将上述两个子网络输出作为融合网络的输入,串联组合成双模态能见度等级分类网络。采用本发明专利技术方法,通过注意力模型调节的多尺度可变形卷积神经网络可有效提取不同感受野下、不同浓度雾气的大气特征;而双模态图像特征的融合可以实现模态互补,提供更加丰富而有效的大气特征信息,显著提高小样本条件下能见度检测的准确性与鲁棒性。

【技术实现步骤摘要】
一种面向多模态图像能见度检测的神经网络构建方法
本专利技术涉及图像能见度等级分类、检测技术,尤其涉及一种利用双模态图像(可见光-红外图像对儿)作为输入信号,通过多尺度特征提取-多模态特征融合网络实现模态特征互补,进而对能见度等级进行分类和检测的方法。
技术介绍
雾、霾等恶劣天气可导致大气浑浊、透明度变小及能见度陡降,是诱发交通事故的重要原因,据统计发生在恶劣天气下的交通事故占总交通事故的24%。能见度检测可有效地监测大气环境,对潜在的交通事故提供可靠的预警依据。基于图像的能见度检测方法具有设备低廉、安装方便等优势。因此,研究基于图像处理的能见度检测算法已成为研究热点。目前,常见的基于图像的能见度检测方法大概可以分为以下两种。“统计学模型”:利用物理模型或者概率模型来估计能见度值。该方法需要设置人工辅助目标物,建立基于亮度值对比度的非线性描述函数或者利用大气散射模型,操作复杂且方法精度较低。“深度学习法”:利用卷积神经网络对输入可见光彩色图像的能见度等级进行分类,该方法性能受到训练样本的质量和数量的影响。综上所述,现有的基于图像的能见度检测深度学习方法存在如下不足:一、现有方法均采用可见光图像作为输入,观测对象数据单一;二、卷积神经网络采用单一、固定的“静态”卷积核形式,无法灵活、有效地描述不同尺度、不同程度能见度下的大气图像特征;导致检测模型在小样本条件下的准确率与鲁棒性均较低。
技术实现思路
为了解决上述问题,本专利技术的主要目的在于提供一种面向可见光-远红外图像双模态能见度等级分类的多尺度特征融合网络构建方法,其先进性表现为:一、通过设计多尺度、可变形的“动态”卷积核对不同模态、不同尺度、不同程度能见度下的大气图像特征进行提取与表达。二、利用通道-空间联合注意力模型将不同模态、不同尺度、不同形态卷积核下的特征进行融合,显著提高小样本下神经网络能见度的检测准确率和鲁棒性。为达到上述目的,本专利技术的技术方案是:一种面向多模态图像能见度检测的神经网络构建方法,该方法包括:步骤1)构建基于注意力模型调节的多尺度可变形卷积可见光图像特征提取网络模块;步骤2)构建基于注意力模型调节的多尺度可变形卷积远红外图像特征提取网络模块;步骤3)构建可见光-远红外双模态图像特征融合网络模块;步骤4)将步骤1)可见光图像特征提取网络模块与步骤2)远红外图像特征提取网络模块输出的特征拼接,作为步骤3)可见光-远红外双模态图像特征融合网络的输入,串联组合成双模态能见度等级分类网络。进一步的,所述的步骤1)的具体内容为:“可见光图像特征提取网络模块”的网络结构共有五层,分别是输入层、卷积层、多尺度特征融合层1、可变形卷积层、多尺度特征融合层2。其中,输入层为尺寸224×224,通道数为3的可见光输入图像;卷积层由3×3卷积核与5×5卷积核这两种不同尺度下的卷积组成,卷积核个数均为64,每个卷积层后接一个Relu激活层和BatchNormalization层。多尺度特征融合层1是利用注意力机制对卷积层所输出的不同卷积尺度下的特征进行融合,具体操作如下:将卷积层中3×3卷积得到的特征F3×3(112×112×64)与5×5卷积得到的特征F5×5(112×112×64)进行拼接,得到拼接特征F(112×112×128)。然后,分别进行一个空间的全局平均池化和最大池化得到两个1×1×128的通道描述。接着,再将它们分别送入一个两层的神经网络,第一层神经元个数为128/r,r为系数,激活函数为Relu,第二层神经元个数为128。该两层的神经网络共享。再将得到的两个特征相加后经过一个Sigmoid激活函数得到权重系数Mc。Mc则对应不同卷积尺度下各通道域的重要性,将Mc与F相乘得到注意力修正后的多尺度拼接特征。最后,将修正后的拼接特征重新拆分成两个112×112×64的多尺度注意力修正特征,并将这两个特征做元素相加;可变形卷积层的输入为上一层的多尺度注意力修正融合特征,卷积核个数为128,每个卷积层后接一个Relu激活层和BatchNormalization层。具体操作过程如下:首先,利用卷积的输出得到可变形卷积所需要的位移量。然后,将其作用在卷积核上,达到可变形卷积的效果。多尺度特征融合层2是利用注意力机制对可变形卷积层所输出的不同卷积尺度下的特征进行融合,具体操作如下:将可变形卷积层中3×3卷积得到的特征F3×3(56×56×128)与5×5卷积得到的特征F5×5(56×56×128)进行拼接,得到拼接特征F(56×56×256)。然后,分别进行一个空间的全局平均池化和最大池化得到两个1×1×256的通道描述。接着,再将它们分别送入一个两层的神经网络,第一层神经元个数为256/r,r为系数,激活函数为Relu,第二层神经元个数为256。这个两层的神经网络是共享的。再将得到的两个特征相加后经过一个Sigmoid激活函数得到权重系数Mc。Mc则对应不同卷积尺度下各通道域的重要性,将Mc与F相乘得到注意力修正后的多尺度拼接特征。最后,将修正后的拼接特征重新拆分成两个56×56×128的多尺度注意力修正特征,并将这两个特征做元素相加。“可见光图像特征提取网络”的输出为56×56×128的可见光图像特征。进一步的,所述的步骤2)的具体内容为:“远红外图像特征提取网络模块”的网络结构共有五层,分别是输入层、卷积层、多尺度特征融合层1、可变形卷积层、多尺度特征融合层2。其中,输入层为尺寸224×224,通道数为3的远红外输入图像;卷积层由3×3卷积核与5×5卷积核这两种不同尺度下的卷积组成,卷积核个数均为64,每个卷积层后接一个Relu激活层和BatchNormalization层。多尺度特征融合层1是利用注意力机制对卷积层所输出的不同卷积尺度下的特征进行融合,具体操作如下:将卷积层中3×3卷积得到的特征F3×3(112×112×64)与5×5卷积得到的特征F5×5(112×112×64)进行拼接,得到拼接特征F(112×112×128)。然后,分别进行一个空间的全局平均池化和最大池化得到两个1×1×128的通道描述。接着,再将它们分别送入一个两层的神经网络,第一层神经元个数为128/r,r为系数,激活函数为Relu,第二层神经元个数为128。注意,这个两层的神经网络是共享的。再将得到的两个特征相加后经过一个Sigmoid激活函数得到权重系数Mc。Mc则对应不同卷积尺度下各通道域的重要性,将Mc与F相乘得到注意力修正后的多尺度拼接特征。最后将修正后的拼接特征重新拆分成两个112×112×64的多尺度注意力修正特征,并将这两个特征做元素相加。可变形卷积层的输入为上一层的多尺度注意力修正融合特征,卷积过程与卷积层类似,卷积核个数为128,每个卷积层后接一个Relu激活层和BatchNormalization层。具体操作过程如下:首先,利用卷积的输出得到可变形卷积所需要的位移量,然后,将其作用在卷积核上,达到可变形卷积的效果。多尺度特征融合层2是利用注意力机制本文档来自技高网...

【技术保护点】
1.一种面向多模态图像能见度检测的神经网络构建方法,包括如下步骤:/n步骤1)构建基于注意力模型调节的多尺度可变形卷积可见光图像特征提取网络模块;/n步骤2)构建基于注意力模型调节的多尺度可变形卷积远红外图像特征提取网络模块;/n步骤3)构建可见光-远红外双模态图像特征融合网络模块;/n步骤4)将步骤1)可见光图像特征提取网络模块与步骤2)远红外图像特征提取网络模块输出的特征拼接,作为步骤3)可见光-远红外双模态图像特征融合网络的输入,串联组合成双模态能见度等级分类网络。/n

【技术特征摘要】
1.一种面向多模态图像能见度检测的神经网络构建方法,包括如下步骤:
步骤1)构建基于注意力模型调节的多尺度可变形卷积可见光图像特征提取网络模块;
步骤2)构建基于注意力模型调节的多尺度可变形卷积远红外图像特征提取网络模块;
步骤3)构建可见光-远红外双模态图像特征融合网络模块;
步骤4)将步骤1)可见光图像特征提取网络模块与步骤2)远红外图像特征提取网络模块输出的特征拼接,作为步骤3)可见光-远红外双模态图像特征融合网络的输入,串联组合成双模态能见度等级分类网络。


2.根据权利要求1所述的面向多模态图像能见度检测的神经网络构建方法,其特征在于:所述的步骤1)的具体内容为:
“可见光图像特征提取网络模块”的网络结构共有五层,分别是输入层、卷积层、多尺度特征融合层1、可变形卷积层、多尺度特征融合层2,其中,输入层为尺寸224×224,通道数为3的可见光输入图像;卷积层由3×3卷积核与5×5卷积核这两种不同尺度下的卷积组成,卷积核个数均为64,每个卷积层后接一个Relu激活层和BatchNormalization层;
多尺度特征融合层1是利用注意力机制对卷积层所输出的不同卷积尺度下的特征进行融合,具体操作如下:将卷积层中3×3卷积得到的特征F3×3(112×112×64)与5×5卷积得到的特征F5×5(112×112×64)进行拼接,得到拼接特征F(112×112×128);然后,分别进行一个空间的全局平均池化和最大池化得到两个1×1×128的通道描述;接着,再将它们分别送入一个两层的神经网络,第一层神经元个数为128/r,r为系数,激活函数为Relu,第二层神经元个数为128,该两层的神经网络共享;再将得到的两个特征相加后经过一个Sigmoid激活函数得到权重系数Mc,Mc则对应不同卷积尺度下各通道域的重要性,将Mc与F相乘得到注意力修正后的多尺度拼接特征;最后,将修正后的拼接特征重新拆分成两个112×112×64的多尺度注意力修正特征,并将这两个特征做元素相加;
可变形卷积层的输入为上一层的多尺度注意力修正融合特征,卷积核个数为128,每个卷积层后接一个Relu激活层和BatchNormalization层,具体操作过程如下:首先,利用卷积的输出得到可变形卷积所需要的位移量,然后,将其作用在卷积核上,达到可变形卷积的效果;
多尺度特征融合层2是利用注意力机制对可变形卷积层所输出的不同卷积尺度下的特征进行融合,具体操作如下:将可变形卷积层中3×3卷积得到的特征F3×3(56×56×128)与5×5卷积得到的特征F5×5(56×56×128)进行拼接,得到拼接特征F(56×56×256);然后,分别进行一个空间的全局平均池化和最大池化得到两个1×1×256的通道描述;接着,再将它们分别送入一个两层的神经网络,第一层神经元个数为256/r,r为系数,激活函数为Relu,第二层神经元个数为256,这个两层的神经网络是共享的;再将得到的两个特征相加后经过一个Sigmoid激活函数得到权重系数Mc,Mc则对应不同卷积尺度下各通道域的重要性,将Mc与F相乘得到注意力修正后的多尺度拼接特征;最后,将修正后的拼接特征重新拆分成两个56×56×128的多尺度注意力修正特征,并将这两个特征做元素相加,“可见光图像特征提取网络”的输出为56×56×128的可见光图像特征。


3.根据权利要求1所述的面向多模态图像能见度检测的神经网络构建方法,其特征在于:所述的步骤2)的具体内容为:
“远红外图像特征提取网络模块”的网络结构共有五层,分别是输入层、卷积层、多尺度特征融合层1、可变形卷积层、多尺度特征融合层2,其中,输入层为尺寸224×224,通道数为3的远红外输入图像;卷积层由3×3卷积核与5×5卷积核这两种不同尺度下的卷积组成,卷积核个数均为64,每个卷积层后接一个Relu激活层和BatchNormalization层;
多尺度特征融合层1是利用注意力机制对卷积层所输出的不同卷积尺度下的特征进行融合,具体操作如下:将卷积层中3×3卷积得到的特征F3×3(112×112×64)与5×5卷积得到...

【专利技术属性】
技术研发人员:王晗沈克成刘佳丽施佺
申请(专利权)人:南通大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1