一种基于双模态融合网络的目标检测方法及装置制造方法及图纸

技术编号:37044320 阅读:18 留言:0更新日期:2023-03-29 19:23
本发明专利技术提供一种基于双模态融合网络的目标检测方法,包括获取图像对数据集,建立双模态图像数据集,构建模块分别对红外图像和可见光图像编码,构建双路门控融合网络,将融合特征输入至基准方法YOLOv5

【技术实现步骤摘要】
一种基于双模态融合网络的目标检测方法及装置


[0001]本专利技术属于计算机视觉
,具体涉及一种基于双模态融合网络的目标检测方法。

技术介绍

[0002]当前目标检测方法主要使用与检测任务相关的单模态图像作为训练数据,然而仅使用单模态图像在实际的复杂场景中有时很难检测到目标。为了解决上述问题,提出了使用多模态图像作为训练数据的方法。多模态图像具有互补优势,例如红外图像和可见光图像。红外图像的优点是依赖于目标物体产生的热源,不受照明条件的影响,但无法捕捉到目标的细节信息;可见光图像的优点是能清晰地捕捉目标的纹理特征和细节信息,但容易受到光照条件的影响。在现有技术中,DEVAGUPTAPU C等人(2019IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops,2019,Borrow from anywhere:Pseudo multi

modal object detection in thermal imagery.)利用CycleGAN创建合成红外图像的方法,并利用照明感知融合框架融合可见光和红外图像,以帮助提升红外图像中物体检测的性能;YANG L等人(arXiv preprint,2201.03786,2022,Drone Object Detection Using RGB/IR Fusion.)采用照明子网分配权重,联合可见光和红外图像检测行人。
[0003]DEVAGUPTAPU C等人提出的方法利用同一种网络对两种图像进行特征提取,且提取特征后未分配权重,仅简单拼接,未考虑到不同图像的差异特征,也未考虑到不同场景下、不同源图像对检测的贡献不同。YANG L等人提出的方法利用同一种网络对两种图像进行检测,将检测结果分配权重,未从特征层面就处理掉冗余的特征。
[0004]上述方法没有分别提取双模态图像的特征,且融合多模态特征时并不充分,未找到合适的方法将部分冗余特征信息提前处理,还需要进一步提高多模态特征信息之间的互补优势。同时,上述方法没有使用不同的网络去提取不同图像源的特征,仅利用同一种网络提取特征,且融合双模态特征时并不充分,需要进一步提高双模态特征信息之间的互补优势。

技术实现思路

[0005]为了克服现有技术在融合双模态特征时并不充分的问题,本专利技术提出一种基于双模态融合网络的目标检测方法,其基准方法为YOLOV5

s,采用早期融合,并嵌入门控融合网络,使模型能够确定两种模态图像在不同场景中对检测的贡献。
[0006]具体为,包括:
[0007]步骤A:获取图像对数据集,即利用红外成像设备拍摄红外图像,利用可见光成像设备拍摄可见光图像,然后将两种图像配准,得到图像对数据集;
[0008]步骤B:建立双模态图像数据集,即对配准的的图像对数据集进行数据增强处理,形成双模态数据集;
[0009]步骤C:构建模块分别对红外图像和可见光图像编码;
[0010]步骤D:构建双路门控融合网络,即通过构建的门控融合网络计算红外特征权值和可见光特征权值,自适应调节两路特征的权重分配,得到融合特征,完成门控融合网络训练;
[0011]步骤E:将融合特征输入至基准方法YOLOv5

s网络第三层,得到最终检测网络;
[0012]步骤F:将步骤B处理好的图像对数据集,输入至最终检测网络中,得到检测结果。
[0013]进一步的,
[0014]步骤A包括:
[0015]步骤A1:获取红外图像和可见光图像,即在全封闭的条件下使用一个可见光相机和一个红外相机拍摄照片,采用硬件对齐摄像机光轴的方式,使得两种照片图像范围大体一致;
[0016]步骤A2:将获取的红外图像和可见光图像进行图像配准,即采用对齐策略,调整图像尺寸,实现图像配准;
[0017]步骤B包括:
[0018]步骤B1:对图像对数据集进行粗处理,得到粗处理后的图像对数据集,粗处理方法包括:增强边缘、锐化、平滑、细节;
[0019]步骤B2:对经过粗处理的图像对数据集进行整理处理,整理处理包括:旋转、翻转、亮度调节;
[0020]步骤C包括:
[0021]步骤C1:构建红外编码器,先得到红外图像信息和神经元权值,进而得到红外图像特征;
[0022]步骤C2:构建可见光编码器,输入可见光图像,得到可见光图像特征;
[0023]步骤C3:将步骤C1得到的红外图像特征和步骤C2得到的可见光图像特征拼接得到组合特征;
[0024]步骤D输入为步骤C3生成的组合特征,步骤D输出为融合后的融合特征;
[0025]步骤D包括:
[0026]步骤D1:将组合特征切片均分为红外特征图块和可见光特征图块;
[0027]步骤D2:生成两个门控网络,计算红外概率特征及可见光概率特征;
[0028]步骤D3:根据步骤D2生成的红外概率特征和可见光概率特征,计算得到自适应红外特征与自适应可见光特征;
[0029]步骤D4:将自适应红外特征和自适应可见光特征相加;
[0030]步骤D5:将步骤C1得到的红外图像特征和步骤C2得到的可见光图像特征下采样池化;
[0031]步骤D5包括:
[0032]步骤D5

1:将红外图像特征F
IR
,通过最大池化操作,得到池化红外特征F
IRc

[0033]步骤D5

2:将可见光图像特征F
VS
,通过最大池化操作,得到池化可见光特征F
IRc

[0034]步骤D6:将步骤D4结果、池化红外特征和池化可见光特征按通道维度拼接得到融合特征。
[0035]进一步的,
[0036]步骤B1包括:
[0037]步骤B1

1:增强图像边缘;
[0038]步骤B1

2:锐化,使用轮廓滤波方法,将图像中的轮廓信息全部提取出来;
[0039]步骤B1

3:平滑,使用平滑滤波方法,使图像亮度平缓渐变,减小突变梯度;
[0040]步骤B1

4:细节,使用细节增强滤波方法,使得图像中细节更加明显;
[0041]步骤B2包括:
[0042]步骤B2

1:对图像对数据集旋转;
[0043]步骤B2

2:对图像对数据集翻转;
[0044]步骤B2

3:对图像对数据集调节亮度和对比度;
[0045]步骤C1中红外编码器由红外迷你残差模块构成,红外迷你残差模块有三层结构,由最大池化层和两个连续的1
×
1卷积层构成;
[0046]步骤C2包括:
[0047本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于双模态融合网络的目标检测方法,包括:步骤A:获取图像对数据集,即利用红外成像设备拍摄红外图像,利用可见光成像设备拍摄可见光图像,然后将两种图像配准,得到图像对数据集;步骤B:建立双模态图像数据集,即对配准的的图像对数据集进行数据增强处理,形成双模态数据集;步骤C:构建模块分别对红外图像和可见光图像编码;步骤D:构建双路门控融合网络,即通过构建的门控融合网络计算红外特征权值和可见光特征权值,自适应调节两路特征的权重分配,得到融合特征,完成门控融合网络训练;步骤E:将融合特征输入至基准方法YOLOv5

s网络第三层,得到最终检测网络;步骤F:将步骤B处理好的图像对数据集,输入至最终检测网络中,得到检测结果。2.如权利要求1所述的一种基于双模态融合网络的目标检测方法,其特征在于:步骤A包括:步骤A1:获取红外图像和可见光图像,即在全封闭的条件下使用一个可见光相机和一个红外相机拍摄照片,采用硬件对齐相机光轴的方式,使得两种照片图像范围大体一致;步骤A2:将获取的红外图像和可见光图像进行图像配准,即采用对齐策略,调整图像尺寸,实现图像配准;步骤B包括:步骤B1:对图像对数据集进行粗处理,得到粗处理后的图像对数据集,粗处理方法包括:增强边缘、锐化、平滑、细节;步骤B2:对经过粗处理的图像对数据集进行整理处理,整理处理包括:旋转、翻转、亮度调节;步骤C包括:步骤C1:构建红外编码器,先得到红外图像信息和神经元权值,进而得到红外图像特征;步骤C2:构建可见光编码器,输入可见光图像,得到可见光图像特征;步骤C3:将步骤C1得到的红外图像特征和步骤C2得到的可见光图像特征拼接得到组合特征;步骤D输入为步骤C3生成的组合特征,步骤D输出为融合后的融合特征;步骤D包括:步骤D1:将组合特征切片均分为红外特征图块和可见光特征图块;步骤D2:生成两个门控网络,计算红外概率特征及可见光概率特征;步骤D3:根据步骤D2生成的红外概率特征和可见光概率特征,计算得到自适应红外特征与自适应可见光特征;步骤D4:将自适应红外特征和自适应可见光特征相加;步骤D5:将步骤C1得到的红外图像特征和步骤C2得到的可见光图像特征下采样池化;步骤D5包括:步骤D5

1:将红外图像特征F
IR
,通过最大池化操作,得到池化红外特征F
IRc
;步骤D5

2:将可见光图像特征F
VS
,通过最大池化操作,得到池化可见光特征F
IRc
;步骤D6:将步骤D4结果、池化红外特征和池化可见光特征按通道维度拼接得到融合特
征。3.如权利要求2所述的一种基于双模态融合网络的目标检测方法,其特征在于:步骤B1包括:步骤B1

1:增强图像边缘;步骤B1

2:锐化,使用轮廓滤波方法,将图像中的轮廓信息全部提取出来;步骤B1

3:平滑,使用平滑滤波方法,使图像亮度平缓渐变,减小突变梯度;步骤B1

4:细节,使用细节增强滤波方法,使得图像中细节更加明显;步骤B2包括:步骤B2

1:对图像对数据集旋转;步骤B2

2:对图像对数据集翻转;步骤B2

3:对图像对数据集调节亮度和对比度;步骤C1中红外编码器由红外迷你残差模块构成,红外迷你残差模块有三层结构,由最大池化层和两个连续的1
×
1卷积层构成;步骤C2包括:步骤C2

1:将步骤B2输出的可见光图像输入可见光编码器,得到可见光图像细节特征信息;可见光编码器由可见光迷你残差模块构成,可见光迷你残差模块是一个三层结构,由最大池化层、1
×
1卷积层和3
×
3卷积层构成;步骤C2

2:使用坐标注意力方法从垂直和水平方向去计算可见光图像特征权值,进而得到垂直空间方向上的权重和水平空间方向上的权重;步骤C2

3:将步骤C2

1和步骤C2

2的结果逐像素相乘得到可见光图像特征;步骤D2包括:步骤D2

1:构建红外图像门控网络和可见光图像门控网络,门控网络包括两层模块,即1
×
1卷积层和Softmax层;步骤D3包括:步骤D3

1:将红外图像门控网络中红外概率特征与红外特征图块逐元素相乘并自适应加权,得到自适应红外特征;步骤D3

2:将可见光图像门控网络中可见光概率特征与可见光特征图块,逐元素相乘并自适应加权,得到自适应可见光特征。4.如权利要求3所述的一种基于双模态融合网络的目标检测方法,其特征在于:步骤A1可见光相机型号为PointGrey Flea3,红外相机型号为FLIR

A35;步骤A2

3中可见光相机的空间分辨率为640
×
480像素,分辨率为103.6
°
垂直视野,热红外相机具有320
×
256像素的空间分辨率,分辨率为39
°
垂直视野,通过缩小可见光图像的边界区域,在对齐的图像域中获得与原始热红外图像配准的可见光图像,得到配准的图像对数据集,图像尺寸均为640
×
512,分辨率为320
×
256像素;步骤B1中粗处理方法使用Python中的PIL类实现;步骤B2中整理处理使用Python中的OpenCV类实现;步骤B2

3中对亮度和对比度的调节是对像素的简单线性变换,通过公式output_pixel=alpha*(input_pixel)+beta,计算输出像素值output_pixel,其中input_pixel为输入像素,alpha为透明度因子,beta为a...

【专利技术属性】
技术研发人员:侯志强孙颖马素刚杨晨程敏捷王忠民范九伦
申请(专利权)人:西安邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1