当前位置: 首页 > 专利查询>郑州大学专利>正文

一种基于特征对齐的图像融合目标检测方法技术

技术编号:38201743 阅读:12 留言:0更新日期:2023-07-21 16:44
本发明专利技术公开了一种基于特征对齐的图像融合目标检测方法,包括以下步骤:S1、模态特征偏移预测:网络首先通过特征网络提取两个模态的特征,随后将之进行通道级联并送入特征偏移预测模块来为特征图的每个位置预测x方向y方向的偏移;S2、级联候选框生成:将偏移反馈给偏移模态后得到初步修正的偏移模态特征图,采取由粗到细的特征对齐策略,在仅使用一个模态标注的情况下对两个模态的特征进行空间对齐,并直接使用两个模态的特征进行后续的检测,已有标注的模态,通常为热红外为参考模态,对另一个模态,即偏移模态的特征图进行处理使之在空间位置上靠近参考模态,来达到模态间特征对齐的效果,加快检测速度,同时可以快速回归检测框。同时可以快速回归检测框。同时可以快速回归检测框。

【技术实现步骤摘要】
一种基于特征对齐的图像融合目标检测方法


[0001]本专利技术涉及图像处理
,具体为一种基于特征对齐的图像融合目标检测方法。

技术介绍

[0002]RGB

T图像的配准过程较为复杂,在采集数据前首先需要对相机进行标定,需要用到特定的硬件及特殊的标定板,在数据采集的过程中,除了要准备不同的传感器,如可见光相机、热红外相机等,还需要一些特殊的部件,如用于空间对齐的分光镜以及用于时间对齐的同步计时器,近年来,许多学者提出了RGB

T目标检测数据集,使用特别设计的硬件、预处理手段等将不同模态的图像进行了像素级对齐,并提供了模态间共享的标注,目前大多数的先进RGB

T图像目标检测器都在这种模态间对齐的基础上构建,然而现实世界中,像素级对齐的数据仅仅占少数,更多的是存在偏移和未经配准的数据。这是由于复杂的配准流程、传感器的物理特性差异(视差、相机分辨率不一致、视场不匹配等)、对齐算法不完善、外部干扰和硬件老化等导致。
[0003]如此的跨模态差异会降低检测器的性能,一方面,不同模态的输入图像在相应的位置不匹配,待融合的特征也存在空间位置的偏移,融合时特征图上的特征含义不明确,给网络推理造成困难,导致产生不稳定的目标分类及定位。另一方面,两个模态共享标注会引入标注偏差,网络不能分辨标注信息到底属于哪一个模态,使得检测框的位置回归变得困难,为此提出一种基于特征对齐的图像融合目标检测方法。

技术实现思路

[0004]本专利技术的目的在于提供一种基于特征对齐的图像融合目标检测方法,以解决上述
技术介绍
中提出的问题。
[0005]为实现上述目的,本专利技术提供如下技术方案:一种基于特征对齐的图像融合目标检测方法,包括以下步骤:
[0006]S1、模态特征偏移预测:网络首先通过特征网络提取两个模态的特征,随后将之进行通道级联并送入特征偏移预测模块来为特征图的每个位置预测x方向y方向的偏移;
[0007]S2、级联候选框生成:将偏移反馈给偏移模态后得到初步修正的偏移模态特征图,与初始的参考模态特征图进行级联后送入区域生成网络,得到一系列候选框;
[0008]S3、候选框二次回归:感兴趣区域对齐模块对候选框部分偏移的特征进行进一步对齐,通过为每个候选框预测x、y、w、h四个维度的调整参数,对热红外模态的候选框进行二次回归;
[0009]S4、特征加权并级联:在进行二次回归后将微调过的偏移模态感兴趣区域池化特征与原本的参考模态感兴趣区域池化特征进行重新加权并级联,送入最后的检测头来得到分类置信度和目标的包围框坐标。
[0010]优选的,在特征加权过程中,通过可见光图像中的不同光照值自适应地对两个模
态的特征进行加权,使用一个光照感知子网络来对光照值进行预测,光照感知子网络由2个卷积层和3个全连接层组成,每个卷积层后接一个ReLU激活函数层以及一个2
×
2最大池化层来对特征进行激活和压缩,并在最后一层全连接层之后使用softmax激活函数。
[0011]优选的,在特征加权过程中,为了减小计算量,将可见光图像进行8倍下采样后再作为输入,网络会输出2个预测值,分别是图像为白天的概率Cd和图像为夜晚的概率Cn,由于该任务是一个较为简单的二分类任务,因此Cd、Cn会接近0或者1,若将其直接作为各个模态的权重则会对其中一个模态产生抑制效果;
[0012]模态权重合理性调整,通过门函数对两个模态的权重进行重新调整:
[0013][0014]其中Cd和Cn代表全连接层的软最大值输出,WR和WT分别代表可见光模态和热红外模态特征的权重,α是可学习的参数,初始值设为1,式中的偏置为输出值创造了一个基准,最终的输出值在左右进行取值,(Cd

Cn)代表取值变化的方向,当白天的概率Cd大于夜晚的概率Cn时,代表可见光所占权重应该更大,此时WR应该在的基础上增加,反之减小,而α则决定了增减的幅度,这两个权重会运用在特征金字塔之后,与两个模态的多尺度特征进行相乘以达到特征重加权。
[0015]优选的,特征偏移预测模块中是对特征图进行初步的偏移预测,使两个模态的特征图大体上对齐,首先将两个模态的特征图进行通道级联,然后通过多头自注意力模块提取跨模态特征,使用反向残差前馈网络增强模型的表达能力并减小计算量,最终利用偏移预测层为偏移模态特征图的每个元素预测x和y方向的偏移,由于特征金字塔p2阶段的特征最细节,尺度也最大,因此选取p2阶段的特征图对偏移值进行预测,其后每个阶段的偏移值通过对p2阶段的偏移下采样获得。
[0016]优选的,多头自注意力模块,其视作是多个自注意力模块的级联,对于偏移模态的特征及参考模态的特征;
[0017]将其进行通道级联以获取多模态特征而后将特征图拉伸来获取特征序列通过将输入序列IM投影到三个权重矩阵上,网络可以计算出一系列的查询Q(query),键K(key)和值V(value),
[0018]其中,及为权重矩阵,且DQ=DK=DV=2HW。之后,自注意力层使用Q及K之间的缩放点乘来计算注意力权重,该权重与V相乘得到输出Z,
[0019]其中是缩放因子,用于在点积的幅度变大时防止softmax函数收敛到具有极小梯度的区域,为了从不同的角度多样化地关注特征中的不同位置,网络采用多头自注意力
机制来得到输出:
[0020]Z'=MultiHead(Q,K,V)=Concat(Z1,

,Z
k
)W
p
[0021][0022]其中标h代表多头自注意力中头的个数,即使用了多少个自注意力,其中标h代表多头自注意力中头的个数,即使用了多少个自注意力,代表着级联操作Concat(Z1,...,Zh)的投影矩阵。
[0023]优选的,反向残差前馈网络包含3个卷积层,每个卷积层之后使用批标准化对特征进行规范,且在前两个卷积层之后使用激活函数并进行残差连接:
[0024][0025]优选的,偏移预测层是一个1
×
1卷积层和tanh激活函数,将输入特征图的通道映射为2,代表每个元素的x方向偏移和y方向偏移比例。
[0026]优选的,偏移修正,在原始特征图的基础上,对图像中每个元素的坐标X,Y加上预测的偏移值ΔX与ΔY得到新的坐标X

,Y

,将原先坐标对应的值映射到新的坐标得到初步对齐的特征图,其中

代表逐元素相加。
[0027]优选的,预训练,使用FLIRADAS数据集的配准子集FLIR

aligned作为输入,为可见光图像随机添加一定范围内x,y方向的偏移,并将偏移值进行8倍下采样获取偏移的真实值,最终使用均方损失函数进行偏移预测的监督。
[0028]优选的,在感兴趣区域对齐模块中,在得到候选框后,为了应对模态间特征的空间偏移现象,首先将候选框进行扩展,以获取更多的上下本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于特征对齐的图像融合目标检测方法,其特征在于,包括以下步骤:S1、模态特征偏移预测:网络首先通过特征网络提取两个模态的特征,随后将之进行通道级联并送入特征偏移预测模块来为特征图的每个位置预测x方向y方向的偏移;S2、级联候选框生成:将偏移反馈给偏移模态后得到初步修正的偏移模态特征图,与初始的参考模态特征图进行级联后送入区域生成网络,得到一系列候选框;S3、候选框二次回归:感兴趣区域对齐模块对候选框部分偏移的特征进行进一步对齐,通过为每个候选框预测x、y、w、h四个维度的调整参数,对热红外模态的候选框进行二次回归;S4、特征加权并级联:在进行二次回归后将微调过的偏移模态感兴趣区域池化特征与原本的参考模态感兴趣区域池化特征进行重新加权并级联,送入最后的检测头来得到分类置信度和目标的包围框坐标。2.根据权利要求1所述的一种基于特征对齐的图像融合目标检测方法,其特征在于:在特征加权过程中,通过可见光图像中的不同光照值自适应地对两个模态的特征进行加权,使用一个光照感知子网络来对光照值进行预测,光照感知子网络由2个卷积层和3个全连接层组成,每个卷积层后接一个ReLU激活函数层以及一个2
×
2最大池化层来对特征进行激活和压缩,并在最后一层全连接层之后使用softmax激活函数。3.根据权利要求1所述的一种基于特征对齐的图像融合目标检测方法,其特征在于:在特征加权过程中,为了减小计算量,将可见光图像进行8倍下采样后再作为输入,网络会输出2个预测值,分别是图像为白天的概率Cd和图像为夜晚的概率Cn,由于该任务是一个较为简单的二分类任务,因此Cd、Cn会接近0或者1,若将其直接作为各个模态的权重则会对其中一个模态产生抑制效果;模态权重合理性调整,通过门函数对两个模态的权重进行重新调整:其中Cd和Cn代表全连接层的软最大值输出,WR和WT分别代表可见光模态和热红外模态特征的权重,α是可学习的参数,初始值设为1,式中的偏置为输出值创造了一个基准,最终的输出值在左右进行取值,(Cd

Cn)代表取值变化的方向,当白天的概率Cd大于夜晚的概率Cn时,代表可见光所占权重应该更大,此时WR应该在的基础上增加,反之减小,而α则决定了增减的幅度,这两个权重会运用在特征金字塔之后,与两个模态的多尺度特征进行相乘以达到特征重加权。4.根据权利要求1所述的一种基于特征对齐的图像融合目标检测方法,其特征在于:特征偏移预测模块中是对特征图进行初步的偏移预测,使两个模态的特征图大体上对齐,首先将两个模态的特征图进行通道级联,然后通过多头自注意力模块提取跨模态特征,使用反向残差前馈网络增强模型的表达能力并减小计算量,最终利用偏移预测层为偏移模态特征图的每个元素预测x和y方向的偏移。5.根据权利要求4所述的一种基于特征对齐的图像融合目标检测方法,其特征在于:多
头自注意力模块,其视作是多个自注意力模块的级联,对于偏移模态的特征及参考模态的特征;将其进行通道级联以获取多模态特征而后将特征图拉伸来获取特征序列通过将输入序列IM投影到三个权重矩阵上,网络可以计算出一系列的查询Q(query),键K(key)和值V(value),其中,及为权重矩阵,且DQ=DK=DV=2HW。之后,自注意力层使用Q及K之间的缩放点乘来计算注意力权重,该权重与V相乘得到输出Z,其中是缩放...

【专利技术属性】
技术研发人员:邢佳璐
申请(专利权)人:郑州大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1