一种基于特征对齐的图像融合目标检测方法技术

技术编号：38201743 阅读：12 留言：0更新日期：2023-07-21 16:44

本发明专利技术公开了一种基于特征对齐的图像融合目标检测方法，包括以下步骤：S1、模态特征偏移预测：网络首先通过特征网络提取两个模态的特征，随后将之进行通道级联并送入特征偏移预测模块来为特征图的每个位置预测x方向y方向的偏移；S2、级联候选框生成：将偏移反馈给偏移模态后得到初步修正的偏移模态特征图，采取由粗到细的特征对齐策略，在仅使用一个模态标注的情况下对两个模态的特征进行空间对齐，并直接使用两个模态的特征进行后续的检测，已有标注的模态，通常为热红外为参考模态，对另一个模态，即偏移模态的特征图进行处理使之在空间位置上靠近参考模态，来达到模态间特征对齐的效果，加快检测速度，同时可以快速回归检测框。同时可以快速回归检测框。同时可以快速回归检测框。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于特征对齐的图像融合目标检测方法

[0001]本专利技术涉及图像处理
，具体为一种基于特征对齐的图像融合目标检测方法。

技术介绍

[0002]RGB
‑
T图像的配准过程较为复杂，在采集数据前首先需要对相机进行标定，需要用到特定的硬件及特殊的标定板，在数据采集的过程中，除了要准备不同的传感器，如可见光相机、热红外相机等，还需要一些特殊的部件，如用于空间对齐的分光镜以及用于时间对齐的同步计时器，近年来，许多学者提出了RGB
‑
T目标检测数据集，使用特别设计的硬件、预处理手段等将不同模态的图像进行了像素级对齐，并提供了模态间共享的标注，目前大多数的先进RGB
‑
T图像目标检测器都在这种模态间对齐的基础上构建，然而现实世界中，像素级对齐的数据仅仅占少数，更多的是存在偏移和未经配准的数据。这是由于复杂的配准流程、传感器的物理特性差异(视差、相机分辨率不一致、视场不匹配等)、对齐算法不完善、外部干扰和硬件老化等导致。
[0003]如此的跨模态差异会降低检测器的性能，一方面，不同模态的输入图像在相应的位置不匹配，待融合的特征也存在空间位置的偏移，融合时特征图上的特征含义不明确，给网络推理造成困难，导致产生不稳定的目标分类及定位。另一方面，两个模态共享标注会引入标注偏差，网络不能分辨标注信息到底属于哪一个模态，使得检测框的位置回归变得困难，为此提出一种基于特征对齐的图像融合目标检测方法。

技术实现思路

[0004]本专利技术的目的在于提供一种基...

【技术保护点】

【技术特征摘要】
1.一种基于特征对齐的图像融合目标检测方法，其特征在于，包括以下步骤：S1、模态特征偏移预测：网络首先通过特征网络提取两个模态的特征，随后将之进行通道级联并送入特征偏移预测模块来为特征图的每个位置预测x方向y方向的偏移；S2、级联候选框生成：将偏移反馈给偏移模态后得到初步修正的偏移模态特征图，与初始的参考模态特征图进行级联后送入区域生成网络，得到一系列候选框；S3、候选框二次回归：感兴趣区域对齐模块对候选框部分偏移的特征进行进一步对齐，通过为每个候选框预测x、y、w、h四个维度的调整参数，对热红外模态的候选框进行二次回归；S4、特征加权并级联：在进行二次回归后将微调过的偏移模态感兴趣区域池化特征与原本的参考模态感兴趣区域池化特征进行重新加权并级联，送入最后的检测头来得到分类置信度和目标的包围框坐标。2.根据权利要求1所述的一种基于特征对齐的图像融合目标检测方法，其特征在于：在特征加权过程中，通过可见光图像中的不同光照值自适应地对两个模态的特征进行加权，使用一个光照感知子网络来对光照值进行预测，光照感知子网络由2个卷积层和3个全连接层组成，每个卷积层后接一个ReLU激活函数层以及一个2
×
2最大池化层来对特征进行激活和压缩，并在最后一层全连接层之后使用softmax激活函数。3.根据权利要求1所述的一种基于特征对齐的图像融合目标检测方法，其特征在于：在特征加权过程中，为了减小计算量，将可见光图像进行8倍下采样后再作为输入，网络会输出2个预测值，分别是图像为白天的概率Cd和图像为夜晚的概率Cn，由于该任务是一个较为简单的二分类任务，因此Cd、Cn会接近0或者1，若将其直接作为各个模态的权重则会对其中一个模态产生抑制效果；模态权重合理性调整，通过门函数对两个模态的权重进行重新调整：其中Cd和Cn代表全连接层的软最大值输出，WR和WT分别代表可见光模态和热红外模态特征的权重，α是可学习的参数，初始值设为1，式中的偏置为输出值创造了一个基准，最终的输出值在左右进行取值，(Cd
‑
Cn)代表取值变化的方向，当白天的概率Cd大于夜晚的概率Cn时，代表可见光所占权重应该更大，此时WR应该在的基础上增加，反之减小，而α则决定了增减的幅度，这两个权重会运用在特征金字塔之后，与两个模态的多尺度特征进行相乘以达到特征重加权。4.根据权利要求1所述的一种基于特征对齐的图像融合目标检测方法，其特征在于：特征偏移预测模块中是对特征图进行初步的偏移预测，使两个模态的特征图大体上对齐，首先将两个模态的特征图进行通道级联，然后通过多头自注意力模块提取跨模态特征，使用反向残差前馈网络增强模型的表达能力并减小计算量，最终利用偏移预测层为偏移模态特征图的每个元素预测x和y方向的偏移。5.根据权利要求4所述的一种基于特征对齐的图像融合目标检测方法，其特征在于：多
头自注意力模块，其视作是多个自注意力模块的级联，对于偏移模态的特征及参考模态的特征；将其进行通道级联以获取多模态特征而后将特征图拉伸来获取特征序列通过将输入序列IM投影到三个权重矩阵上，网络可以计算出一系列的查询Q(query)，键K(key)和值V(value)，其中，及为权重矩阵，且DQ＝DK＝DV＝2HW。之后，自注意力层使用Q及K之间的缩放点乘来计算注意力权重，该权重与V相乘得到输出Z，其中是缩放...

【专利技术属性】
技术研发人员：邢佳璐，
申请(专利权)人：郑州大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人