【技术实现步骤摘要】
一种利用光照引导和注意力机制的目标检测方法和系统
[0001]本专利技术属于图像处理
,具体涉及利用光照引导和注意力机制的目标检测方法和系统。
技术介绍
[0002]目标检测是对复杂场景自动分析与理解的基础,在智能安防、人机交互、智慧城市等领域都发挥着重要作用。然而,在夜晚、光照不足、恶劣天气等环境下,可见光图像成像质量会受到极大影响,难以满足高精度目标检测的要求。红外图像靠目标与背景的辐射成像,不受雨雪、风霜等恶劣环境影响,抗干扰能力较强并能够识别伪装,与可见光图像具有良好的互补特性。
[0003]因此,如何有效地利用可见光与红外图像的特征,发掘互补信息,实现高精度的目标检测具有重要的理论研究意义和实际应用价值。
[0004]然而,由于外部环境的难以预知性,目标检测网络难以提前预测各模态数据的贡献与效用。例如,可能出现以下情况:感兴趣目标在一个模态中不显现,而在另一模态中表现出特征;两个模态中均显现出一定程度的特征,需将两个模态的信息进行互补利用,得到最终判断;以及其他更为复杂的模态信息呈现方式等情况。在这些复杂情况下,具体每个模态应当给予怎样的关注度,重点关注哪些特征,网络无法提前预设。
[0005]因此,亟需一种高效、自适应能力强的模态信息融合框架。然而,多数现有的可见光与红外图像融合算法对特征没有明确的划分,将特征的选择完全交给检测网络,导致可见光与红外图像特征利用不充分,从而降低其检测性能。
[0006]为了解决上述问题,本专利技术提出一种利用光照引导和注意力机制的可见 ...
【技术保护点】
【技术特征摘要】
1.一种利用光照引导和注意力机制的目标检测方法,其特征在于:步骤1:将可见光图像与红外图像对分别输入到两路结构相同的深度卷积神经骨干网络中以提取图像特征,两路网络不共享参数;步骤2:将提取的可见光图像特征和红外图像特征输入到模态间差分交互注意力模块中,得到差异部分被增强的可见光图像特征及红外图像特征;步骤3:将步骤1提取的可见光图像特征和红外图像特征分别输入到模态内注意力模块中,预测目标掩膜,并利用掩膜作为注意力以增强模态内特征,得到模态内特征被增强的可见光图像特征及红外图像特征;步骤4:对可见光图像下采样,并输入至光照感知网络中预测两个模态特征的权重;步骤5:利用步骤4获得的权重,将步骤2和步骤3获得的增强后的可见光图像特征和红外图像特征进行融合得到融合特征,将所述融合特征送入检测网络,获取输入图像中感兴趣目标的位置信息,完成目标检测模型的训练;步骤6:将待测图像输入到训练好的所述目标检测模型,得到目标检测结果。2.根据权利要求1所述的方法,其特征在于:所述步骤3还包括模态内注意力模块的训练,使其能够正确地预测目标的掩膜,损失函数为其中,T为样本总数,S为特征金字塔阶段的数量,Y代表掩膜标签,Y
ij
是第i个输入样本在特征金字塔第j个阶段对应的掩膜标签,M
Rij
和M
Tij
分别代表可见光分支和红外分支第i个输入样本在特征金字塔第j个阶段预测出的目标掩膜,W
R
和W
T
为可见光模态和红外模态的权重,为dice损失的计算公式,s代表平滑系数。3.根据权利要求1所述的方法,其特征在于:所述步骤4还包括光照感知网络的训练,使其根据输入可见光图像的特征计算图像中的场景是白天还是黑夜的概率,光照感知网络的训练中损失函数为其中,T为样本总数,y
i
表示第i张输入图像的分类标签,p
i
为第i张输入图像预测为白天的概率。4.根据权利要求1所述的方法,其特征在于:所述步骤5包括将步骤4获得的模态权重W
R
,W
T
,将步骤2和步骤3获得的增强后的可见光特征和红外特征进行重新组合、加权并级联,获得融合特征送入之后的检测网络D(
·
),获得第i个锚框的类别置信度p
i
与预测回归值l
i
为(p
i
,l
i
)=D(F
F
),其中CONCAT(
·
)代表通道级联,分别代表逐元素求和、相乘。5.根据权利要求1所述的方法,其特征在于:所述步骤2包括将提取的可见光图像特征F
R
和红外图像特征F
T
输入到模态间差分交互注意力模块M
inter
(
·
)中,将可见光图像特征F
R
和红外图像特征F
T
的差异部分放大,以增强网络模型对互补特征的提取,得到差异部分被增强的可见光图像特征及红外图像特征即
其中,为差分特征,代表残差模块,σ(
·
)代表tanh激活函数,GAP(
·
)代表全局平均池化,分别代表逐元素相减、求和与相乘。6.一种利用光照引导和注意力机制的目标检测系统,其特征在于:所述系统包括:提取模块:将可见光图像...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。