基于多源信息融合、热红外和三维深度图的目标检测方法技术

技术编号：36684058 阅读：14 留言：0更新日期：2023-02-27 19:44

本发明专利技术公开了一种基于多源信息融合、热红外和三维深度图的目标检测方法，其步骤包括：采用编码器

全部详细技术资料下载

【技术实现步骤摘要】
基于多源信息融合、热红外和三维深度图的目标检测方法

[0001]本专利技术属于智能制造
，涉及异构数据智能挖掘与知识融合，具体涉及一种基于Transformer多源信息融合的可见光、热红外和三维深度图的显著性目标检测方法。

技术介绍

[0002]随着大数据技术和人工智能技术的迅速发展，以海量多源异构数据为支撑，以深度学习和机器学习为理论基础的数据挖掘与知识融合成为了当前热门研究方向，并被广泛应用于智能制造领域。其中，显著性目标检测是一种基础的密集预测技术，常用于计算机视觉的下游任务，例如目标检测、图像分割、目标跟踪、图像检索等，在机器人导航、自动驾驶、工业产品检测、自动化制造等领域发挥着重要的作用。
[0003]近年来，基于RGB的显著性目标检测研究得到了迅速的发展，并取得了令人满意的结果。然而，在背景杂乱或光线昏暗的条件下，RGB图像的纹理和颜色细节可能会受到一些干扰。为了更加准确地从复杂背景中捕捉和定位显著性目标，研究人员将其它模态图像引入显著性目标检测任务，以更好地补充RGB图像缺失的信息，从而使模型在某些具有挑战性的场景下更加鲁棒。例如，深度图包含更多的空间和几何信息，可以突出物体的轮廓，方便检测；热红外图则反映绝对零度以上的热红外辐射，具有更稳定的亮度比，恶劣天气对热成像影响不大。由于深度图和热红外图通过提供互补信息来辅助RGB图像识别显著目标，因此如何有效融合多模态信息成为当前显著性目标检测研究的热点问题。
[0004]根据融合策略不同，目前的融合方法可划分为：早期融合、晚期融合和多...

【技术保护点】

【技术特征摘要】
1.一种基于多源信息融合、热红外和三维深度图的目标检测方法，其步骤包括：1)采用编码器
‑
解码器范式结构构建一SalienTR模型，其中编码器部分包含两个并行的Swin Transformer主干网络，第一Swin Transformer主干网络用于提取所输入RGB图像的外观特征，第二Swin Transformer主干网络用于提取所输入热红外图像或深度图像的空间结构特征；解码器部分包含跨模态融合Transformer模块和双流解码器，所述跨模态融合Transformer模块用于对所述外观特征、空间结构特征进行融合并输入所述双流解码器，所述双流解码器用于根据输入的融合特征和所述外观特征、空间结构特征输出包含预测显著性目标及其边缘轮廓的预测分割图；2)获取RGB
‑
T显著性目标检测数据集和RGB
‑
D显著性目标检测数据集并对其中的每一图像进行标注，生成训练数据集；其中，RGB
‑
T显著性目标检测数据集中的每对图像包括一应用场景的RGB图像及对应的热红外图像，RGB
‑
D显著性目标检测数据集中的每对图像包括一应用场景的RGB图像及对应的深度图像；3)利用所述训练数据集训练优化所述SalienTR模型；4)将待检测图像及其对应的热红外图或深度图输入训练后的SalienTR模型中，输出预测分割图。2.根据权利要求1所述的方法，其特征在于，所述跨模态融合Transformer模块中包括局部跨模态自注意力模块、全局跨模态自注意力模块和单模态卷积模块；所述局部跨模态自注意力模块用于捕捉外观特征与空间结构特征间的局部特征相关性；所述全局跨模态自注意力模块用于构建外观特征与空间结构特征间的全局特征关系，学习全局语义特征；所述单模态卷积模块用于对融合了局部特征相关性和全局语义特征的外观特征、空间结构特征分别进行特征提取，得到注入了卷积偏置归纳的外观特征、空间结构特征。3.根据权利要求2所述的方法，其特征在于，所述第一Swin Transformer主干网络主要提取RGB图的外观特征并对其进行不同倍数的下采样编码，下采样编码所得多级特征按照分辨率由低到高分别表示为和所述第二Swin Transformer主干网络提取热红外图或深度图的空间结构特征并对其进行不同倍数的下采样编码，下采样编码所得多级特征按照分辨率由低到高分别表示为和所述解码器部分包含三个权重共享的跨模态融合Transformer模块；将特征和特征调整为相同大小，将调整后的输入第一跨模态融合Transformer模块；将调整后的输入第二跨模态融合Transformer模块，将调整...

【专利技术属性】
技术研发人员：英向华，郭若皓，杨锦发，
申请(专利权)人：北京大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人