当前位置: 首页 > 专利查询>北京大学专利>正文

基于多源信息融合、热红外和三维深度图的目标检测方法技术

技术编号:36684058 阅读:14 留言:0更新日期:2023-02-27 19:44
本发明专利技术公开了一种基于多源信息融合、热红外和三维深度图的目标检测方法,其步骤包括:采用编码器

【技术实现步骤摘要】
基于多源信息融合、热红外和三维深度图的目标检测方法


[0001]本专利技术属于智能制造
,涉及异构数据智能挖掘与知识融合,具体涉及一种基于Transformer多源信息融合的可见光、热红外和三维深度图的显著性目标检测方法。

技术介绍

[0002]随着大数据技术和人工智能技术的迅速发展,以海量多源异构数据为支撑,以深度学习和机器学习为理论基础的数据挖掘与知识融合成为了当前热门研究方向,并被广泛应用于智能制造领域。其中,显著性目标检测是一种基础的密集预测技术,常用于计算机视觉的下游任务,例如目标检测、图像分割、目标跟踪、图像检索等,在机器人导航、自动驾驶、工业产品检测、自动化制造等领域发挥着重要的作用。
[0003]近年来,基于RGB的显著性目标检测研究得到了迅速的发展,并取得了令人满意的结果。然而,在背景杂乱或光线昏暗的条件下,RGB图像的纹理和颜色细节可能会受到一些干扰。为了更加准确地从复杂背景中捕捉和定位显著性目标,研究人员将其它模态图像引入显著性目标检测任务,以更好地补充RGB图像缺失的信息,从而使模型在某些具有挑战性的场景下更加鲁棒。例如,深度图包含更多的空间和几何信息,可以突出物体的轮廓,方便检测;热红外图则反映绝对零度以上的热红外辐射,具有更稳定的亮度比,恶劣天气对热成像影响不大。由于深度图和热红外图通过提供互补信息来辅助RGB图像识别显著目标,因此如何有效融合多模态信息成为当前显著性目标检测研究的热点问题。
[0004]根据融合策略不同,目前的融合方法可划分为:早期融合、晚期融合和多级融合。前两类分别将多模态信息从网络的最开始和最末端处进行组合,缺少不同层级特征间的交互。多级融合则是在不同网络层级间进行跨模态信息交互,可充分利用模态间的互补性。其中,大多数基于多模态的显著性目标检测方法采用卷积神经网络提取多模态特征,并使用多级融合实现跨模态信息交互,在很大程度上促进了显著性目标检测的发展。然而,基于卷积的方法缺乏捕捉像素间长距离依赖关系的能力,在一些复杂场景中的表现不佳。为此,研究人员开始将Transformer进入该领域,学习全局语义表示,进一步提高显著性目标检测精度。
[0005]根据Transformer中的跨模态交互方式不同,目前的融合方法可划分为:标准的自注意力、跨注意力和全联合注意力。其中,标准的自注意力隐式地建立不同模态间的联系,由于这些关系是相对模糊的,因此跨模态互补效果可能不理想。跨注意力将一种模态中的每个元素与另一种模态中的所有元素建立联系,然而这种策略忽略了模态内的关系。全联合注意力中的密集连接弥补了这种情况,然而这种冗余连接可能会消耗较大资源并导致潜在副作用。
[0006]跨模态信息是提取潜在特征和理解目标整体外观的关键,特别是在一些复杂的场景条件下,如低光和遮挡。因此,多模态融合的核心技术挑战是学习如何挖掘模态之间的互补信息。

技术实现思路

[0007]针对以上提出的问题,本专利技术提供一种基于Transformer多源信息融合的可见光、热红外和三维深度图的显著性目标检测方法,简称为SalienTR。本专利技术遵循典型的编码器

解码器范式结构,其中编码器部分包含两个并行的Swin Transformer主干网络,分别用于提取RGB图像的外观特征和热红外或深度图像的空间结构特征;解码器部分包含一个跨模态融合Transformer和一个双流解码器,分别用于充分融合多模态间的信息(即对外观特征和结构特征进行融合)和预测高质量显著性图。为了充分利用模态间的互补信息,本专利技术在跨模态融合Transformer模块中设计了局部跨模态自注意力模块用于捕捉不同模态间的局部特征相关性、全局跨模态自注意力模块用于建立图像各像素间的长距离依赖关系并学习全局语义、单模态卷积模块用于有效利用融合后的信息并注入卷积归纳偏置。本专利技术包括以下几个步骤:(1)采用Swin Transformer提取图像的层级多模态特征,即对外观特征和结构特征;(2)利用跨模态融合Transformer实现多模态信息交互;(3)使用双流解码器进行显著性推理,预测显著性目标及其边缘轮廓。
[0008]具体采用的技术方案如下:
[0009]1.获取并整理用于训练和测试的RGB

T和RGB

D显著性目标检测数据集。
[0010]1.1.RGB

T显著性目标检测数据集包括3个常用数据集,分别为VT821、VT1000和VT5000。其中,VT821数据集包含60个简单场景,在创建过程中考虑了不同的背景信息、光照条件和目标位置;VT1000数据集包含10种场景下的400种对象,改善了热红外图像中目标的边界;VT5000数据集包含11种具有挑战性的场景。本专利技术RGB

T显著性目标检测数据集中的样本对应用场景没有限制,只要采集到各场景的RGB图像和对应的热红外图像即可。
[0011]1.2.将收集到的RGB

T数据集划分为训练集和测试集。其中,训练集是由VT5000数据集中的2500个图像对组成,测试集则由VT821数据集、VT1000数据集和VT5000数据集中剩余的2500个图像对组成,共计4321个图像对。
[0012]1.3RGB

D显著性目标检测数据集包括9个常用数据集,分别为NLPR、SIP、NJUD、ReDWeb、SSD、LFSD、STERE、DES和DUT。其中,NLPR数据集包括11个室内外场景下的1000对RGB图和深度图;SIP数据集主要聚焦于人体检测,是由智能手机在户外场景下拍摄的,共计929对RGB图和深度图;NJUD数据集包括来自现实生活、三维电影和互联网中的2003对RGB图和深度图;ReDWeb数据集和SSD数据集分别包括3600对和100对RGB图和深度图;LFSD数据集和DUT数据集由LYTRO相机在室内外场景下采集,分别包括100对和1200对RGB图和深度图;STERE数据集包括1000对双目图像,是从Stereoscopic Image Gallery、NVIDIA 3

Dimension Vision Live和Flickr库中获取的;DES数据集也被称为RGB

D 135,包括7个室内场景中的135个RGB

D图像对。本专利技术RGB

D显著性目标检测数据集中的样本对应用场景没有限制,只要采集到RGB图像和对应的深度图像即可。
[0013]1.4.将收集到的RGB

D数据集划分为训练集和测试集。其中,训练集是由NLPR数据集中的700个图像对和NJUD中的1450个图像对组成,测试集包括DES、SIP、LFSD、ReDWeb、SSD、STERE和DUT数据集中的所有样本以及NLPR和NJUD数据集中的剩余样本。当在DUT数据集上测试时,进一步将DUT数据集中的800个图像对放入训练集。
[0014]1.5本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多源信息融合、热红外和三维深度图的目标检测方法,其步骤包括:1)采用编码器

解码器范式结构构建一SalienTR模型,其中编码器部分包含两个并行的Swin Transformer主干网络,第一Swin Transformer主干网络用于提取所输入RGB图像的外观特征,第二Swin Transformer主干网络用于提取所输入热红外图像或深度图像的空间结构特征;解码器部分包含跨模态融合Transformer模块和双流解码器,所述跨模态融合Transformer模块用于对所述外观特征、空间结构特征进行融合并输入所述双流解码器,所述双流解码器用于根据输入的融合特征和所述外观特征、空间结构特征输出包含预测显著性目标及其边缘轮廓的预测分割图;2)获取RGB

T显著性目标检测数据集和RGB

D显著性目标检测数据集并对其中的每一图像进行标注,生成训练数据集;其中,RGB

T显著性目标检测数据集中的每对图像包括一应用场景的RGB图像及对应的热红外图像,RGB

D显著性目标检测数据集中的每对图像包括一应用场景的RGB图像及对应的深度图像;3)利用所述训练数据集训练优化所述SalienTR模型;4)将待检测图像及其对应的热红外图或深度图输入训练后的SalienTR模型中,输出预测分割图。2.根据权利要求1所述的方法,其特征在于,所述跨模态融合Transformer模块中包括局部跨模态自注意力模块、全局跨模态自注意力模块和单模态卷积模块;所述局部跨模态自注意力模块用于捕捉外观特征与空间结构特征间的局部特征相关性;所述全局跨模态自注意力模块用于构建外观特征与空间结构特征间的全局特征关系,学习全局语义特征;所述单模态卷积模块用于对融合了局部特征相关性和全局语义特征的外观特征、空间结构特征分别进行特征提取,得到注入了卷积偏置归纳的外观特征、空间结构特征。3.根据权利要求2所述的方法,其特征在于,所述第一Swin Transformer主干网络主要提取RGB图的外观特征并对其进行不同倍数的下采样编码,下采样编码所得多级特征按照分辨率由低到高分别表示为和所述第二Swin Transformer主干网络提取热红外图或深度图的空间结构特征并对其进行不同倍数的下采样编码,下采样编码所得多级特征按照分辨率由低到高分别表示为和所述解码器部分包含三个权重共享的跨模态融合Transformer模块;将特征和特征调整为相同大小,将调整后的输入第一跨模态融合Transformer模块;将调整后的输入第二跨模态融合Transformer模块,将调整...

【专利技术属性】
技术研发人员:英向华郭若皓杨锦发
申请(专利权)人:北京大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1