一种融合双重注意力机制的单目3D目标检测方法,基于目标检测算法,融合通道注意力机制及空间注意力机制,提供有效聚焦,提升收敛速度,减少时延,可以更好地解决目标检测的精度问题,提高网络的可解释性,同时提升目标检测的性能。通过将通道注意力机制(channel attention)、空间注意力机制(spatial attention)两种注意力机制综合运用,聚焦输入图像的全局与局部的双重重要信息来提高单目3D目标检测的精度。该发明专利技术成本极低、便于推广使用,能够在自动驾驶、障碍物检测与定位中扮演非常重要的角色。演非常重要的角色。演非常重要的角色。
【技术实现步骤摘要】
一种融合双重注意力机制的单目3D目标检测方法
[0001]本专利技术属于计算机视觉领域,具体涉及一种融合双重注意力机制的单目3D目标检测方法。
技术介绍
[0002]现阶段,基于深度学习技术的计算机视觉领域是无人驾驶人工智能的一大热门。伴随着无人驾驶技术水平的不断拔高,无人驾驶汽车行业市场规模也迎来了史无前例的快速增长。无人驾驶感知系统构建在激光雷达、毫米波雷达等传感器的共同作用基础上,同时也需要机器视觉感知系统才能构建出一个可以识别交通标志、车道线、周围行人车辆的强大体系。因此,机器视觉是自动驾驶领域不可或缺的一部分,而3D目标检测也正是机器视觉中最为基础也最为关键的一个部分,在自动驾驶中扮演了非常重要的角色,在障碍物检测与定位中也至关重要。
[0003]当前的3D目标检测算法中,基于激光雷达、RGB
‑
D相机的技术成本高昂,作用距离短并且线数再多的激光雷达获取的点云也是稀疏且缺乏纹理信息的,同时双目相机误差较大,不仅要求时间同步、体积较大而且对基线安装有较高要求。相比之下,单目相机价格亲民体积小,功耗低更贴近实际应用需求。与此同时,基于单目视觉的方法要求十分严苛,即只有单个相机的图像作为输入,结合相机标定得到物体的三维检测。显然,该方法难度较大,但成本极低、便于推广使用。因此,研究此类问题极具应用价值和学术挑战性。
[0004]但在3D目标检测的技术飞速发展中也伴随了很多问题。由于实际应用中的图像输入的尺寸较大,而检测时对所有的输入信息进行训练势必会造成精确度和实时性的降低,这样没有关注焦点的识别检测,无论是在智能家居或无人驾驶的场景应用中都不够完善。因此,在目标检测中能否提供重点关注的信息得到极大的关注。
技术实现思路
[0005]本专利技术的目的是提出一种融合双重注意力机制的单目3D目标检测方法,通过聚焦输入图像的全局与局部的双重重要信息提高单目3D目标检测的精度。较之其他检测方法,该方法成本低,精确度高,结构轻量化,还具有实时检测性;此外,借助注意力机制的融合,可以更好地解决目标检测的精度问题,提高网络的可解释性,同时提升目标检测的性能。
[0006]一种融合双重注意力机制的单目3D目标检测方法,包括如下步骤:步骤1:读入RGB图片,在主干网络中进行特征的提取;所述主干网路基于包含残差连接的DLA34网络;步骤2:构建全局注意力机制网络,进行特征融合与加强,得到特征图;步骤3:将处理后的特征图输入至各个预测分支处理,得到新局部特征图;步骤4:使用一个卷积注意力机制CBAM模块对预测分支进行处理,以上一步得到的特征图作为模块的输入;步骤5:将各个结果整合并输入至一个卷积核大小为1x1的卷积网络,输出参数结
果;步骤6:根据模型输出的参数画出目标对应的3D框图。
[0007]进一步地,步骤1中,使用摄像头从场景中读取RGB图像,将其输入至已完成构建的模型中。
[0008]进一步地,步骤2中,使用空间注意力模块在通道维度上进行最大值和平均值的汇聚,将多通道压缩成单通道,然后通过带有注意力权重的卷积提取注意力信息并通过激活函数使得空间注意力权重非负,最终将空间注意力的权重值与原图相乘得到特征图。
[0009]进一步地,步骤3中,依次进行卷积核大小为3x3的卷积,然后经过一个激活函数层,得到新局部特征图。
[0010]进一步地,步骤4中,卷积注意力机制CBAM模块是空间注意力机制模块与通道注意力机制模块的结合,先通过一个通道注意力模块,再通过一个空间注意力模块,最后将各个结果整合并通过一个卷积核大小为1x1的卷积层输出结果。
[0011]进一步地,步骤4中,包括如下分步骤:步骤4
‑
1,以上一步得到的特征图作为模块的输入,进入通道注意力模块,利用平均池化与最大池化对其进行空间维度上的压缩,得到通道维度上的特征向量,随后经过两个全连接层和激活操作得到各通道的权重,与原特征图相乘后再作为下一步空间注意力模块的输入;步骤4
‑
2,进入空间注意力模块,利用平均池化及最大池化进行通道维度上的压缩,产生两个代表不同信息的特征图,合并后再通过一个感受野较大的卷积核大小为7
×
7的卷积进行融合操作,最后通过激活操作来生成权重叠加回原始的特征图,使得目标区域得以增强。
[0012]进一步地,步骤5中,输出的参数结果包括分类、二维偏移量、二维宽高、坐标系深度、三维偏移量、三维长宽高和物体观察角度。
[0013]本专利技术达到的有益效果为:(1)实时性:该模型是以基于单目图像的3D目标检测算法实现整个检测过程,模型能较快地在本地实时更新环境数据,也实现了对目标的实时监测。另外,本方法在原有算法的基础上加快模型收敛速度,整体上增强了检测的实时性。
[0014](2)准确性:基于真实场景下的大型数据集KITTI,使能采集到的数据更加精确;同时,本方法引入了双重注意力机制,充分利用其能够提供有效侧重点、减少非重要信息干扰等优点,提高了算法对目标识别的精确性,降低失误率。
[0015](3)可行性:本方法通过对驾驶车辆周围信息的采集与提取,以抓取到的图像信息作为输入进行识别检测,最后得到检测结果。相比于基于点云雷达或双目的3D目标检测,具有更好的可行性。
附图说明
[0016]图1是本专利技术实施例中的网络模型结构图。
[0017]图2是本专利技术实施例中的空间注意力机制模块结构图。
[0018]图3是本专利技术实施例中的通道注意力机制模块结构图。
[0019]图4是本专利技术实施例中的卷积注意力机制模块结构图。
[0020]图5是本专利技术实施例中的预测效果示意图。
具体实施方式
[0021]下面结合说明书附图对本专利技术的技术方案做进一步的详细说明。
[0022]本专利技术在结构上主要分为以下部分:读入RGB图像、单目3D目标检测模型以及输出包含3D框RGB图像的系统架构。参照图1,上半部分是对单目3D目标检测方法基础架构的建模,下半部分包含了各预测分支以及最终输出结果。
[0023]读入图像作为输入,该部分是利用USB免驱摄像头等设备从场景中读取RGB图像,然后再进行后续的训练与测试。
[0024]构建单目3D目标检测模型,首先,利用下载好的KITTI 3D目标检测数据集及对应标签对搭建好模型进行训练,以加入更多残差连接的DLA34网络作为模型的主干网络进行特征的提取。然后在得到特征图后构建全局注意力机制网络即空间注意力网络,即为图1中接在深度聚合网络后的空间注意力模块。参照图2,需要在图像的通道维度上进行最大值池化和平均值池化的聚合,将多通道压缩成单通道,然后将两个池化操作得到的两个2D特征图送入卷积网络进行卷积,再通过激活函数得到最终空间注意力的权重值,其中会通过激活函数使得注意力权重非负。然后将空间注意力的权重值与原特征图相乘得到新的特征图,由此进行了特征融合与加强。接着,将处理后的特征图输入至各个预测分支,先进行一个卷积核大小为本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种融合双重注意力机制的单目3D目标检测方法,其特征在于:所述方法包括如下步骤:步骤1:读入RGB图片,在主干网络中进行特征的提取;所述主干网路基于包含残差连接的DLA34网络;步骤2:构建全局注意力机制网络,进行特征融合与加强,得到特征图;步骤3:将处理后的特征图输入至各个预测分支处理,得到新局部特征图;步骤4:使用一个卷积注意力机制CBAM模块对预测分支进行处理,以上一步得到的特征图作为模块的输入;步骤5:将各个结果整合并输入至一个卷积核大小为1x1的卷积网络,输出参数结果;步骤6:根据模型输出的参数画出目标对应的3D框图。2.根据权利要求1所述的一种融合双重注意力机制的单目3D目标检测方法,其特征在于:步骤1中,使用摄像头从场景中读取RGB图像,将其输入至已完成构建的模型中。3.根据权利要求1所述的一种融合双重注意力机制的单目3D目标检测方法,其特征在于:步骤2中,使用空间注意力模块在通道维度上进行最大值和平均值的汇聚,将多通道压缩成单通道,然后通过带有注意力权重的卷积提取注意力信息并通过激活函数使得空间注意力权重非负,最终将空间注意力的权重值与原图相乘得到特征图。4.根据权利要求1所述的一种融合双重注意力机制的单目3D目标检测方法,其特征在于:步骤3中,依次进行卷积核大小为3x3的卷积,然后经过一个激活函数层,得到新局部特征图...
【专利技术属性】
技术研发人员:马泽森,付慧,王纯洁,徐鹤,季一木,刘尚东,苏俞彪,徐鑫,张澳生,
申请(专利权)人:南京邮电大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。