单阶段单目3D目标检测网络制造技术

技术编号:37255713 阅读:10 留言:0更新日期:2023-04-20 23:32
本发明专利技术公开了一种单阶段单目3D目标检测网络,包括:深度估计网络模块、语义分割网络模块以及三维物体检测模块,所述深度估计网络模块用于对输入的特征图进行深度估计处理,输出深度特征信息;所述语义分割网络模块用于对输入的特征图进行语义分割处理,输出分割特征信息;所述三维物体检测模块用于对输入的特征图进行三维物体检测,输出关键点特征信息;深度特征信息、分割特征信息以及关键点特征信息通过融合模块进行融合处理后分别输出给关键点网络模块以及回归网络模块进行处理,关键点网络模块以及回归网络模块处理后进行3D目标的检测。所述网络结构能够减少源和目标之间的性能差距,并有效地将多个功能与UDA学习相结合。并有效地将多个功能与UDA学习相结合。并有效地将多个功能与UDA学习相结合。

【技术实现步骤摘要】
单阶段单目3D目标检测网络


[0001]本专利技术涉及自动驾驶方法
,尤其涉及一种域自适应的深度语义感知单阶段单目3D目标检测网络。

技术介绍

[0002]基于视觉的目标检测是自动驾驶系统的重要支柱,其主要任务是对目标类别进行检测和分类,并估计其位置和方向,以感知出行环境。目前,三维物体检测的发展在检测精度方面取得了很好的成绩,但大多数方法在检测网络训练中严重依赖昂贵的3D标签数据集来提供准确的目标信息,而手工制作3D标签数据集缺乏高精度传感器,且成本高、标签精度差。
[0003]但是单目相机提供了相对划算和容易安装的解决方案。大多数单眼3D目标检测算法都是根据学习到的大量2D建议,附加一个额外的网络分支来学习3D信息。虽然在过去的5年中,这个想法已经取得了很好的实证成功。一方面在3D探测器的训练过程中,由于需要在2D建议书中列举所有可能的物体位置和大小,这就带来了持续的噪声和额外的计算成本。另一方面,CenterNet先驱者直接从图像平面学习3D目标对象信息,避免了使用局部2D建议的方法不可避免的不必要的计算成本。然而,这些方法的训练成本仍然很高,需要人工标记目标3D包围框的单眼图像。
[0004]UDA(无监督域适应)技术旨在从源监督的目标样本上训练一个性能良好的模型(成本低)。其中源样本和目标样本分别为计算机合成的虚拟数据集和真实场景数据集。最近,Wang等人提出了一种弱监督对抗域自适应算法,以提高从合成数据到真实场景的分割性能。然后,应用域因子和偏置权学习域移位,最大限度地减少了域分类损失,以较低的成本学习了真实单眼图像的高成本空间和位置信息。因此,在单目UDA框架上进行三维检测是可取的,即使这是一个具有挑战性的任务。
[0005]然而,据作者所知,很少有研究人员将UDA框架用于单目3D目标检测。这是因为之前最先进的算法是从局部的2D建议中学习3D信息,而UDA的优势在于从整个图像平面中获得训练良好的模型。而由此产生的多阶段三维目标检测在二维检测中引入了持续的噪声,这大大增加了网络感知周围环境结构的难度。

技术实现思路

[0006]本专利技术所要解决的技术问题是如何提供一种能够减少源和目标之间的性能差距,并有效地将多个功能与UDA学习相结合的单阶段单目3D目标检测网络。
[0007]为解决上述技术问题,本专利技术所采取的技术方案是:一种单阶段单目3D目标检测网络,其特征在于包括:深度估计网络模块、语义分割网络模块以及三维物体检测模块,所述深度估计网络模块用于对输入的特征图进行深度估计处理,输出深度特征信息;所述语义分割网络模块用于对输入的特征图进行语义分割处理,输出分割特征信息;所述三维物体检测模块用于对输入的特征图进行三维物体检测,输出关键点特征信息;深度特征信息、
分割特征信息以及关键点特征信息通过融合模块进行融合处理后分别输出给关键点网络模块以及回归网络模块进行处理,关键点网络模块以及回归网络模块处理后进行3D目标的检测。
[0008]进一步的技术方案在于:所述检测网络还包括对抗学习框架,所述对抗学习框架包括基于融合特征的鉴别器训练模块以及基于CMK的DDM对抗学习模块,所述鉴别器训练模块用于使用输入特征向量来弥合共享低层CNN表示的域差距;所述DDM对抗学习模块用于使用CMK来标记被疏离的具有较大域差异的像素区域,忽略对这些像素区域的训练损失。
[0009]进一步的技术方案在于:在源图像上训练语义分割的方法包括如下步骤:语义分割方法采用基于交叉熵的最大软损失算法进行训练。
[0010]进一步的技术方案在于:在源图像上进行深度估计的方法包括如下步骤:对于深度估计,使用反向深度表示,深度估计的基础是不同深度残差回归的berHu损失;给定一个源图像,加上像素级分割和深度标注,,监督源分割和深度损失可以表示为:
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)其中表示语义分割和预测深度,在语义分割的损耗计算中,激活通道K中的函数,K为类的数量,Dmin为经验设置的深度剩余阈值。
[0011]进一步的技术方案在于:所述通过融合模块进行融合处理的方法包括如下步骤:使用关键点网络作为特征融合网络,首先,在返回主分支的残差路径上,对来自特征提取模块的编码特征进行解码,输入到关键点网络;其次,采用Feat的元素智能产品,融合和执行融合的基础上的壮举;第三,将融合后的特征前馈到剩余的回归模块,生成目标检测框;最后设为(i, j)位置的关键点网络的输出,为经过高斯核函数预处理的对应点的地面真值; 和的定义为:
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)定义可调超参数,N是每幅图像的关键点数量;一个车辆分类损失的例子可以表示为:
ꢀꢀꢀꢀ
(4)进一步的技术方案在于:所述通过回归网络模块进行处理的方法包括如下步骤:目标检测网络的第三个模块是回归分支,用于为热图上的每个关键点构造一个三维边界框; t,3D信息被编码为8元组,回归3D框中心[x, y, z]、尺寸(h, w, l)和旋转角度;定义3D边界框回归损失:
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(5)其中是一个比例因子,用于保持分类和回归之间的平衡。
[0012]通过联合最小化能量来训练目标检测网络的参数:
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(6)其中为三维边界框回归损失权值。
[0013]进一步的技术方案在于:所述基于融合特征的鉴别器训练模块的实现方法包括如下步骤:给定一组源图像和目标图像,用关键点特征作为加权特征向量,其中:
ꢀꢀꢀꢀꢀꢀꢀ
(7)定义语义切分网络的语义特征为,深度特征为,用和重构特征向量;和、的融合,本申请称之为DDM融合;首先,是和的元素级积,其中使用逆深度,然后将其与集成,这样的结合有助于集中于场景中特定对象对应的领域;然后,将融合特征前馈到一个鉴别器中作为输入,该鉴别器通过学习来识别源和目标输出;最后,将binary_crossentropy定义为使融合特征,即融合特征之间的距离尽可能小的对抗性损失,可以表示为:G尽量最小化这个目标而D尽量最大化这个目标;然后,将分类目标最小化为:
ꢀꢀꢀꢀꢀꢀ
(8)
对目标图像的训练损失可以表示为:
ꢀꢀꢀꢀꢀꢀꢀꢀ
(9)。
[0014]进一步的技术方案在于:所述基于CMK的DDM对抗学习模块的处理过程包括:构建置信掩码,CMK对能够实现领域对齐的像素点进行估计和标记;损失重新计算,忽略未标记像素点对应的损失,计算CMK损失。
[0015]进一步的技术方案在于:根据CMK重新定义鉴别器损耗如下:
ꢀꢀꢀꢀꢀ
(10)式中为目标图像T的可解释掩码,为鉴别器损耗;考虑到无监督机制的CMK预测会以零值来最小化损本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种单阶段单目3D目标检测网络,其特征在于包括:深度估计网络模块、语义分割网络模块以及三维物体检测模块,所述深度估计网络模块用于对输入的特征图进行深度估计处理,输出深度特征信息;所述语义分割网络模块用于对输入的特征图进行语义分割处理,输出分割特征信息;所述三维物体检测模块用于对输入的特征图进行三维物体检测,输出关键点特征信息;深度特征信息、分割特征信息以及关键点特征信息通过融合模块进行融合处理后分别输出给关键点网络模块以及回归网络模块进行处理,关键点网络模块以及回归网络模块处理后进行3D目标的检测。2.如权利要求1所述的单阶段单目3D目标检测网络,其特征在于:所述检测网络还包括对抗学习框架,所述对抗学习框架包括基于融合特征的鉴别器训练模块以及基于CMK的DDM对抗学习模块,所述鉴别器训练模块用于使用输入特征向量来弥合共享低层CNN表示的域差距;所述DDM对抗学习模块用于使用CMK来标记被疏离的具有较大域差异的像素区域,忽略对这些像素区域的训练损失。3.如权利要求2所述的单阶段单目3D目标检测网络,其特征在于:在源图像上训练语义分割的方法包括如下步骤:语义分割方法采用基于交叉熵的最大软损失算法进行训练。4.如权利要求3所述的单阶段单目3D目标检测网络,其特征在于:在源图像上进行深度估计的方法包括如下步骤:对于深度估计,使用反向深度表示,深度估计的基础是不同深度残差回归的berHu损失;给定一个源图像,加上像素级分割和深度标注,,监督源分割和深度损失可以表示为:
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)其中表示语义分割和预测深度,在语义分割的损耗计算中,激活通道K中的函数,K为类的数量,Dmin为经验设置的深度剩余阈值。5.如权利要求2所述的单阶段单目3D目标检测网络,其特征在于:所述通过融合模块进行融合处理的方法包括如下步骤:使用关键点网络作为特征融合网络,首先,在返回主分支的残差路径上,对来自特征提取模块的编码特征进行解码,输入到关键点网络;其次,采用Feat的元素智能产品,融合和执行融合的基础上的壮举;第三,将融合后的特征前馈到剩余的回归模块,生成目标检测框;
最后设为(i, j)位置的关键点网络的输出,为经过高斯核函数预处理的对应点的地面真值; 和的定义为:
ꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)定义可调超参数,N是每幅图像的关键点数量;一个车辆分类损失的例子可以表示为:
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(4)。6.如权利要求2所述的单阶段单目3D目标检测网络,其特征在于:所述通过回归网络模块进行处理的方法包括如下步骤:目标检测网络的第三个模块是回归分...

【专利技术属性】
技术研发人员:张峻宁唐波史英春黄中瑞秦立龙张硕樊甫华王贵生张坤峰王军
申请(专利权)人:中国人民解放军国防科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1