System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 面向多视角三维目标检测的跨模态前景蒸馏方法技术_技高网

面向多视角三维目标检测的跨模态前景蒸馏方法技术

技术编号:44713205 阅读:4 留言:0更新日期:2025-03-21 17:43
本发明专利技术公开了面向多视角三维目标检测的跨模态前景蒸馏方法,属于自动驾驶感知技术领域。该方法使用激光雷达或多模态三维目标检测模型为教师模型,并以多视角的鸟瞰图BEV感知三维目标检测模型为学生模型,通过多尺度特征的蒸馏提升模型性能;引入空间注意力机制和前景掩码模块,学生模型能够在多尺度下模仿教师模型在不同空间位置的特征响应,专注前景目标,抑制背景噪声;自适应模块确保多尺度特征在特征维度和空间分辨率上的一致性,最终通过均方误差和KL散度等损失函数度量特征和回归输出的差异,实现高效的跨模态、多尺度前景特征蒸馏。最终提升多视角三维目标检测精度和效率,同时充分考虑了多尺度特征的蒸馏需求。

【技术实现步骤摘要】

本专利技术涉及计算机视觉中的自动驾驶感知,尤其涉及面向多视角三维目标检测的跨模态前景蒸馏方法


技术介绍

1、近年来多视角三维目标检测在自动驾驶感知领域倍受关注,具有广阔的应用场景。其中,摄像机图像有着密集的颜色和纹理信息,基于多视角的鸟瞰图(bird’s eyeview,bev)感知三维(3d)检测模型具有低成本、容易部署的优点,受到了工业界和学术界的青睐。尤其在复杂的城市道路环境中,丰富的视觉信息更有利于场景理解和目标识别,有助于自动驾驶系统做出准确的决策。

2、相较于基于激光雷达的三维检测模型而言,基于多视角的bev感知三维目标检测模型虽然能达到不错的精度,但难以准确推断出深度和其他三维几何信息,导致其性能落后于基于激光雷达的三维目标检测模型。同时,基于激光雷达的三维目标检测摸鱼通常具有较高的复杂度,计算资源消耗大,运行效率低,难以支持工业化部署。这主要是因为从二维图像构建三维信息是一个巨大的挑战,需要复杂的神经网络来学习和推理这种映射关系。一种直观的解决方法是通过压缩模型,减少模型参数量来提高模型的运行效率。然而,简单的压缩模型往往会导致性能的下降。在这种情况下,知识蒸馏作为一种有效的模型压缩和加速技术,不仅能够显著提高小模型的运行效率,还能在压缩模型的同时保持或接近原始大模型的性能,展现出巨大的潜力。

3、知识蒸馏通过让大模型(教师模型)指导小模型(学生模型)的学习过程,使得小模型能够获得接近大模型的性能。这种方法不仅可以有效压缩模型大小,还能在一定程度上保持模型的检测精度。通过将激光雷达模型作为教师模型来指导视觉模型的学习,可以让视觉模型获得激光雷达的精确三维感知能力,同时保持视觉传感器低成本、易部署的优势。激光雷达数据和摄像机图像数据在模态特性上存在本质差异,如何高效地将教师模型的知识通过跨模态知识蒸馏的方式传递给学习模型在实际应用中面临着严峻的挑战。


技术实现思路

1、针对现有技术中的问题,本专利技术提供了一种面向多视角三维目标检测的跨模态前景蒸馏系统及方法,解决现有基于视觉的三维目标检测模型在精度、深度信息推理和计算资源利用效率方面的不足。

2、本专利技术提出了一种面向多视角三维目标检测的跨模态前景蒸馏方法,适用于包括自适应模块、前景掩码模块、空间注意蒸馏模块、多尺度前景特征蒸馏模块和响应式蒸馏模块的蒸馏框架中,以使用激光雷达或多模态三维目标检测模型作为教师模型,以多视角的鸟瞰图bev感知三维目标检测模型作为学生模型;自适应模块,用于调整学生模型的特征,使得输出特征在空间分布和语义信息上与教师模型特征尺度一致;前景掩码模块,用于生成前景掩码和前景缩放尺度权重,以及识别图像中的目标区域,同时,调整不同大小目标区域的蒸馏权重;空间注意力蒸馏模块,用于生成空间注意力图并进行空间注意力特征的知识蒸馏;多尺度前景特征蒸馏模块,用于通过对不同尺度的前景区域进行特征对齐,显著提高学生模型对目标区域的感知能力;响应式蒸馏模块,用于通过分类和回归任务分别设计损失函数的蒸馏方法,对教师模型和学生模型的分类和回归输出进行差异计算,实现对学生模型的蒸馏优化。

3、进一步具体的,蒸馏框架中的自适应模块由上采样层和卷积层堆叠而成,所述调整学生模型的特征包括:首先,通过上采样层提高特征的分辨率,然后通过卷积层调整特征的空间结构和维度信息,使得输出特征在空间分布和语义信息上与教师模型的特征保持一致;自适应模块处理的表达式如下:

4、

5、其中,为输入的学生模型的特征,为自适应模块,为经过自适应模块处理之后的特征输出。

6、进一步具体的,在蒸馏框架的前景掩码模块中,前景掩码是通过对所有目标区域边界框中心点生成的二维高斯掩码进行求和得到,其公式如下:

7、

8、其中,为标准差,代表第个边界框,为边界框的总数,为边界框的中心点坐标;

9、前景缩放尺度权重根据前景掩码的值生成,其中,当前景掩码值大于某一个阈值时,认为该点属于前景,并根据所属前景掩码边界框计算缩放权重;当前景掩码值小于等于某一个阈值时,认为该点属于背景区域,并基于背景点数量生成缩放权重;具体计算公式如下:

10、

11、其中,为点对应的前景掩码值;表示第个前景区域掩码;分别表示前景掩码区域的高度和宽度,通过查找与前景掩码区域对应的边界框得到;是设定的阈值,用于区分前景和背景;

12、前景掩码和前景缩放尺度权重作为多尺度前景特征蒸馏任务中的加权系数,以实现对不同大小目标区域的蒸馏权重的调整。

13、进一步具体的,在蒸馏框架的空间注意力蒸馏模块中,对于空间注意力图,具体计算公式如下:

14、,

15、其中,为对特征在通道维度进行平均池化操作,为使用函数对平均池化结果进行归一化处理得到空间注意力图,为教师模型或学生模型的特征,为特征的通道数、高、宽,使用上述公式分别计算教师模型与学生模型的空间注意力图,并通过自适应层对学生模型的注意力图进行调整,然后,使用超参数对两个模型的空间注意力图进行融合,具体公式如下:

16、,

17、其中,所述融合的空间注意力用于后续的多尺度特征蒸馏;

18、对于空间注意力特征的知识蒸馏,分别通过教师模型和学生模型的空间注意力图与各自的原始特征相乘,得到相应的空间注意力特征,实现对特征的空间加权,突出重要区域的特征,公式如下:

19、,

20、其中,分别表示为教师与学生模型的特征,分别为教师与学生模型的空间注意力图,为逐元素相乘,分别为教师与学生模型的空间注意力特征;然后,采用损失函数两者空间注意力特征的差异,具体公式如下:

21、

22、其中,分别为空间注意特征的长和宽,为自适应模块。

23、进一步具体的,定义编码器在不同层级生成的特征为多尺度特征,分别表示为:和其中,为分别表示学生模型特征得通道数、高度、宽度;分别为教师模型的通道数、高度、宽度;

24、在蒸馏框架的多尺度前景特征蒸馏模块中,采用均方误差损失函数度量教师模型和学生模型的特征之间的相似性,其计算公式如下:

25、

26、其中,分别为特征的通道数、高、宽,为空间注意力图,分别表示为教师与学生模型的第层特征,为前景掩码,为前景掩码缩放尺度权重。

27、进一步具体的,在响应式蒸馏模块的分类和回归任务分别设计损失函数的蒸馏方法中,分类损失主要度量教师模型和学生模型在分类任务中的误差,而回归损失则衡量它们在目标属性回归任务中的差异;

28、在分类任务中,从教师模型与学生模型的输出中提取热力图最大值,使用损失函数度量教师模型与学生模型的热力图最大值之间的绝对误差,最后,将绝对误差与前景掩码加权并标准化得到最终的分类损失,具体公式如下:

29、

30、其中,分别表示教师与学生模型的热力图最大值,为前景掩码,为掩码权重之和,为数值稳定性项,其本文档来自技高网...

【技术保护点】

1.一种面向多视角三维目标检测的跨模态前景蒸馏方法,其特征在于,

2.根据权利要求1所述的跨模态前景蒸馏方法,其特征在于,

3.根据权利要求1所述的跨模态前景蒸馏方法,其特征在于,

4.根据权利要求1所述的跨模态前景蒸馏方法,其特征在于,

5.根据权利要求1所述的跨模态前景蒸馏方法,其特征在于,

6.根据权利要求1所述的跨模态前景蒸馏方法,其特征在于,

【技术特征摘要】

1.一种面向多视角三维目标检测的跨模态前景蒸馏方法,其特征在于,

2.根据权利要求1所述的跨模态前景蒸馏方法,其特征在于,

3.根据权利要求1所述的跨模态前景蒸馏方法,其特征在于,

【专利技术属性】
技术研发人员:沈世全陈昊东杨秀建张永齐王艳峰方军魏文张小兵王青旺
申请(专利权)人:昆明理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1