一种用于语义分割的高效图像到激光雷达知识迁移方法技术

技术编号：42656583 阅读：17 留言：0更新日期：2024-09-10 12:16

本发明专利技术公开了一种用于语义分割的高效图像到激光雷达知识迁移方法，其利用包括视觉基础模型教师网络、轻量级学生网络和块到点多阶段知识蒸馏网络的ELiTe模型实现，具体步骤如下：轻量级学生网络与视觉基础模型教师网络分别处理激光雷达与对应图像输入，并提取多阶段特征以表示场景信息；在块到点多阶段知识蒸馏网络中，利用块到点多阶段知识蒸馏从教师网络中获取图像领域知识，并将其转移到学生网络中，从而丰富其语义信息；其中：教师网络通过参数高效微调进行域自适应微调，并由基于分割一切模型的伪标签生成算法SAM‑PLG生成的伪标签进行监督。本发明专利技术的高效知识迁移在公开测试基准上产生了优异结果，优于实时推理模型。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于光雷达点云语义分割，涉及一种跨模态知识迁移方法，尤其涉及一种用于语义分割的高效图像到激光雷达知识迁移方法。

技术介绍

1、激光雷达语义分割在自动驾驶领域扮演着至关重要的角色。随着深度学习技术的迅猛发展，激光雷达语义分割迎来了新的机遇和挑战。深度学习算法的广泛应用使得能够更好地处理复杂的驾驶场景，并提高车辆在不同环境下的自动驾驶能力。特别值得注意的是，通过跨模态知识传递，可以综合利用激光雷达数据，融合其他传感器模态的语义信息，以提升自动驾驶车辆的感知能力。然而，尽管跨模态知识传递为语义分割任务带来了丰富的信息，但在实践中也面临着一些挑战。教师模型作为传授知识的主导角色，可能存在一些潜在的弱点。

2、一、激光雷达点云的语义分割

3、激光雷达(light detection and ranging，lidar)技术被广泛应用于地图制作、无人驾驶和环境感知等领域。其生成的点云数据描述了物体的几何形状和位置。通过语义分割，可以为每个点赋予类别，如道路、建筑物、树木等，以进一步理解和分析环境。这种语义信息对于自动驾驶汽车的路径规划、城市规划和环境监测等任务至关重要。因此，对点云数据进行语义分割能够为各种应用提供更精确、可靠的环境感知数据，从而为智能交通、城市管理等领域的发展提供重要支持。

4、为了实现激光雷达语义分割，需要按照一系列步骤进行处理。首先，利用深度学习等技术进行点云的特征提取和表示学习，以捕获点云数据中的语义信息和特征。然后，采用语义分割模型对点云进行像素级的分类，将每个点分配到

5、激光雷达语义分割可实现对复杂环境的高精度理解，为自动驾驶、城市规划和环境保护提供可靠数据支持。例如，可帮助车辆识别道路、行人和障碍物，优化行驶路径；也可分析城市建筑物、绿化植被和地形地貌，为城市规划和资源管理提供科学依据。

6、有几种主流的方法来处理具有不同表示的点云：

7、基于点表示的方法：使用每个点的多层感知器(multi-layer perceptron，mlp)来近似排列不变的集合函数。然而，基于点的方法在激光雷达场景中效率不高，因为它们的采样和分组算法通常耗时较长。

8、基于投影表示的方法：是处理激光雷达点云的一种非常有效的途径。这些方法通过将点云投影到2d像素上，使得传统的卷积神经网络(convolutional neural network，cnn)能够更有效地处理数据。然而，这种投影过程难免导致了信息的一定丢失。目前而言，基于投影的方法在处理激光雷达点云时在分割准确性方面面临一些瓶颈。尽管投影为数据提供了一种更易处理的表征形式，但却难以避免地牺牲了一些关键信息。这种信息损失可能对于一些应用，尤其是对于高精度分割任务而言，构成了一个挑战。

9、基于体素表示的方法：是最近的大多数研究采用的框架，因为它们在效率和效果之间取得了平衡，其中稀疏卷积是最常用的。

10、基于多表示的融合方法：近年来成为了计算机视觉领域的研究热点。这些方法旨在将不同的数据表示(如点云、投影图像和体素表示)相结合，并设计了有效的特征融合策略。尽管这些方法在处理稀疏且无纹理的激光雷达点云方面取得了显著进展，但迄今为止，它们在利用摄像机图像中的外观和纹理方面仍存在一定局限性。在语义分割任务中，摄像机图像提供了丰富的外观和纹理信息，而激光雷达点云则提供了准确的距离和形状信息。然而，这些方法往往只关注于单一数据源的信息，而未能充分利用两者之间的互补性。

11、基于多模态的融合方法：弥补了目前单一表示方法和多表示融合方法的不足，这些方法仅考虑激光雷达点云数据而忽略了同时采集到的相机图像。为了更好地利用相机和激光雷达的优势，引入了多模态融合方法，该方法结合这两种互补的传感器信息。在处理过程中，遵循了常规的处理管线，具体如图1所示。

12、然而，这些方法在训练和推断阶段都需要多传感器输入，带来了计算上的挑战。实际场景中获取成对的多模态数据也是不切实际的。此外，大多数方法旨在构建参数逐渐增加的模型，从而提高了训练成本。尽管当前的努力重点是压缩推断模型参数，但实现实际的实时推断速度仍然具有挑战性。在这一领域取得进展需要综合考虑多模态数据的特点，以提高融合方法的实际适用性和效率。

13、二、图像到点云的迁移学习

14、迁移学习是机器学习中一种强大的范式，其旨在解决数据稀缺和领域偏移等挑战。该方法通过利用源领域中丰富的知识来辅助目标领域的学习任务。这些研究不仅丰富了迁移学习的理论基础，也为实际应用提供了更加有效的方法。

15、通过知识蒸馏，大型教师网络中的复杂知识可以被有效地传递给小型学生网络。这种方法尤其适用于资源有限或需要在嵌入式设备上部署的场景。随着研究的深入，对于知识蒸馏的机制和优化策略也在不断地完善和改进，使得其在各种任务和领域中得到了广泛的应用和验证。

16、随着多模态计算机视觉领域的迅速发展，研究人员开始探索将知识从二维视觉领域迁移到三维视觉领域的可能性。这意味着在训练阶段，可以利用先验信息将知识从一个模态传递到另一个模态，从而提高模型性能。在这个过程中，不同模态之间的信息交互和转换将成为关键的研究方向。

17、知识蒸馏方法根据是否使用预训练的教师模型可以分为在线和离线两类。在线方法中，学生模型和教师模型同步进行训练，学生模型可以从相近分布上在线训练的教师模型中获得知识；而离线方法则使用预训练的参数固定教师模型，在训练过程中不更新参数，学生模型通过预训练的教师模型获得知识。然而，由于教师模型相对较弱，导致知识转移效率较低。在一般的视觉任务中，二维图像上的预训练也对下游三维视觉任务产生了显著影响，因此出现了离线迁移学习方法。

18、跨模态知识迁移增强了lidar语义分割中的点云表示学习。尽管有潜力，但由于重复且非多样化的汽车摄像头图像以及稀疏、不准确的地面真实标签，薄弱教师挑战出现了。

技术实现思路

1、本专利技术是为了解决现有技术方案中存在的问题，即跨模态知识迁移中薄弱教师问题，从而提出一种用于语义分割的高效图像到激光雷达知识迁移方法。本专利技术提出了高效图像到激光雷达知识转移(elite，efficient image-to-lidar knowledge transfer)范例。elite引入了补丁到点多阶段知识蒸馏，从视觉基础模型(vfm)转移全面的知识，并在各种开放世界图像上进行了广泛的训练。这使得能够跨模态将知识有效地转移到轻量级学生模型。elite采用参数高效微调来加强vfm教师并以最小的成本加快大规模模型训练。此外，本专利技术引入了基于分段任何模型的伪标签生成方法来增强低质量图像标签，促进强大的语义表示。本专利技术的高效知识迁移在公开测试基准上产生了最先进的结果，优于实时推理模型。本专利技术以明显更少的参数本文档来自技高网...

【技术保护点】

1.一种用于语义分割的高效图像到激光雷达知识迁移方法，其特征在于，其基于ELiTe模型实现，以利用来自图像知识的丰富颜色和纹理信息，弥补激光雷达输入的局限性；ELiTe模型包括视觉基础模型教师网络、轻量级学生网络和块到点多阶段知识蒸馏网络，视觉基础模型教师网络和轻量级学生网络同时对图像和激光雷达点云进行编码，块到点多阶段知识蒸馏网络包括用于视觉基础模型教师网络和轻量级学生网络的L个单阶段块解码器，这些解码器将下采样的特征图还原到其原始大小，并为知识蒸馏获取预测分数；具体步骤如下：

2.根据权利要求1所述的用于语义分割的高效图像到激光雷达知识迁移方法，其特征在于，步骤一中，视觉基础模型教师网络采用视觉Transformer编码器，并选择每个全局注意力块输出的块级别的图像特征进行知识传递；使用SPVCNN以实时推理速度构建轻量级学生网络；在视觉基础模型教师网络与轻量级学生网络中，L个单阶段2D特征和3D特征被提取出，这些多阶段特征被用于知识蒸馏，也被用于获得最终的预测分数。

3.根据权利要求1所述的用于语义分割的高效图像到激光雷达知识迁移方法，其特征在于，步骤

4.根据权利要求1所述的用于语义分割的高效图像到激光雷达知识迁移方法，其特征在于，视觉基础模型教师网络使用AdaLoRA进行域自适应微调。

5.根据权利要求4所述的用于语义分割的高效图像到激光雷达知识迁移方法，其特征在于，ELiTe模型的总损失函数由2L+2个分割损失Lseg、L个多阶段蒸馏损失、1个用于优化AdaLoRA的计算正交正则化的额外损失构成；其中：

6.根据权利要求1所述的用于语义分割的高效图像到激光雷达知识迁移方法，其特征在于，基于分割一切模型的伪标签生成算法SAM-PLG具体如下：

7.根据权利要求6所述的用于语义分割的高效图像到激光雷达知识迁移方法，其特征在于，分割一切模型采用ViT-Huge版本的分割一切模型。

...

【技术特征摘要】

1.一种用于语义分割的高效图像到激光雷达知识迁移方法，其特征在于，其基于elite模型实现，以利用来自图像知识的丰富颜色和纹理信息，弥补激光雷达输入的局限性；elite模型包括视觉基础模型教师网络、轻量级学生网络和块到点多阶段知识蒸馏网络，视觉基础模型教师网络和轻量级学生网络同时对图像和激光雷达点云进行编码，块到点多阶段知识蒸馏网络包括用于视觉基础模型教师网络和轻量级学生网络的l个单阶段块解码器，这些解码器将下采样的特征图还原到其原始大小，并为知识蒸馏获取预测分数；具体步骤如下：

2.根据权利要求1所述的用于语义分割的高效图像到激光雷达知识迁移方法，其特征在于，步骤一中，视觉基础模型教师网络采用视觉transformer编码器，并选择每个全局注意力块输出的块级别的图像特征进行知识传递；使用spvcnn以实时推理速度构建轻量级学生网络；在视觉基础模型教师网络与轻量级学生网络中，l个单阶段2d特征和3d特征被提取出，这些多阶段特征被用于知识蒸馏，也被用于获得最终的预测分数。

3.根据权利要求1所述的用于语义分割的高效图像到激光雷达知识迁移...

【专利技术属性】
技术研发人员：张志博，张卫忠，阳希明，金城，
申请(专利权)人：复旦大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人