自动驾驶场景中面向模态缺失的多车协同感知方法技术

技术编号：44576391 阅读：1 留言：0更新日期：2025-03-14 12:40

本发明专利技术提出一种自动驾驶场景中面向模态缺失的多车协同感知方法，能够在模态缺失时保持稳健的3D目标检测性能。本方法采用多模态特征对齐策略消除激光雷达和相机的BEV特征在格式和维度上的差异，提升融合效果；为增强模型在模态缺失时的适应性，采用跨模态可变形注意力层使模态特定的线性层更好地适应数据变化，并利用自注意力捕捉特征间的长距离依赖关系。最后，通过评估车辆状态和信誉值筛选高信誉邻居，采用多头注意力的多车协同感知策略，以平衡感知精度与推理效率。大量模拟和实车实验结果表明，所提方法在激光雷达或相机缺失时分别提升了7.73％和6.78％的AP@0.5，显著优于现有基准方法。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于自动驾驶，具体是一种自动驾驶场景中面向模态缺失的多车协同感知方法。

技术介绍

1、自动驾驶作为一种提升交通安全与效率的创新技术，旨在最大程度地减少交通事故。该技术通过先进的感知、通信、计算和控制手段，实现自动驾驶车辆的实时且连续的自主控制。随着人工智能的快速发展，自动驾驶车辆的环境感知能力得到了显著提升。通常，自动驾驶系统依赖车载传感器(如激光雷达、摄像头、毫米波雷达等)持续扫描和监测周围环境，从而理解并感知环境状态[1]。然而，在实际道路环境中，单车感知难以获得“完美”的感知数据，常常因视野受阻等原因导致信息缺失(如图1(a))。此外，不同类型的传感器所采集的数据具有异构性，例如摄像头采集的是缺乏深度信息的二维rgb图像，而激光雷达生成的是稀疏的三维点云(如图1(b))，这种多源数据的多样性显著增加了处理难度。如何提升单车的多源数据融合能力，尤其在恶劣天气条件下，依然是自动驾驶面临的重要挑战。幸运地是，自动驾驶汽车与周围交通参与者之间存在密切的交互关系。通过共享感知数据，多车协同感知能够有效突破单车在时空维度上的感知局限，使得车辆能够更全面地感知道路状况及周围交通参与者的动态行为，从而为自动驾驶决策提供更高效、精准的支持[2]。

2、根据共享数据类型的不同，现有的多车协同感知方法主要分为基于相机[3][4][5]、基于激光雷达[6][7][8]和基于多模态融合的方法[9][10][11]。其中，多模态融合方法通过结合激光雷达与相机的优势，成为目前最具前景的感知方案。然而，大多数研究考虑一个理想的多模态

3、(1)多模态特征的精准对齐。由于激光雷达和相机采集的数据在格式和维度上存在显著差异，检测模型在输入阶段或特征空间中难以精确对齐这些异构数据。消除数据的差异依赖一种适用于多模态特征融合的统一表示，其中深度信息是数据对齐的关键。相机采集的二维图像缺乏深度信息，而激光雷达提供稀疏的三维点云，因此需要在深度维度上对齐两种数据。yin等人[14]通过将三维点云投影到二维rgb相机坐标系，帮助相机获取深度信息，并基于对齐后的数据进行周边环境的3d目标探测。然而，投影方法在目标被遮挡时易丢失信息，且难以捕捉远处物体的深度信息。you等人[15]则通过将估算的rgb图像深度图转换为伪激光雷达点云，以实现基于激光雷达的3d目标检测。文献[16]提出使用神经网络预测图像的深度信息，从而在多视角图像生成视锥点云后构建对齐的bev特征。尽管这些方法在一定程度上减少了对激光雷达点云数据的依赖，但容易受到噪声和环境变化的影响，导致深度预测不稳定。为此，bevfusion方法[12]将多模态特征统一投影到bev表示空间，以高效地融合多模态特征。然而，如何在bev空间中精确对齐多模态特征仍然是一个关键难题。

4、(2)多模态数据融合的鲁棒性。完整的多模态感知数据是实现多模态特征融合的基础。文献[17]提出了一种查询索引方法，通过激光雷达和相机特征的相互查询来实现多模态数据的融合。然而，当激光雷达或相机发生故障或在恶劣环境下，该方法因依赖完整的数据输入而显著降低融合效果。文献[12][18]采用特征串联的方式，将多模态特征依次输入到bev编码器中，以纠正激光雷达和相机bev特征的空间错位。然而，在模态数据缺失时，该方法难以自适应调整空间错位，从而对3d目标检测的准确性产生负面影响。bai等人[19]利用注意力机制强化高质量单模态数据在多模态融合中的贡献，使车辆更聚焦于环境中的3d目标。然而，传统注意力机制难以有效加权聚合存在缺失的模态数据和完备的模态数据，削弱了其在多模态融合中的效果。综上所述，模态缺失使得现有的多模态融合策略失效，甚至阻碍3d目标检测的实现。因此，如何在不完备的多模态感知数据下确保数据融合的鲁棒性有待进一步探索。

5、(3)多模态信息的高效协同利用。早期的协同感知研究倾向于使用串联、求和或线性加权等方法来融合多车特征[20]。这些方法虽然操作简便且推理速度较快，但忽视了多车特征之间的潜在相关性，限制了协同感知性能的提升。基于图的协同感知能够传播和聚合邻居车辆的特征信息，因此wang等人[7]率先采用空间自适应的图神经网络来建模多车协作关系。li等人[21]通过计算协作权重来推导协作图中车辆之间的关联性，以优化信息共享和感知效率。xu等人[22]利用自注意力机制捕捉特征图中特定区域的多车关系，通过为不同区域分配精准的注意力权重来增强整体特征融合效果。cui等人[23]设计了名为point transformer的自注意力网络，聚合多个协同车辆的点云特征以增强特征提取能力。liu等人[24]将中心车辆的感知信息压缩后广播给周围车辆，通过学习匹配得分来构建协作关系。这些方法主要依赖单模态数据的融合来实现多车协同目标检测，未能充分挖掘多模态融合数据所提供的丰富环境信息。因此，如何高效利用邻居车辆的多模态特征，提升中心车辆的目标检测精度仍然充满挑战。

技术实现思路

1、针对上述问题，本专利技术出一种基于多模态融合的多车协同感知方法，以弥补环境感知信息不足对3d目标检测性能的影响。

2、本专利技术的自动驾驶场景中面向模态缺失的多车协同感知方法，该方法是应用于自动驾驶场景；在自动驾驶场景中，车辆通过车载的激光雷达和相机持续扫描和监测周围环境，以感知和理解环境状态；

3、多车协同感知方法的步骤包括：

4、(一)先对车辆的激光雷达和相机分别获得的bev特征进行融合，得到多模态融合的bev特征b；

5、(二)采用基于多头注意力机制的多车协同感知方法筛选出协作的邻居车辆；

6、(三)采用3d目标检测头识别出车辆周围的多个目标。

7、本专利技术的主要贡献如下：

8、第一、结合投影与预测的多模态特征对齐策略。该策略将激光雷达的深度信息投影到相机的rgb图像中，以增强相机的深度感知能力；再将对齐后的特征转换至bev空间，与激光雷达的bev特征进行融合。此方法有效消除了激光雷达和相机数据在格式和维度上的差异，使对齐特征更适合多模态数据融合。

9、第二、跨模态可变形注意力层和自注意力层的设计。通过使用模态特定的线性层代替传统的统一线性层，模型可以更好地适应不同环境下的输入数据，特别是在模态数据缺失的情况下。同时，自注意力层用于捕捉特征图内部多模态特征的长距离依赖关系，进一步提升特征表达能力。该设计确保了多模态数据在多种天气和交通条件(如雨天、雾天、高速行驶)下的有效融合，增强了系统在复杂环境中的3d目标检测鲁棒性。

10、第三、基于多头注本文档来自技高网...

【技术保护点】

1.一种自动驾驶场景中面向模态缺失的多车协同感知方法，该方法是应用于自动驾驶场景；在自动驾驶场景中，车辆通过车载的激光雷达和相机持续扫描和监测周围环境，以感知和理解环境状态；

2.根据权利要求1所述的自动驾驶场景中面向模态缺失的多车协同感知方法，其特征是步骤(一)中，包括：步骤1)BEV特征提取；步骤2)多模态特征融合；

3.根据权利要求2所述的自动驾驶场景中面向模态缺失的多车协同感知方法，其特征是在步骤1)中，对于每辆车，分别提取激光雷达和相机这两个模态的BEV特征，具体为：采用激光雷达和相机双分支网络提取这两个模态的BEV特征；

4.根据权利要求2所述的自动驾驶场景中面向模态缺失的多车协同感知方法，其特征是在步骤2)中，采用正弦和余弦函数为查询特征生成位置编码并将Pe与Q逐元素相加得到一个包含空间位置信息的查询特征

5.根据权利要求1所述的自动驾驶场景中面向模态缺失的多车协同感知方法，其特征是在步骤(三)中，在3D目标检测头中，采用3D目标检测模型识别出车辆周围的多个目标。

6.根据权利要求5所述的自动驾驶场景中面向

7.根据权利要求6所述的自动驾驶场景中面向模态缺失的多车协同感知方法，其特征是SSD模型训练时，使用目标分类损失和回归损失来优化自身参数，步骤包括：

...

【技术特征摘要】

2.根据权利要求1所述的自动驾驶场景中面向模态缺失的多车协同感知方法，其特征是步骤(一)中，包括：步骤1)bev特征提取；步骤2)多模态特征融合；

3.根据权利要求2所述的自动驾驶场景中面向模态缺失的多车协同感知方法，其特征是在步骤1)中，对于每辆车，分别提取激光雷达和相机这两个模态的bev特征，具体为：采用激光雷达和相机双分支网络提取这两个模态的bev特征；

4.根据权利要求2所述的自动驾驶场景中面向模态缺失的多车协同感知方法，其特征是在步骤2)中，采用正弦和余弦函数为查询特征生成位置编码并将pe与q...

【专利技术属性】
技术研发人员：王天荆，王少齐，沈航，易恒烨，白光伟，
申请(专利权)人：南京工业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人