一种基于特征交互融合的激光雷达点云语义分割方法技术

技术编号：42083967 阅读：7 留言：0更新日期：2024-07-19 17:00

本发明专利技术提出了一种基于特征交互融合的激光雷达点云语义分割方法。首先，本发明专利技术通过球面前视图和极坐标鸟瞰图投影得到距离视图(Range View,RV)和鸟瞰视图(Bird Eye’s View,BEV)；然后，建立特征交互融合并行神经网络，提取不同视图的浅层特征和深层特征，其中在网络编码和解码阶段，交互融合不同视图的图像特征，并在特征融合处引入残差自注意力机制，以关注特征的通道和空间分布，进一步细化特征；其次，将神经网络提取到的两视图特征向量送入Softmax分类器，得到分类置信度；最后，利用基于置信度加权的决策级融合方法将两视图置信度进行加权，得到最终的语义分割结果。本发明专利技术融合了距离视图和鸟瞰视图的特征，并在不同视图间传播互补信息，为模型决策提供附加信息，能够有效提高语义分割的准确度。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机视觉，具体涉及一种基于特征交互融合的激光雷达点云语义分割方法。

技术介绍

1、3d点云语义分割作为计算机视觉领域中的一项基础任务，被广泛应用于自动驾驶领域。自动驾驶领域中，激光雷达点云语义分割为点云中每个点分配语义标签来实现对驾驶场景目标(例如汽车、行人、骑行者、道路、建筑物等)的细粒度理解，直接关联到自动驾驶的准确性和安全性。因此，点云语义分割在自动驾驶领域起着至关重要的作用，受到人们的广泛关注。

2、近年来，深度学习在计算机视觉领域的目标识别、检测和语义分割等任务中取得了巨大成功，许多基于深度学习的3d点云语义分割算法不断被提出。目前主流的研究方法通过基于点、体素、2d投影三个不同的角度来解决语义分割问题。基于点的方法由于点云的无序性以及邻域搜索等问题，影响了运算效率；基于体素的方法受体素分辨率影响较大，高分辨率体素保留了较多的信息，但其计算成本与内存消耗非常高；然而，低分辨率的体素在量化过程中会丢失较多的信息，造成很大的量化误差；基于以上两种方法的缺陷，由于图像的紧凑性和二维卷积神经网络的轻便性，基于投影的方法可以在保证实时性能的同时实现优异的分割效果。

3、基于投影的方法通常采用俯视投影或球面前视图投影来处理原始点云，从而形成鸟瞰视图(bird eye’s view,bev)和距离视图(range view,rv)。由于投影方法的不同，rv和bev包含不同的原始点云分布信息。rv对小型、垂直方向的类别(例如摩托车、行人和路杆等)表现出较为优越的分割性能，而bev对x-y平面上具

技术实现思路

1、为了克服现有技术存在的上述不足，本专利技术的目的是提出一种基于多视图投影和深度学习的激光雷达点云语义分割方法。相比于直接处理点云和体素化处理点云的方法，基于投影的方法减少了数据处理的计算开销，能够有效解决实时性差的问题，并且本专利技术融合了距离视图和鸟瞰视图，相互弥补了基于单个视图投影的不足，减少信息丢失，可实现高精度的语义分割。

2、为了实现上述目的，本专利技术所采用的技术方案为：一种基于特征交互融合的激光雷达点云语义分割方法，具体包括以下步骤：

3、步骤一、利用激光雷达采集得到3d点云数据；

4、步骤二、将3d点云进行球面前视图投影和极坐标鸟瞰图投影，分别得到距离视图和鸟瞰视图下的2d图像映射矩阵；

5、步骤三、将距离视图和鸟瞰视图输入特征交互融合卷积神经网络，得到不同视图相应点类别的语义分类置信度；

6、步骤四、利用基于置信度加权的方法将距离视图和鸟瞰视图的语义分割结果进行决策级融合，得到点云各点最终的类别预测。

7、所述步骤二中包括以下步骤：

8、步骤二(1)球面前视图投影：将原始激光雷达点云帧中用笛卡尔坐标系表示的点云转换为球面坐标系表示，转换公式为：

9、

10、其中，(x,y,z)表示每个点的三维笛卡尔坐标值；表示激光扫描线的水平角；θ(∈(fdown,fup])表示激光扫描线的俯仰角，fup,fdown分别表示最大上下俯仰角值，且有最大上俯仰角fup>0和最大下俯仰角fdown<0；r表示球面坐标中的径向距离。随后，将球面坐标转换为距离图像坐标(u,v)，转换公式为：

11、

12、其中，wr和hr分别表示距离图像的水平分辨率与垂直分辨率。

13、步骤二(2)通过步骤二(1)的距离视图投影，得到图像像素网格中对应的原始点云索引、投影坐标、三维坐标(x,y,z)、距离r以及反射强度矩阵，此时的图像分辨率为wr×hr。

14、步骤二(3)极坐标鸟瞰图投影：筛选出3≤ρ≤50、π≤φ≤-π且-3≤z≤1.5范围内的点云，并将原始激光雷达点云帧中用笛卡尔坐标系表示的点云转换为极坐标系表示，转换公式为：

15、

16、其中，ρ为极径，φ为极角。

17、步骤二(4)通过步骤二(3)的极坐标鸟瞰图投影，得到鸟瞰图下网格中心相对距离△x△y△z、原始点云索引、投影坐标、三维坐标(x,y,z)及反射强度矩阵，此时的图像分辨率为wb×hb。

18、步骤二(5)将原始点云作为中间载体，利用步骤二(2)和(4)中的原始点云索引矩阵和投影坐标矩阵，得到跨视图关联矩阵qrv→bev和qbev→rv。以通过距离视图、原始点云和鸟瞰视图得到qrv→bev为例，由rv保留的原始点云索引矩阵为：

19、

20、其中，{n(i,j)|0≤i≤hr-1,0≤j≤wr-1}(∈[0,n))为rv中每个像素网格对应的原始点云索引，n表示每一帧点云的数量。

21、步骤二(6)由原始点云和rv得到投影坐标矩阵：

22、

23、其中，{ci|0≤i≤n-1}表示每个点对应的rv图像坐标值(ui,vi)。

24、步骤二(7)根据步骤二(5)和(6)，得到由rv到bev的跨视图关联矩阵：

25、

26、其中，qrv→bev的维度为hb×wb×2。类似地，可以得到维度为hr×wr×3的qbev→rv

27、所述步骤三中包括以下步骤：

28、步骤三(1)将距离视图投影得到的距离r、三维坐标(x,y,z)和反射强度图像矩阵进行拼接成五通道浅层特征图，维度为5×hr×wr。

29、步骤三(2)将步骤三(1)得到的浅层特征图输入到salsanext神经网络编码器中，进行特征图的四次下采样操作。

30、步骤三(3)将极坐标鸟瞰图投影得到的网格中心相对距离△x△y△z、投影坐标、三维坐标(x,y,z)以及反射强度图像矩阵进行拼接成九通道浅层特征图，维度为9×hb×wb。

31、步骤三(4)将步骤三(3)中的特征图输入到resnet34神经网络编码器中，进行特征图的四次下采样操作。

32、步骤三(5)使用步骤二(7)得到的跨视图关联矩阵，将rv和bev编码器分支对应的相同下采样率的第二、三层特征进行特征级交互融合。

33、步骤三(5)(1)使用最近邻插值方法将矩阵qrv→bev的尺寸缩放到与当前下采样层对应的bev特征图相同的尺寸，得到其中i(＝2,3)表示下采样层的序号。

34、步骤三(5)(2)使用pytorch框架中的grid_sample插值函数和对rv特征图进行特征采样，得到对齐特征

35、步骤三(5)(3)将和进行通道拼接以得到并将其输入基于残差自注意力机制的特征融合模块，利用卷积层保留输入特征的通道和空间分布，通过特征残差相加和特征相乘来细化特征，补充更详细的图像纹理信息。具体计算方法为：

36、

37、

38、其中本文档来自技高网...

【技术保护点】

1.一种基于特征交互融合的激光雷达点云语义分割方法，其特征在于包括以下步骤：

2.根据权利要求1所述的一种基于特征交互融合的激光雷达点云语义分割方法，其特征在于所述步骤二中包括以下步骤：

3.根据权利要求1所述的一种基于特征交互融合的激光雷达点云语义分割方法，其特征在于步骤三采用的特征交互融合神经网络具有传播互补信息的能力，能够弥补单一视图的缺陷，有效提高分割精度，所述步骤三包括以下步骤：

4.根据权利要求1所述的一种基于特征交互融合的激光雷达点云语义分割方法中的基于置信度加权的决策级融合策略，其特征在于所述步骤四中包括以下步骤：

【技术特征摘要】

1.一种基于特征交互融合的激光雷达点云语义分割方法，其特征在于包括以下步骤：

2.根据权利要求1所述的一种基于特征交互融合的激光雷达点云语义分割方法，其特征在于所述步骤二中包括以下步骤：

3.根据权利要求1所述的一种基于特征交互融合的激光雷达点云语义分割方法，其...

【专利技术属性】
技术研发人员：周牧，向锐，谢良波，杜楠，
申请(专利权)人：重庆邮电大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人