一种面向自动驾驶的多模态三维目标检测方法和装置制造方法及图纸

技术编号：42810143 阅读：21 留言：0更新日期：2024-09-24 20:52

本发明专利技术公开了一种面向自动驾驶的多模态三维目标检测方法和装置，包括以下步骤，提取图像数据中的图像特征；提取点云数据中的点云特征；将图像特征和点云特征双向增强融合，得到点云增强的图像特征和图像增强的点云特征；分别对点云增强的图像特征和图像增强的点云特征进行解码，得到高分辨率图像特征和解码后的点云特征，将高分辨率图像特征与解码后的点云特征融合后，得到融合图像特征的点云特征；将融合图像特征的点云特征送入三维区域建议网络和细化模块进行三维目标检测。本发明专利技术采用基于注意力的融合方式，融合模块只关注有用特征并且抑制噪声，充分利用两种模态的互补性进行高效地融合，为自动驾驶系统的环境感知提供了有效的解决方案。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及目标检测，具体是一种面向自动驾驶的多模态三维目标检测方法和装置。

技术介绍

1、近年来，随着深度学习和计算机视觉技术的不断发展，三维目标检测已经成为自动驾驶领域的一项关键技术。根据输入模态信息的不同，三维目标检测主要分为三类：图像、激光雷达和多模态融合。图像具有丰富的色彩和纹理属性，但是图像不能提供足够的深度和几何信息，易受光照影响，通常基于图像的检测方法具有较低的性能。激光雷达克服了图像深度信息不足的问题，提供了精确的范围视图和几何信息从而具有出色三维检测性能。但是激光雷达也存在很多缺陷，如分辨率低、点云信息稀疏并且缺乏纹理信息。稀疏的点云在远处和遮挡区域提供的信息很差，对较远处的物体检测效果较差，因此点云的稀疏性和无序性大大限制了基于激光雷达方法的性能。

2、为了解决单一模态的内在局限性，利用图像和激光雷达两者的互补特性，我们希望设计一种基于多模态融合的方法，希望通过多源融合来提供更完整的三维环境感知，帮助车辆更好地感知周围环境。然而融合图像和点云信息绝非易事，因为他们具有不同的特征表示。

技术实现思路

1、为解决上述现有技术的缺陷，本专利技术提供一种面向自动驾驶的多模态三维目标检测方法和装置，本专利技术使用基于空间距离和基于特征距离的混合采样的方式对点云进行采样，采集更多的前景点的同时也收集足够的背景点，针对图像采样设计了一个增强卷积模块，该模使得模型能够更加准确地捕捉到图像数据中的重要特征；最后设计一个融合模块来解决点云和图像融合的问题，该双向融合

2、为实现上述技术目的，本专利技术采用如下技术方案：一种面向自动驾驶的多模态三维目标检测方法，包括以下步骤，

3、提取图像数据中的图像特征；

4、提取点云数据中的点云特征；

5、将所述图像特征和所述点云特征双向增强融合，得到点云增强的图像特征和图像增强的点云特征；

6、分别对所述点云增强的图像特征和所述图像增强的点云特征进行解码，得到高分辨率图像特征和解码后的点云特征，将所述高分辨率图像特征与所述解码后的点云特征进一步融合后，得到融合图像特征的点云特征；

7、将所述融合图像特征的点云特征送入三维区域建议网络和细化模块进行三维目标检测。

8、进一步地，提取图像数据中的图像特征包括以下子步骤：

9、将输入的图像数据x转换为输出特征y，包括，

10、y＝ftr(x),x∈rw×h×c,y∈rw'×h'×c'

11、其中，y代表所述输出特征y，x代表所述图像数据x，ftr是传统的卷积操作，c代表通道数量，而w和h分别表示空间特征的高度和宽度，r代表任意一张图片，c’、w’和h’分别代表经过卷积操作以后的图像特征的通道、宽度和高度；

12、将所述输出特征y转换为特征向量z，包括，

13、z＝fsq(y)

14、其中，z代表所述特征向量z，fsq代表压缩操作；

15、将所述特征向量z转换为输出特征所述输出特征即为所述图像特征，包括，

16、

17、其中，代表所述输出特征fex代表激励操作，fscale代表规模化操作，δ指relu函数，σ指sigmoid激活函数，w1和w1均为权重矩阵，ω为注意力权重。

18、进一步地，提取点云数据中的点云特征包括以下子步骤：

19、在第一级集合抽象层采用单采样得到采样点在原始点云中的索引，其中，所述单采样的方式为基于空间距离的最远点采样，所述原始点云是指初始的点云数据，包括，

20、idxd＝fps(xyz,n/2)

21、其中，xyz代表点云的原始坐标数据，即，xyz＝{p1,p2,…,pn}，每个pi表示点云中的一个点，点集共包含n个点，idxd表示使用基于空间距离的最远点采样得到的点在原始点云中的索引；

22、自第二级集合抽象层开始采用混合采样，包括，采用基于空间距离的最远点采样得索引，

23、idxf＝fps(matrix(xyz,f),n/2

24、其中，f是点云的一种特征表示，idxf代表根据采样的索引；

25、以及包括，采用基于特征距离的最远点采样得到混合所选取的点的索引，

26、idx＝idxd||idxf

27、其中，idx代表混合所选取的点的索引；

28、其中，所述混合采样为基于空间距离的最远点采样和基于特征距离的最远点采样混合，集合抽象层为四层，第一层为基于空间距离的最远点采样，后面三层是基于混合采样。

29、进一步地，得到点云增强的图像特征包括以下子步骤：

30、根据原始点集和图像特征得到逐点图像特征，包括，

31、p'＝mp

32、

33、其中，p表示原始点集p中的任意一点，其在图像中的对应位置为p'，m是已知的投影矩阵，是双线性插值函数，是p点对应的图像特征，是p'相邻元素的图像特征；

34、计算注意力权重，并根据所述逐点图像特征与点云特征得到融合特征，包括，

35、

36、s2＝conv(gap(s1))+conv(gmp(s1))

37、ωp2i＝σ(w3s2)

38、

39、其中，wi(i＝1,2,3,4,5)是可学习的权重矩阵，gap表示全局平均池化操作，gmp表示全局最大池化操作，conv表示卷积操作，σ表示sigmoid激活函数，sj(j＝1,2,3)是不同阶段的融合结果，s3表示最终的融合特征，ωp2i是点云特征的注意力权重，1-ωp2i是图像特征的注意力权重；

40、根据融合特征和图像特征得到点云增强的图像特征，包括，

41、

42、其中，p2g表示点到网格计算，conv2d是最终的通道压缩，fei是点云增强的图像特征。

43、进一步地，得到图像增强的点云特征包括以下子步骤：

44、根据原始点集和图像特征得到逐点图像特征，包括，

45、p'＝mp

46、

47、其中，p表示原始点集p中的任意一点，其在图像中的对应位置为p'，m是已知的投影矩阵，是双线性插值函数，是p点对应的图像特征，fei(p')是p'相邻元素的图像特征；

48、计算注意力权重，并根据所述逐点图像特征与点云特征得到融合特征，包括，

49、

50、s2＝conv(gap(s1))+conv(gmp(s1))

51、ωi2p＝σ(w3s2)

52、

53、其中，wi(i＝1,2,3,4,5)是可学习的权重矩阵，gap表示全局平均池化操作，gmp表示全局最大池化操作，conv表示卷积操作，σ表示sigmoid本文档来自技高网...

【技术保护点】

1.一种面向自动驾驶的多模态三维目标检测方法，其特征在于：包括以下步骤，

2.根据权利要求1所述的一种面向自动驾驶的多模态三维目标检测方法，其特征在于：提取图像数据中的图像特征包括以下子步骤：

3.根据权利要求1所述的一种面向自动驾驶的多模态三维目标检测方法，其特征在于：提取点云数据中的点云特征包括以下子步骤：

4.根据权利要求1所述的一种面向自动驾驶的多模态三维目标检测方法，其特征在于：

5.根据权利要求4所述的一种面向自动驾驶的多模态三维目标检测方法，其特征在于：

6.一种面向自动驾驶的多模态三维目标检测装置，其特征在于：应用于如权利要求1-5任一项所述的一种面向自动驾驶的多模态三维目标检测方法，包括，

7.根据权利要求6所述的一种面向自动驾驶的多模态三维目标检测装置，其特征在于：

8.根据权利要求6所述的一种面向自动驾驶的多模态三维目标检测装置，其特征在于：

9.根据权利要求6所述的一种面向自动驾驶的多模态三维目标检测装置，其特征在于：

【技术特征摘要】

1.一种面向自动驾驶的多模态三维目标检测方法，其特征在于：包括以下步骤，

2.根据权利要求1所述的一种面向自动驾驶的多模态三维目标检测方法，其特征在于：提取图像数据中的图像特征包括以下子步骤：

3.根据权利要求1所述的一种面向自动驾驶的多模态三维目标检测方法，其特征在于：提取点云数据中的点云特征包括以下子步骤：

4.根据权利要求1所述的一种面向自动驾驶的多模态三维目标检测方法，其特征在于：

5.根据权利要求4所述的一种面向自...

【专利技术属性】
技术研发人员：徐小龙，周鑫，徐佳，
申请(专利权)人：南京邮电大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人