基于几何引导用于视觉场景理解的三维特征优化方法、装置和电子设备制造方法及图纸

技术编号：44856326 阅读：12 留言：0更新日期：2025-04-01 19:48

本发明专利技术提供了一种基于几何引导用于视觉场景理解的三维特征优化方法、装置和电子设备，该方法中，优化后的三维特征中不仅只有三维体素特征，还融合了几何先验的空间位置信息和几何引导信息，增强了模型对空间有效位置特征的处理能力，提高了计算效率，显著提升模型对遮挡区域的处理能力，提高对实例物体的建模能力，可改善三维场景的重建精度。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机视觉和深度学习的，尤其是涉及一种基于几何引导用于视觉场景理解的三维特征优化方法、装置和电子设备。

技术介绍

1、在视觉场景理解任务中，传统的模型一般是从当前场景的图像中提取图像特征，然后，将图像特征转化为稀疏三维体素特征，最后，根据稀疏三维体素特征实现视觉场景理解，如，根据稀疏三维体素特征确定3d空间中每个体素是否被障碍物占用，若被占用，确定得到被占用的体素中障碍物的类别。

2、上述过程中，稀疏三维体素特征中没有几何结构信息，因而难以处理复杂场景中的遮挡区域或细节特征；另外，现有的特征优化方法(即根据稀疏三维体素特征确定3d空间中每个体素是否被障碍物占用的过程)由于没有利用几何结构信息，所以，导致其对局部几何先验的捕捉能力有限，最终，对场景几何(各体素中的检测框、位置、速度、角度信息)与语义(各体素是否被占用，被占用的体素中的障碍物的类别)关系的建模精度较低，即最终建模得到的3d空间的精度差。

3、综上，如何对三维特征进行优化，以使优化后的三维特征涵盖几何结构信息，进而提升视觉场景理解的精度成为目前亟需解决的技术问题。

技术实现思路

1、有鉴于此，本专利技术的目的在于提供一种基于几何引导用于视觉场景理解的三维特征优化方法、装置和电子设备，以缓解现有技术得到的三维特征涵盖的信息量有限，对视觉场景的表征精度差的技术问题。

2、第一方面，本专利技术实施例提供了一种基于几何引导用于视觉场景理解的三维特征优化方法，包括：

4、根据所述深度信息和所述图像特征确定伪点云，并采用点云处理网络对所述伪点云进行处理，得到几何先验的空间位置信息，其中，所述几何先验的空间位置信息为空间中各体素是否被障碍物占用、被占用的体素中障碍物的类别；

5、对所述图像特征进行视角变换，得到三维体素特征，并从所述三维体素特征中提取几何引导信息，其中，所述几何引导信息包括：各体素中的检测框、速度和角度；

6、将所述几何先验的空间位置信息、所述几何引导信息和所述三维体素特征进行融合，得到融合特征；

7、采用可变形自注意力机制对所述融合特征进行处理，得到优化后的三维特征，其中，所述可变形自注意力机制可通过动态偏移捕捉所述融合特征中的被遮挡区域的信息。

8、进一步的，对待处理图像进行深度估计和特征提取，包括：

9、采用预训练深度估计网络对所述待处理图像进行深度估计，得到所述深度信息；

10、采用特征提取网络对所述待处理图像进行特征提取，得到所述图像特征。

11、进一步的，根据所述深度信息和所述图像特征确定伪点云，包括：

12、对所述图像特征进行插值映射，得到三维空间对应位置的特征；

13、根据所述三维空间对应位置的特征和所述深度信息确定所述伪点云。

14、进一步的，从所述三维体素特征中提取几何引导信息，包括：

15、通过辅助头从所述三维体素特征中提取所述几何引导信息。

16、进一步的，将所述几何先验的空间位置信息、所述几何引导信息和所述三维体素特征进行融合，包括：

17、将所述几何引导信息和所述三维体素特征进行堆叠和卷积处理，得到初始融合特征：

18、将所述初始融合特征与所述几何先验的空间位置信息进行二次融合，得到所述融合特征。

19、进一步的，采用可变形自注意力机制对所述融合特征进行处理，包括：

20、采用可变形自注意力计算算式对所述融合特征进行处理，得到优化后的三维特征，其中，attention(q，x)表示所述优化后的三维特征，表示采样点的注意力权重，x表示所述融合特征，pq表示查询点的位置，表示可学习的偏移量，表示偏移权重，m表示注意力头的数量，k表示每个头的采样点数量。

21、进一步的，所述方法还包括：

22、对所述优化后的三维特征进行语义占用预测，得到语义占用预测结果。

23、第二方面，本专利技术实施例提供了一种基于几何引导用于视觉场景理解的三维特征优化装置，包括：

24、深度估计和特征提取单元，用于对待处理图像进行深度估计和特征提取，得到深度信息和图像特征；

25、确定和处理单元，用于根据所述深度信息和所述图像特征确定伪点云，并采用点云处理网络对所述伪点云进行处理，得到几何先验的空间位置信息，其中，所述几何先验的空间位置信息为空间中各体素是否被障碍物占用、被占用的体素中障碍物的类别；

26、视角变换和提取单元，用于对所述图像特征进行视角变换，得到三维体素特征，并从所述三维体素特征中提取几何引导信息，其中，所述几何引导信息包括：各体素中的检测框、速度和角度；

27、融合单元，用于将所述几何先验的空间位置信息、所述几何引导信息和所述三维体素特征进行融合，得到融合特征；

28、处理单元，用于采用可变形自注意力机制对所述融合特征进行处理，得到优化后的三维特征，其中，所述可变形自注意力机制可通过动态偏移捕捉所述融合特征中的被遮挡区域的信息。

29、第三方面，本专利技术实施例还提供了一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述第一方面任一项所述的方法的步骤。

30、第四方面，本专利技术实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有机器可运行指令，所述机器可运行指令在被处理器调用和运行时，所述机器可运行指令促使所述处理器运行上述第一方面任一项所述的方法。

31、在本专利技术实施例中，提供了一种基于几何引导用于视觉场景理解的三维特征优化方法，包括：对待处理图像进行深度估计和特征提取，得到深度信息和图像特征；根据深度信息和图像特征确定伪点云，并采用点云处理网络对伪点云进行处理，得到几何先验的空间位置信息，其中，几何先验的空间位置信息为空间中各体素是否被障碍物占用、被占用的体素中障碍物的类别；对图像特征进行视角变换，得到三维体素特征，并从三维体素特征中提取几何引导信息，其中，几何引导信息包括：各体素中的检测框、速度和角度；将几何先验的空间位置信息、几何引导信息和三维体素特征进行融合，得到融合特征；采用可变形自注意力机制对融合特征进行处理，得到优化后的三维特征，其中，可变形自注意力机制可通过动态偏移捕捉融合特征中的被遮挡区域的信息。通过上述描述可知，本专利技术的基于几何引导用于视觉场景理解的三维特征优化方法中，优化后的三维特征中不仅只有三维体素特征，还融合了几何先验的空间位置信息和几何引导信息，增强了模型对空间有效位置特征的处理能力，提高了计算效率，显著提升模型对遮挡区域的处理能力，提高对实例物体的建模能力，可改善三维场景的重建精度，缓解了现有技术得到的三维特征涵盖的信息量有限，对视觉场景的表征精度差的技术问题。

本文档来自技高网...

【技术保护点】

1.一种基于几何引导用于视觉场景理解的三维特征优化方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，对待处理图像进行深度估计和特征提取，包括：

3.根据权利要求1所述的方法，其特征在于，根据所述深度信息和所述图像特征确定伪点云，包括：

4.根据权利要求1所述的方法，其特征在于，从所述三维体素特征中提取几何引导信息，包括：

5.根据权利要求1所述的方法，其特征在于，将所述几何先验的空间位置信息、所述几何引导信息和所述三维体素特征进行融合，包括：

6.根据权利要求1所述的方法，其特征在于，采用可变形自注意力机制对所述融合特征进行处理，包括：

7.根据权利要求1所述的方法，其特征在于，所述方法还包括：

8.一种基于几何引导用于视觉场景理解的三维特征优化装置，其特征在于，包括：

9.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现上述权利要求1至7中任一项所述的方法的步骤。

...

【技术特征摘要】

1.一种基于几何引导用于视觉场景理解的三维特征优化方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，对待处理图像进行深度估计和特征提取，包括：

3.根据权利要求1所述的方法，其特征在于，根据所述深度信息和所述图像特征确定伪点云，包括：

4.根据权利要求1所述的方法，其特征在于，从所述三维体素特征中提取几何引导信息，包括：

5.根据权利要求1所述的方法，其特征在于，将所述几何先验的空间位置信息、所述几何引导信息和所述三维体素特征进行融合，包括：

6.根据权利要求1所述的方法，其特征在于，采用可变形自注意力机制对所述...

【专利技术属性】
技术研发人员：徐彪，宁作涛，刘威，
申请(专利权)人：东软睿驰汽车技术沈阳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人