一种基于多视角深度图像的场景物件分类方法与系统技术方案

技术编号：43786231 阅读：24 留言：0更新日期：2024-12-24 16:20

本发明专利技术公开了一种基于多视角深度图像的场景物件分类方法与系统。包括：部署三个深度摄像头、记录摄像头坐标，并拍摄深度图像；利用深度图像和摄像头坐标生成对应深度图像的点云数据，并将多个视角的点云数据对齐融合，生成合成的多视角点云，利用深度图像获得二维图像；对多视角点云提取三维特征，对二维图像提取二维特征，将二维特征映射到三维特征上，将三维特征和映射二维特征进行对齐和拼接，得到多视角点云的特征；将多视角点云及其特征输入解码器进行语义分割，得到场景中物件的分类结果。本发明专利技术能够结合多视角图像和深度摄像机两种点云生成方法的优势，提高点云数据质量，充分利用二维特征和三维特征的信息，提升语义分割的效果。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机视觉、语义分割领域，具体涉及一种基于多视角深度图像的场景物件分类方法与系统。

技术介绍

1、随着计算机视觉在
的广泛应用，其对于当代经济发展和科技进步的重要性日渐凸显。在计算机视觉领域当中，三维视觉使得计算机对三维空间的感知、理解和分析成为可能，而点云是其中一种常用的三维视觉表现形式。

2、相较于其他三维视觉的表现形式，点云的形式只存储物体表面关键点，这使得点云数据的存储需求和传输量都较小，有利于节省存储空间和计算资源，其相应的处理分析算法通常也更高效。这些优点使得点云数据在三维视觉处理中占据了越来越重要的地位。然而在处理点云数据的实际应用中，存在两个关键性问题，分别是点云数据的获取以及点云数据的特征提取与下游任务。

3、在点云数据的获取方面，往往使用三维扫描仪。对户外场景或者自动驾驶场景，一般使用激光雷达来获取；而对于室内场景，最常用的方法是多视角图像生成或深度摄像机生成。多视角图像和深度摄像机的点云生成方法各有其优势。

4、在点云的特征提取和下游任务方面，现在主要采用的是以pointnet为代表的基于点的深度学习的提取方法，在点云分割、点云分类等任务中都取得了比较好的效果。近年来，为了进一步的提高特征提取的效果，引入了多模态的方法，比如图像和点云的多模态学习和文字和点云的多模态学习。图像和点云的多模态学习方法包括基于投影的方法，基于注意力的方法和基于跨模态transformer的方法。

5、目前的现有技术之一是论文“pointpainting:sequ

6、目前的现有技术之二是论文“pointdc:unsupervised semantic segmentationof三维point clouds via cross-modal distillation and super-voxel clustering”中的一种三维点云的跨模态无监督学习方法。该方法是用点云数据进行投影获取多视角图像，再使用多视图视觉特征反投影到三维空间并聚合为统一的点特征，以提炼点表示的训练。然后将点特征聚合到超体素，进行迭代聚类过程以挖掘语义类。该方法的缺点是，该方法将二维特征用聚类的方法进行迭代来训练一个三维无监督预训练模型，对两个模型进行分别训练，而没有把提取二维特征和三维特征进行结合同步训练，没能充分迭代二维模型，影响特征提取的效果。

技术实现思路

1、本专利技术的目的是克服现有方法的不足，提出了一种基于多视角深度图像的场景物件分类方法与系统。本专利技术解决的主要问题是，如何结合多视角图像和深度摄像机两种点云生成方法的优势，提高点云数据质量，充分利用二维特征和三维特征的信息，提升语义分割的效果。

2、为了解决上述问题，本专利技术提出了一种基于多视角深度图像的场景物件分类方法，所述方法包括：

3、准备3个方向的深度摄像头，其中一个深度摄像头设置在场景中心点，垂直向下，其他深度摄像头均匀环绕中心点，镜头斜向下设置，部署完成后，记录摄像头坐标[x0，y0，z0]，使用部署的深度摄像头拍摄，获取多个深度图像并利用高斯滤波进行去噪得到idepth；

4、利用所述深度图像idepth和所述摄像头坐标[x0，y0，z0]生成对应深度图像的点云数据pview，pview包含点云在统一坐标系中的坐标[xw，yw，zw]、点云的颜色信息以及深度图像的像素点与点云的映射关系，多个视角的点云数据pview对齐、融合，生成合成的多视角点云数据ps，将所述深度图像idepth的rgb信息提取出来得到多个二维图像irgb；

5、对所述合成的多视角点云数据ps进行特征提取得到三维特征f3d，对所述二维图像irgb进行特征提取得到二维特征f2d，将二维特征f2d映射到三维特征f3d上，使得点云中的每个点都有唯一对应的映射二维特征f2d*，将三维特征f3d和映射二维特征f2d*进行对齐和拼接，得到合成的多视角点云数据ps的特征f；

6、将所述合成的多视角点云数据ps和所述特征f输入解码器进行语义分割，得到语义分割结果，即场景中物件的分类结果。

7、优选地，利用所述深度图像idepth和所述摄像头坐标[x0，y0，z0]生成对应深度图像的点云数据pview，pview包含点云在统一坐标系中的坐标[xw，yw，zw]、点云的颜色信息以及深度图像的像素点与点云的映射关系，多个视角的点云数据pview对齐、融合，生成合成的多视角点云数据ps，将所述深度图像idepth的rgb信息提取出来得到多个二维图像irgb，具体为：

8、所述点云在统一坐标系中的坐标[xw，yw，zw]的计算方式分为如下两步：

9、首先，对所述深度图像idepth中的像素点，首先计算该像素点相对于摄像头的点云坐标[xc，yc，zc]，计算公式如下：

10、

11、其中，d为该点的像素深度信息，f为相机焦距，[u，v]为该点在深度图像上的位置，[u0，v0]为深度图像中心；

12、然后，利用所述像素点相对于摄像头的点云坐标[xc，yc，zc]计算该点在统一坐标系中的点云坐标[xw，yw，zw]，计算公式如下：

13、[xw，yw，zw]t＝r·[xc，yc，zc]t+[x0，y0，z0]，

14、其中r为旋转矩阵；

15、对于所述点云的颜色信息，使用光照估计来消除不同摄像头之间光照条件的差异并决定点云的颜色，即利用不同视角的摄像头参数和几何信息将点云投影到图像空间，通过分析投影后的图像中的亮度和颜色信息，估计环境光照在点云中的分布，即估计的光照条件；

16、将不同视角的所述对应深度图像的点云数据pview进行对齐并转换到一个公共坐标系中，将对齐后的点云数据进行融合，即对点云数据进行聚类并将坐标进行平均，然后根据所述估计的光照条件对所述点云的颜色进行调整，得到合成的多视角点云数据ps；

17、将所述深度图像中的rgb信息提取出来得到多个二维图像irgb。

18、优选地，对所述合成的多视角点云数据ps进行特征提取得到三维特征f3d，对所述二维图像irgb进行特征提取得到二维特征f2d，将二维特征f2d映射到三维特征f3d本文档来自技高网...

【技术保护点】

1.一种基于多视角深度图像的场景物件分类方法，其特征在于，所述方法包括：

2.如权利要求1所述的一种基于多视角深度图像的场景物件分类方法，其特征在于，所述利用所述深度图像Idepth和所述摄像头坐标[x0,y0,z0]生成对应深度图像的点云数据Pview，Pview包含点云在统一坐标系中的坐标[xw,yw,zw]、点云的颜色信息以及深度图像的像素点与点云的映射关系，多个视角的点云数据Pview对齐、融合，生成合成的多视角点云数据Ps，将所述深度图像Idepth的RGB信息提取出来得到多个二维图像Irgb，具体为：

3.如权利要求1所述的一种基于多视角深度图像的场景物件分类方法，其特征在于，所述对所述合成的多视角点云数据Ps进行特征提取得到三维特征F3d，对所述二维图像Irgb进行特征提取得到二维特征F2d，将二维特征F2d映射到三维特征F3d上，使得点云中的每个点都有唯一对应的映射二维特征F2d*，将三维特征F3d和映射二维特征F2d*进行对齐和拼接，得到合成的多视角点云数据Ps的特征F，具体为：

4.如权利要求1所述的一种基于多视角深度图像的

5.一种基于多视角深度图像的场景物件分类系统，其特征在于，所述系统包括：

6.如权利要求5所述的一种基于多视角深度图像的场景物件分类系统，其特征在于，所述点云数据和二维图像获取单元，用于利用所述深度图像Idepth和所述摄像头坐标[x0,y0,z0]生成对应深度图像的点云数据Pview，Pview包含点云在统一坐标系中的坐标[xw,yw,zw]、点云的颜色信息以及深度图像的像素点与点云的映射关系，多个视角的点云数据Pview对齐、融合，生成合成的多视角点云数据Ps，将所述深度图像Idepth的RGB信息提取出来得到多个二维图像Irgb，具体为：

7.如权利要求5所述的一种基于多视角深度图像的场景物件分类系统，其特征在于，所述特征提取与处理单元，用于对所述合成的多视角点云数据Ps进行特征提取得到三维特征F3d，对所述二维图像Irgb进行特征提取得到二维特征F2d，将二维特征F2d映射到三维特征F3d上，使得点云中的每个点都有唯一对应的映射二维特征F2d*，将三维特征F3d和映射二维特征F2d*进行对齐和拼接，得到合成的多视角点云数据Ps的特征F，具体为：

8.如权利要求5所述的一种基于多视角深度图像的场景物件分类系统，其特征在于，所述解码与结果输出单元，用于将所述合成的多视角点云数据Ps和所述特征F输入解码器进行语义分割，得到语义分割结果，即场景中物件的分类结果，具体为：

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至4中任一项所述的方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至4中任一项所述的方法的步骤。

...

【技术特征摘要】

1.一种基于多视角深度图像的场景物件分类方法，其特征在于，所述方法包括：

2.如权利要求1所述的一种基于多视角深度图像的场景物件分类方法，其特征在于，所述利用所述深度图像idepth和所述摄像头坐标[x0,y0,z0]生成对应深度图像的点云数据pview，pview包含点云在统一坐标系中的坐标[xw,yw,zw]、点云的颜色信息以及深度图像的像素点与点云的映射关系，多个视角的点云数据pview对齐、融合，生成合成的多视角点云数据ps，将所述深度图像idepth的rgb信息提取出来得到多个二维图像irgb，具体为：

3.如权利要求1所述的一种基于多视角深度图像的场景物件分类方法，其特征在于，所述对所述合成的多视角点云数据ps进行特征提取得到三维特征f3d，对所述二维图像irgb进行特征提取得到二维特征f2d，将二维特征f2d映射到三维特征f3d上，使得点云中的每个点都有唯一对应的映射二维特征f2d*，将三维特征f3d和映射二维特征f2d*进行对齐和拼接，得到合成的多视角点云数据ps的特征f，具体为：

4.如权利要求1所述的一种基于多视角深度图像的场景物件分类方法，其特征在于，所述将所述合成的多视角点云数据ps和所述特征f输入解码器进行语义分割，得到语义分割结果，即场景中物件的分类结果，具体为：

5.一种基于多视角深度图像的场景物件分类系统，其特征在于，所述系统包括：

6.如权利要求5所述的一种基于多视角深度图像的场景物件分类系统，其特征在于，所述点云数据和二维图像获取单元...

【专利技术属性】
技术研发人员：苏卓，谢浩林，周凡，林格，
申请(专利权)人：中山大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人