一种基于非标定单视图的三维目标重建方法技术

技术编号：42337663 阅读：18 留言：0更新日期：2024-08-14 16:13

本发明专利技术公开了一种基于非标定单视图的三维目标重建方法，属于计算机视觉领域。首先通过SAM模型从图像中有效的从背景中分割出物体数据，将这些物体数据作为训练的图像数据；然后通过多模态大模型CLIP的图像编码器进行编码，获得图像特征数据；随后基于高斯模型先后进行粗粒度和细粒度的物体点云生成；然后把生成的点云分成点云簇，传入一个点云特征编码器生成点特征，再基于交叉注意力机制，对图像特征和点云特征进行两阶段的融合；最后结合融合特征对密集点云的细节恢复与真实点云基于倒角距离的损失函数去进行模型参数学习进而对物体点云重建。经过实际验证，本发明专利技术提供的目标重建方法具有高效、精度高的特点。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术是一种基于非标定单视图的三维目标重建方法，属于计算机视觉领域。

技术介绍

1、基于图像的三维重建是计算机视觉领域内长久的一个难题，三维重建的目的是使得机器像人一样能够通过单张或者多组图像检索出目标物体或者场景的三维结构和几何形状。这项任务，在机器人、虚拟现实和医学成像等多个领域有着广泛的应用。近些年，由于深度学习的飞速发展和数据的日益增长，提出了许多新的思路以及网络模型。基于图像的三维重建技术在许多应用中发挥了重要的作用，无需激光扫描仪等昂贵设备。

2、在三维重建领域中，传统的三维重建是根据几何思想来实现的，通过三维物体到二维图像投影过程，设计从二维图像到三维物体的逆向过程来解决三维重建这一问题。传统的三维重建最大的一个问题就是需要相机参数，通过相机标定、相机位姿估计、参数估计、密集点云重建和表面重建等多个步骤。随着基于深度学习的方法因其卓越的性能，在计算机视觉等许多领域取代了传统方法，基于深度学习的技术方法学习先验知识来解决各种复杂的问题，例如完成了端到端的训练，无需设计手工制作阶段，还可以实现多个任务处理，比如单个模型可以同时预测给定场景图像的三维形状和语义分割。随着clip多模态大模型和diffusion生成模型的诞生，它能够将图像和文本联系起来，以便模型能够理解和推理出它们之间的语义关系，在文本到图像生成中有着出色的表现。这为三维重建领域带来了新的生机，实现通过clip对图像的编码和对时间步长和随机噪声的编码等作为diffusion的输入来完成三维生成的新思路，实现了显著的表现突破。虽然现在取得了很

3、第一，三维重建模型的泛化能力。三维重建的目的是为了实现能够将任意一幅图像重建到三维空间中，通过对模型的测试会发现，大多数模型的适用仅局限于数据集中存在或者类似于数据集中的图像，在数据集中未包含类别的物体或者图像较少的物体效果不佳，如果对人实现三维重建，因为未经过训练，只能够恢复人体的大概，人脸以及细节恢复不到，因此，三维重建的泛化能力是一个亟待解决的问题。

4、第二，三维重建模型的精准度。当前的三维模型能够实现从单幅图像或多幅图像对物体的三维重建，重建后的物体与真实的物体相比，粗糙度较大，恢复的轮廓较好，但是细节处效果仍不佳，当前的三维模型还有很大的改进空间。

技术实现思路

1、本专利技术的目的是提出一种基于非标定单视图的三维目标重建方法，以进一步提高点云重建的效率和准确性。

2、为实现上述专利技术目的，本专利技术采取的具体技术方案如下：

3、一种基于非标定单视图的三维目标重建方法，包括如下步骤：

4、s1：获取待处理图像数据，针对有背景的图像数据进行前景与背景的分割提取，将分割后的前景图像数据，作为待训练的图像数据；

5、s2：利用多模态大模型clip的图像编码器，对待训练的图像数据进行编码而获得图像特征；

6、s3：先进行粗粒度高斯点云生成：使用hehun采样的方法，获得稀疏的点云数据；

7、s4：再进行细粒度高斯点云生成，获得密集的点云数据，以保证重建后的物体完整性和完善性；

8、s5：进一步通过交叉注意力机制实现图像信息与三维点云信息的结合，对所述密集的点云数据的细节进行重建和修复；

9、s6：最后采用监督学习的方式，基于s5处理后的密集的点云数据与真实的点云数据构建损失函数：包括位置损失函数和形状损失函数；

10、s7：将待测的图像数据进行s1-s5的处理过程，并结合s6构建的损失函数，得到重建的点云数据，输出。

11、优选的，所述s1中，将分割网络定义为s，表示复杂背景图像数据的集合，记为原始图像数据；表示分割后的前景图像数据的集合，代表的是第i张原始图像；代表的是第i张目标图像分割之后的结果；如公式（1）所示：

12、（1）。

13、优选的，所述s2中，使用多模态大模型clip的图像编码器对分割后的图像数据分别进行编码，如公式（2）所示：

14、（2）；

15、其中表示第i个物体的图像特征，代表clip的图像编码器，表示第i个物体的图像数据。

16、优选的，所述s3中，物体的图像数据编码成图像特征以后，通过高斯生成第一阶段的粗粒度物体点云，将点云形状表示为k×6的张量，其中k是点数，内部维度包含（x,y,z）坐标以及（r,g,b）颜色；第一阶段高斯点云生成公式如（3）所示：

17、（3）；

18、其中，表示的是第一阶段的第i个物体的粗粒度点云，g1是第一阶段的高斯点云生成模型，为第i个物体的图像数据，t代表的是时间步长的编码，代表的是随机噪声的编码。

19、优选的，所述s3具体为：

20、s3-1：为了学习生成模型，定义一个真实的扩散分布，通过向真实形状中逐渐添加噪声定义并学习一个扩散模型，将两个概率分布转化为马尔科夫转移概率的乘积，如公式（4）,（5）所示：

21、（4）；

22、（5）；

23、其中，去噪过程产生一系列噪声水平递减的形状变量，表示为，其中xt是从高斯先验中采样的，x0是最终输出，q(x0)是数据分布，是标准高斯先验;这里，被命名为正向过程，将数据扩散到噪声中；因此，被命名为反向过程;被命名为生成过程，它通过近似反向过程来生成真实样本；

24、s3-2：将上述转移概率转化为高斯分布，如公式（6），（7）所示：

25、（6）；

26、（7）；

27、其中，表示生成模型在时间步预测形状，根据经验，；

28、s3-3：在给定具有联合后验的完整数据似然的情况下，最终训练目标简化为最大似然：

29、（8）；

30、联合后验，分解为，它转化为高斯分布，如下所示：

31、（9）；

32、其中，，，和是根据时间步长设置的超参数，是表示的s=1到t的超参累乘，xt是t时刻输入的噪声版本，xt-1表示的前一时刻，i表示的是方差为1，n表示的是正态分布，每个只需要匹配到相应；

33、s3-4：由于和均转化为高斯分布，最后模型简化输出，其中表示的是去噪编码器，xt表示的是t时刻输入的噪声版本，然后和噪声做l2损失如下：

34、（10）；

35、s3-5：模型视图预测噪声向量重构物体的点云形状，高斯生成模型使用公式（11）从逐步采样逐步生成物体点云形状：

36、（11）；

37、其中z是均值为0方差为1的正态分布，。

38、优选的，所述s4中，在s3第一阶段高斯生成模型中完成初始点云的生成，需要在第二阶段进一步上采样完成对密集点云的生成；实现的具体公式（12）所示：

39、（12）；

40、其中，为第二阶段的第i个物体的密集点云，g2表示本文档来自技高网...

【技术保护点】

1.一种基于非标定单视图的三维目标重建方法，其特征在于，包括如下步骤：

2.如权利要求1所述的基于非标定单视图的三维目标重建方法，其特征在于，所述S1中，将分割网络定义为S，表示复杂背景图像数据的集合，记为原始图像数据；表示分割后的前景图像数据的集合，代表的是第i张原始图像；代表的是第i张目标图像分割之后的结果；如公式（1）所示：

3.如权利要求1所述的基于非标定单视图的三维目标重建方法，其特征在于，所述S2中，使用多模态大模型CLIP的图像编码器对分割后的图像数据分别进行编码，如公式（2）所示：

4.如权利要求1所述的基于非标定单视图的三维目标重建方法，其特征在于，所述S3中，物体的图像数据编码成图像特征以后，通过高斯生成第一阶段的粗粒度物体点云，将点云形状表示为K×6的张量，其中K是点数，内部维度包含（x,y,z）坐标以及（R,G,B）颜色；第一阶段高斯点云生成公式如（3）所示：

5.如权利要求1所述的基于非标定单视图的三维目标重建方法，其特征在于，所述S3具体为：

6.如权利要求1所述的基于非标定单视图的三维目标重

7.如权利要求1所述的基于非标定单视图的三维目标重建方法，其特征在于，所述S5中：交叉注意力描述为将一个查询和一组键值对映射到一个输出，其中，查询、键、值和输出都是向量；其中根据查询、键和值的不同把二维图像信息与三维信息的融合分为两个阶段，一个阶段是图像特征信息丰富三维特征信息，把三维点云特征作为查询，图像特征作为键和值；另一个阶段是三维特征信息丰富图像特征信息，把图像特征作为查询，三维特征作为键和值，其中N为批次大小。

8.如权利要求7所述的基于非标定单视图的三维目标重建方法，其特征在于，所述S5具体如下：

9.如权利要求1所述的基于非标定单视图的三维目标重建方法，其特征在于，所述S5中，交叉注意力通过对输入序列进行线性映射、注意力计算和加权求和，实现了对不同位置信息的关联和整合；实现公式如下：

10.如权利要求1所述的基于非标定单视图的三维目标重建方法，其特征在于，所述S6中，通过S5融合的特征过程恢复后得到的点云与真实的点云数据，同一物体的对应的是一个真实点云，然后构建损失进行模型的训练以对模型参数进行优化，具体如下：

...

【技术特征摘要】

1.一种基于非标定单视图的三维目标重建方法，其特征在于，包括如下步骤：

2.如权利要求1所述的基于非标定单视图的三维目标重建方法，其特征在于，所述s1中，将分割网络定义为s，表示复杂背景图像数据的集合，记为原始图像数据；表示分割后的前景图像数据的集合，代表的是第i张原始图像；代表的是第i张目标图像分割之后的结果；如公式（1）所示：

3.如权利要求1所述的基于非标定单视图的三维目标重建方法，其特征在于，所述s2中，使用多模态大模型clip的图像编码器对分割后的图像数据分别进行编码，如公式（2）所示：

4.如权利要求1所述的基于非标定单视图的三维目标重建方法，其特征在于，所述s3中，物体的图像数据编码成图像特征以后，通过高斯生成第一阶段的粗粒度物体点云，将点云形状表示为k×6的张量，其中k是点数，内部维度包含（x,y,z）坐标以及（r,g,b）颜色；第一阶段高斯点云生成公式如（3）所示：

5.如权利要求1所述的基于非标定单视图的三维目标重建方法，其特征在于，所述s3具体为：

6.如权利要求1所述的基于非标定单视图的三维目标重建方法，其特征在于，所述s4中，在s3第一阶段高斯生成模型中完成初始点云的生...

【专利技术属性】
技术研发人员：蔡青，李绍铭，孔松琦，谭润清，刘治，董军宇，
申请(专利权)人：中国海洋大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人