一种基于对比学习的无监督三维重建方法技术

技术编号：44204729 阅读：0 留言：0更新日期：2025-02-06 18:39

本发明专利技术公开了一种基于对比学习的无监督三维重建方法。属于计算机人工智能领域，可以解决有监督难以获取有标签数据集和无监督精度低的难题。所述方法包括以下步骤：选择公开数据集的一组图像，并将其图像和对应的相机位姿输入无监督三维重建网络；根据无监督三维重建网络得到深度图；结合相机位姿进行三维重建，得到物体三维模型。本发明专利技术通过选择性结构化状态空间模型进行特征提取，改进场景级对比网络，使用更加合理的动态损失函数，从而可以更加准确的获得物体深度图，实现对现有技术三维重建效果的优化，提升了目标图像的三维重建效果。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于计算机人工智能领域，具体涉及一种基于对比学习的无监督三维重建方法。

技术介绍

1、多视图立体(mvs)是计算机视觉和图像处理中的一项重要任务，广泛用于人工智能，自动驾驶，文物保护，虚拟现实等领域。传统的三维重建方法通常依赖于几何特征匹配和视差估计，但这些方法对噪声和遮挡等不利条件敏感，且对视角变化的鲁棒性不足。随着深度学习技术的迅猛发展，基于深度学习的三维重建方法在准确性和鲁棒性上表现出显著优势。然而，现有的深度学习方法大多依赖于大量的带标签数据进行监督训练，这不仅增加了数据获取的难度，还限制了模型在不同场景下的泛化能力。

2、使用无监督的方法可以在没有标注数据集的情况下训练mvs网络。然而，由于弱纹理，反射因素，现在依赖于光度一致性的假设有时会失效，导致重建精度较低。同时三维重建模型的精度，依赖于较好的特征提取过程。弱纹理区域缺失明显的特征，更加依赖于更远距离的特征上下文信息进行辅助表达。传统的cnn使用固定大小的卷积核进行特征提取，这可能导致提取到弱纹理区域特征模糊，从而降低了匹配的鲁棒性。

技术实现思路

1、本专利技术要解决现有三维重建方法中，有标签数据集难以获取、模型在不同场景下泛化能力不足、依赖密集的特征提取和融合过程、难以捕捉长距离依赖和全局上下文信息的技术问题。

2、为了达到上述专利技术目的，本专利技术采用的技术方案具体如下：

3、一种基于对比学习的无监督三维重建方法，包括以下步骤：

4、s1、将数据集图像

5、s2、使用对比学习无监督三维重建网络得到深度图像；

6、s3、利用几何特性和光度一致性评估，剔除置信度较低的深度点，使用深度图以生成最终的三维点云。

7、1.在上述技术方案中，步骤s1具体为：

8、s11、将输入的图像编号n设置为5，调整图像大小并裁剪，采用adam优化器对模型进行优化；

9、s12、将已知的相机的内外参数分别转化为矩阵形式，输入无监督三维重建网络。

10、2.在上述技术方案中，步骤s2具体为：

11、s21、使用选择性结构化状态空间模型，提取出不同尺度下的二维像素特征表达；

12、s22、使用图像级和场景级对比学习分支，生成对比一致性损失，增强模型在低纹理区域、重复纹理和视角依赖下的鲁棒性。

13、3.在上述技术方案中，步骤s21具体为：

14、s21-1、使用状态空间模型来捕捉远距离的像素依赖关系，在状态空间模型中，隐藏状态h(t)通过线性常微分方程进行建模，a，b，c，d分别为系统的参数矩阵，x(t)表示输入图像的特征，h(t)为隐藏状态，y(t)为输出特征，状态空间系统的设计使得网络能够有效地捕捉远距离像素之间的依赖关系，在反射表面和低纹理区域中，能够提取到有效的图像特征，建模公式为：

15、h′(t)＝ah(t)+bx(t)

16、y(t)＝ch(t)+dx(t)

17、s21-2、采用递归的形式对图像进行处理，进一步优化远距离像素的依赖建模，其公式为：

18、hn+1＝ahn+bxn

19、yn＝chn+dxn

20、4.在上述技术方案中，步骤s22中具体为：

21、s22-1、对源图像使用二值掩码随机遮挡部分像素，生成图像级对比样本，模拟局部光度一致性失效的情况，通过最大化深度估计的相似性来引导模型学习更多上下文信息；

22、s22-2、使用上下文感受注意力luf模块，在场景级对比阶段提高模型处理全局信息和局部细节的能力；

23、s22-3、随机选择多个源图像组成场景级对比样本，通过比分支与参考分支的深度估计结果，模拟视角依赖效应和遮挡问题，使用动态场景级损失函数使模型学习到更强的特征表示能力。

24、5.在上述技术方案中，步骤s22-2具体为：

25、s22-2-1、使用离散傅里叶变换将空间特征转换为频率域，使用逆傅里叶变换将频率特征转换回空间域，f[m,n]表示输入的空间域矩阵，f[k,l]表示傅里叶域中的频谱分布，luf模块利用将图像特征转换至频率域，以捕捉全局的空间模式和纹理，离散傅里叶变换和逆傅里叶变换公式为：

26、

27、s22-2-2、使用频率范围变换和逆变换，结合动态跳跃连接，提高对频率信息的捕捉能力，可以有效减小频谱漂移，同时增强频率特征与空间特征的融合，f[k,l]是由空间矩阵f[m,n]转换后的光谱，c是插值率，对应于卷积中的膨胀率，频率范围变换和逆变换公式为：

28、

29、s22-2-3、使用适应性剪裁方法，对idft输出进行归一化处理，然后将其值限制在输入特征的最大和最小值之间，归一化公式为：

30、

31、s22-2-4、通过选择性注意力机制对不同尺度的特征进行权重化处理，σ是sigmoid函数，用于生成注意力权重，注意力权重公式为：

32、

33、s22-2-5、将权重与卷积特征进行融合，得到加权后的注意力特征，加权后的注意力特征公式为：

34、

35、s22-2-6、将输入特征与注意力特征的逐元素相乘得到输出特征，其输出特征公式为：

36、y＝x·s

37、6.在上述技术方案中，步骤s22-3具体为：

38、s22-3-1、据不同区域的复杂性，给损失函数分配不同的权重，dr和dic分别表示原始图像和遮挡图像的深度估计，mc为置信度掩码，w为动态权重，动态场景级损失函数公式为：

39、

40、7.在上述技术方案中，步骤s3具体为：

41、s31、将深度图上的像素通过相机内外参进行反投影，转换为三维空间的点，该点从不同视角重投影的深度值与原始深度值一致，则认为这些点具有一致性，保留这些高置信度的点；

42、s32、将多个视角的深度值投影为点云，将不同视角下的深度综合起来，最终形成一个统一的三维点云。

43、本专利技术的有益效果为：

44、(1)本专利技术将选择性结构化状态空间模型模型引入mvs的框架中，提出了一个基于选择性结构化状态空间模型的金字塔结构特征提取模块，结合选择性结构化状态空间模型，通过状态空间的动态更新和选择性信息处理，过滤冗余信息，突出关键特征，较少噪声干扰，同时通过状态向量来表示不同层次的信息，增强了处理长距离依赖和获取全局上下文信息的能力，对于弱纹理区域具有更好的特征提取能力。

45、(2)本专利技术提出了一种新的上下文注意力机制，在图像级对比学习阶段，通过多尺度卷积和跨维度信息整合增强了图像级细节表达能力。

46、(3)本专利技术提出一种新的动态场景级损失函数，根据不同区域的复杂性或不确定性，给损失函数中的各个像素分配不同的权重，提升这些区本文档来自技高网...

【技术保护点】

1.一种基于对比学习无监督三维重建方法，其特征在于：包括以下步骤：

2.根据权利要求1所述的基于对比学习无监督三维重建方法，其特征在于，所述步骤S1具体为：

3.根据权利要求1所述的基于对比学习无监督三维重建方法，其特征在于，所述步骤S2具体为：

4.根据权利要求3所述的基于对比学习无监督三维重建方法，其特征在于，所述步骤S21中，使用选择性结构化状态空间模型增强特征提取具体为：

5.根据权利要求3所述的基于对比学习无监督三维重建方法，其特征在于，所述步骤S22中，使用图像级和场景级对比学习分支增强模型鲁棒性具体为：

6.根据权利要求5所述的基于对比学习无监督三维重建方法，其特征在于，所述步骤S22-2中，使用上下文感受注意力模块提高模型处理全局信息和局部细节的能力具体为：

7.根据权利要求5所述的基于对比学习无监督三维重建方法，其特征在于，所述步骤S22-3中，动态场景级损失函数使模型学习到更强的特征表示能力具体为：

8.根据权利要求1所述的基于对比学习无监督三维重建方法，其特征在于，所述步骤S

...

【技术特征摘要】

1.一种基于对比学习无监督三维重建方法，其特征在于：包括以下步骤：

2.根据权利要求1所述的基于对比学习无监督三维重建方法，其特征在于，所述步骤s1具体为：

3.根据权利要求1所述的基于对比学习无监督三维重建方法，其特征在于，所述步骤s2具体为：

4.根据权利要求3所述的基于对比学习无监督三维重建方法，其特征在于，所述步骤s21中，使用选择性结构化状态空间模型增强特征提取具体为：

5.根据权利要求3所述的基于对比学习无监督三维重建方法，其特征在于，所述步骤s22中，使用...

【专利技术属性】
技术研发人员：刘桂华，廖文槿，李亮亮，蔡辰曦，钦付平，麻凤娟，
申请(专利权)人：西南科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人