一种基于深度学习的物体三维重建系统技术方案

技术编号:35656371 阅读:19 留言:0更新日期:2022-11-19 16:53
本发明专利技术涉及三维重建技术领域,具体涉及一种基于深度学习的物体三维重建系统。本发明专利技术提出了一种引入可见性感知的自适应成本聚合方法用于成本量的聚合,通过网络获取视图中像素点的可见性,可以提高遮挡区域重建完整性;采用基于方差预测每像素视差范围,构建空间变化的深度假设面,用于下一阶段的深度估计,在最后一阶段提出了残差与通道注意力引导融合的深度图优化模块,以获得优化后的深度图;采用改进深度图融合算法,结合像素点与3D点重投影误差进行一致性检查,得到密集点云。在DTU数据集上与其他方法的定量定性比较结果表明本发明专利技术方法可以重建出细节上表现更好的场景,且实现了降低GPU内存消耗和计算时长的目的。现了降低GPU内存消耗和计算时长的目的。现了降低GPU内存消耗和计算时长的目的。

【技术实现步骤摘要】
一种基于深度学习的物体三维重建系统


[0001]本专利技术涉及三维重建
,具体涉及一种基于深度学习的物体三维重建系统。

技术介绍

[0002]三维重建是指利用二维投影恢复物体三维信息(形状等)的数学过程和计算机技术。三维重建技术作为计算机视觉的热门方向之一,被广泛应用于医疗、3D打印、虚拟现实技术和3D地图和导航等方面。传统的三维重建方法使用的相似性度量和正则化方法如标准化互相关和半全局匹配等来计算光度一致性并恢复深度信息。尽管目前的一些传统算法在精确度方面表现良好,但它们也有一些共同的局限性,例如在场景的低纹理、镜面反射和反射区域的重建较为困难。
[0003]和传统算法相比,基于学习的方法能够学习利用场景全局语义信息,包括对象材质、镜面反射度和环境照明等条件,以获得更稳健的匹配和更完整的重建。近年来,卷积神经网络在各种计算机视觉任务中的成功应用促进了多视图几何(MVS)方法的改进。立体匹配任务非常适合应用基于深度学习的方法,因为对图像的预先矫正,此问题变成了水平像素方向的视差估计,而不需要考虑相机参数。
[0004]在基于深度学习的三维重建方面,有研究人员提出SurfaceNet预先构建彩色体素立方体,将所有图像像素颜色信息和相机信息组合到单个体素中,作为网络的输入;也有研究人员提出立体学习机(LSM)直接利用可微映射来实现端到端的训练。然而,这两种方法都利用了规则栅格的体积表示,受三维体积巨大内存消耗的限制,其网络难以扩展:LSM仅处理低体积分辨率的对象,而SurfaceNet采用启发式分治策略,大规模重建需要很长时间。除此,还有研究人员提出端到端的网络(如MVSNet)直接从一系列图像中估计场景的深度,从而达到更高的预测精度。
[0005]尽管上述方法的准确性已在各种数据集上得到验证,但大多数方法都利用3D卷积神经网络(CNN)来预测深度图或体素占用,导致内存消耗过多,限制了估计分辨率的提高。随后,研究人员进一步提出了一种新的基于递归神经网络的可伸缩多视点立体框架,称为R

MVSNet。通过顺序处理,算法的在线内存需求从三次型降低到二次型,能够实现高分辨率的重建。然而这使重建的完整性和准确性受到了影响,运行速率也有所降低。后续工作等级联式立体网络用于多幅RGB图像的三维重建。然而在2D到3D信息融合过程中,同样存在一些不足之处,如深度估计网络内存占用过大、无法处理图像中遮挡区域的可见性问题、计算深度图耗时太长等问题。
[0006]综上,怎样通过低内存占用和低计算消耗实现高精度和高度完整的重建,成为目前亟待解决的问题。

技术实现思路

[0007]针对上述现有技术的不足,本专利技术提供了一种基于深度学习的物体三维重建系
统,能够通过低内存占用和低计算消耗实现高精度和高度完整的重建。
[0008]为了解决上述技术问题,本专利技术采用了如下的技术方案:
[0009]一种基于深度学习的物体三维重建系统,包括输入单元、处理单元、融合单元和重建单元;输入单元用于输入进行三维重建的初始图像,所述初始图像包括源图像和1张参考图像;
[0010]所述处理单元包括级联式三维重建网络和深度图优化模块,级联式三维重建网络用于按分辨率从低到高分阶段进行深度估计;所述级联式三维重建网络的每一阶段均包括特征提取模块、成本体构建模块、自适应聚合模块和深度图构建模块;
[0011]特征提取模块用于预设的要求对初始图像进行特征提取,得到对应的特征图;所述预设要求为各阶段的特征提取模块按照分辨率从低到高的顺序依次进行特征提取;成本体构建模块用于对该阶段的特征图进行处理,得到各像素点的可见性并构建对应的成本体;自适应聚合模块用于对该阶段的成本体进行分析处理得到对应的概率体,再采用基于方差的视差范围预测每像素的空间变化的视差范围,并构建空间变化的深度假设面;深度图构建模块用于根据概率体预测得到对应的初始深度图;其中,若成本体构建模块不属于级联式三维重建网络的第一阶段,则该成本体构建模块根据该阶段的特征图及上一阶段的深度假设面构建成本体;深度图优化模块用于对最后一阶段的初始深度图进行优化,得到优化深度图;
[0012]融合单元用于根据优化深度图生成3D密集点云;重建单元用于对3D密集点云进行处理得到重建的三维视图。
[0013]基础方案有益效果:
[0014]本专利技术中,提出了一种引入可见性感知的自适应成本聚合方法,在成本体生成阶段采用了相似性度量的方法,通过可见性感知网络获取视图中像素点是否可见;基于方差预测每像素视差范围,将局部深度范围划分在学习到的小间隔内,按分辨率从低到高分阶段进行深度估计;并在最后一阶段提出了残差与通道注意力引导融合的深度图优化模块,以实现从粗到精的方式实现重建。实验证明,在DTU数据集上与其他方法的定量定性比较结果表明本专利技术方法可以重建出细节上表现更好的场景,且实现了降低GPU内存消耗和计算时长的目的。
[0015]与现有技术相比,本方法能够通过低内存占用和低计算消耗实现高精度和高度完整的重建。
[0016]优选地,所述特征提取模块包括编码器和特征提取器;所述编码器包括一组卷积层组,编码器的统一层为INPLACE

ABN,编码器用于按预设步长的卷积对初始图像大小进行下采样;特征提取器用于按照预设的要求从解码器中提取特征图。
[0017]有益效果:INPLACE

ABN是将常用深度网络中常见的BN+Activation组合替换为一个合并层,通过存储少量计算结果(丢弃部分中间结果,在反向传播时倒置计算恢复需要的参量),节省了50%的存储空间,却只增加少许计算量。它取代了常用的批量标准化(BN)和非线性激活层,在后向传递期间,可以通过反转前向传递计算有效地从该缓冲区恢复所有所需的量,理论上在不引入明显的计算开销的情况下在卷积层获得50%的内存增益,计算时间仅增加0.8

2%。
[0018]优选地,第一阶段的成本构建模块的工作过程包括:
[0019]建立一个标准的平面扫描体,从预定义的深度间隔[d
min
,d
max
]中均匀采样得到L个深度假设层通过源视图的特征映射和参考图像之间的像素对应关系扭曲映射得到对应的成本体;所述源视图的特征映射和参考图像之间的像素对应关系为:
[0020]p
i,l
=K
i
·
(R
i
·
(K
‑1·
p
·
d
l
)+t
i
);其中,p
i,l
为第i张源图像中的像素p在参考图像中第l层深度假设d
l
的对应像素:为参考图像与第i张源图像的内参矩阵;为参考图像与第i张源图像的旋转平移矩阵。
[0021]优选地,除第一阶段外,其余阶的成本体构建模块的工作过程包括:
[0022]将特征通道划分为G本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度学习的物体三维重建系统,其特征在于:包括输入单元、处理单元、融合单元和重建单元;输入单元用于输入进行三维重建的初始图像,所述初始图像包括源图像和1张参考图像;所述处理单元包括级联式三维重建网络和深度图优化模块,级联式三维重建网络用于按分辨率从低到高分阶段进行深度估计;所述级联式三维重建网络的每一阶段均包括特征提取模块、成本体构建模块、自适应聚合模块和深度图构建模块;特征提取模块用于预设的要求对初始图像进行特征提取,得到对应的特征图;所述预设要求为各阶段的特征提取模块按照分辨率从低到高的顺序依次进行特征提取;成本体构建模块用于对该阶段的特征图进行处理,得到各像素点的可见性并构建对应的成本体;自适应聚合模块用于对该阶段的成本体进行分析处理得到对应的概率体,再采用基于方差的视差范围预测每像素的空间变化的视差范围,并构建空间变化的深度假设面;深度图构建模块用于根据概率体预测得到对应的初始深度图;其中,若成本体构建模块不属于级联式三维重建网络的第一阶段,则该成本体构建模块根据该阶段的特征图及上一阶段的深度假设面构建成本体;深度图优化模块用于对最后一阶段的初始深度图进行优化,得到优化深度图;融合单元用于根据优化深度图生成3D密集点云;重建单元用于对3D密集点云进行处理得到重建的三维视图。2.如权利要求1所述的基于深度学习的物体三维重建系统,其特征在于:所述特征提取模块包括编码器和特征提取器;所述编码器包括一组卷积层组,编码器的统一层为INPLACE

ABN,编码器用于按预设步长的卷积对初始图像大小进行下采样;特征提取器用于按照预设的要求从解码器中提取特征图。3.如权利要求2所述的基于深度学习的物体三维重建系统,其特征在于:第一阶段的成本构建模块的工作过程包括:建立一个标准的平面扫描体,从预定义的深度间隔[d
min
,d
max
]中均匀采样得到L个深度假设层通过源视图的特征映射和参考图像之间的像素对应关系扭曲映射得到对应的成本体;所述源视图的特征映射和参考图像之间的像素对应关系为:p
i,l
=K
i
·
(R
i
·
(K
‑1·
p
·
d
l
)+t
i
);其中,p
i,l
为第i张源图像中的像素p在参考图像中第l层深度假设d
l
的对应像素:为参考图像与第i张源图像的内参矩阵;为参考图像与第i张源图像的旋转平移矩阵。4.如权利要求3所述的基于深度学习的物体三维重建系统,其特征在于:除第一阶段外,其余阶的成本体构建模块的工作过程包括:将特征通道划分为G组后,计算参考图像特征F(p)和第i张源视图在第l层深度假设面扭曲映射后的特征图F
i
(p
i,l
)在第g组的相似性S
i
(p,l)
g
:其中,H为特征通道的数量;G为特征通道的组数;计算像素P和第l层深度假设面的最终每组相似性其中,
S
i
(p,l)表示像素p参考图像特征和第i张源图像在l层特征图上的相似性;n表示初始图像的数量;为第i张源图像的可见性掩码;计算第i幅源图像的成本体计算第i幅源图像的成本体表示第i张源视图在第l层深度假设面的最终每组相似性;再计算成本体C:5.如权利要求4所述的基于深度学习的物体三维重建系统,其特征在于:自适应聚合模块经平均分组相关性计算的相似性度量来表示结构权重成本,再通过可见性感知网络获取源图像中像素点是否可见;其中,所述通过可见性感知网络获取视图中像素点是否可见包括:将参考图像特征F(p)和源图像特征F
i
(p
i,l
)的相似性S
i
(p,l)输入可见性感知网络,并输出视图i的可见性掩码且在所有像素上共享权重,独立预测每个像素的可见性;所述可见性掩码中,w
i
(p)=max{P
i
(p,l)|l=0,1,...,L

1};其中,P
i
(p,l)表示第i张源图像中像素p在第l层深度假设面的像素值;L为该阶段的深度假设面的数量。6.如权利要求5所述的基于深度学习的物体三维重建系统,其特征在于:自适应聚合模块通过3D CNN处理成本体,并在3D CNN的末尾应用深度方向的softmax来分析每个像素的预测深度后,得到对应的概率体。7.如权利要求6所述的基于深度学习的物体三维重建系统,其特征在于:像素p在第k阶段的预测深度Q
k
(p)的计算式为:其中,L为该阶段的深度假...

【专利技术属性】
技术研发人员:宋涛邢镔郑米培张渝张景涛李程田媛王敏李沩沩
申请(专利权)人:重庆工业大数据创新中心有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1