一种基于Transformer的单视图三维点云重建方法技术

技术编号：38753205 阅读：7 留言：0更新日期：2023-09-10 09:37

本发明专利技术公开了一种基于Transformer的单视图三维点云重建方法，1）通过Transformer编码器提取图像特征；2）通过Transformer解码器来融合图像特征以获取点云特征；3）由若干个线性层组成一个点簇解码器，通过所述点簇解码器中的线性层将对应的不同的分支的点云特征映射成坐标；4）设计注意力点簇解码器ACD来扩展步骤3）所用的线性层。本发明专利技术可以准确地捕捉点云中不同的点簇之间的注意力信息，并独立地预测点的坐标，从而重建更高质量的三维点云，本发明专利技术在点云重建过程中，可以分割不同的语义区域。域。域。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于Transformer的单视图三维点云重建方法

[0001]本专利技术涉及一种基于Transformer的单视图三维点云重建方法。

技术介绍

[0002]单视图三维重建是利用单张图像生成三维模型的技术，近年来在不同领域获得了极大的关注。它被广泛应用于各个领域，比如协助机器人进行建模和定位三维场景，快速构建虚拟场景和人物模型，以及在医疗领域重建病人的组织结构。由于缺乏几何信息，从单张图像中重建三维模型是十分具有挑战性的。传统的重建方法通常采用特征匹配、姿势估计和三角测量来恢复物体的三维结构。然而，这些方法严重依赖相机参数和场景结构，需要大量的图像数据和计算资源。此外，它们的重建效率较低，不适用于实时或交互式的应用。相比之下，深度学习的方法利用神经网络直接学习二维图像和三维模型之间的映射关系，在处理复杂场景和不规则形状时减少了人工设计的工作。
[0003]在先前的工作中，有些工作使用自动编码器将图像编码为潜在代码，并使用解码器将潜在代码还原为三维形状，这可以有效地处理不同形状和比例的物体，但对于复杂物体的作用是有限的。生成对抗网络(GAN)使用对抗学习机制来处理非刚性物体并提高重建质量。然而，这些方法往往依赖于复杂的CNN管道，在处理物体的局部细节时有局限性。Transformer架构最近在三维计算机视觉领域中得到了普及，并在一些下游任务中取得了最先进的结果，如目标分类、目标检测和目标分割，为此本专利技术提供一种基于Transformer的单视图三维点云重建方法，以可以准确地捕捉点云中不同的点簇之间的注意...

【技术保护点】

【技术特征摘要】
1.一种基于Transformer的单视图三维点云重建方法，其特征在于：包括如下步骤：1)通过Transformer编码器提取图像特征；2)通过Transformer解码器来融合图像特征以获取点云特征；3)由若干个线性层组成一个点簇解码器，通过所述点簇解码器中的线性层将对应的不同的分支的点云特征映射成坐标；4)设计注意力点簇解码器ACD来扩展步骤3)所用的线性层。2.如权利要求1所述的基于Transformer的单视图三维点云重建方法，其特征在于：步骤1)中，Transformer编码器采用Swin Transformer编码器，在Swin Transformer编码器内设有补丁分割模块、补丁合并模块以及Swin Transformer模块。3.如权利要求2所述的基于Transformer的单视图三维点云重建方法，其特征在于：步骤1)中的具体过程为：向Swin Transformer编码器输入图像通过使用补丁分割模块将输入的图像分割成不重叠的补丁，将每个补丁内的原始像素的RGB值串联起来作为该补丁的特征；通过补丁合并模块内的一个线性嵌入层将图像分割的所有补丁的特征维度映射到C，并将所有补丁输入至SwinTransformer模块内进行优化计算；然后分三个阶段将所有的补丁进行分组合并，最终使补丁的数量减少八倍，同时，在每一个阶段的补丁分组合并后，通过补丁合并模块内的一个线性层将每个阶段分组合并后的补丁的特征维度增加一倍，并将每个阶段进行维度增加一倍的操作后的补丁输入至Swin Transformer模块内进行优化计算，优化计算后的特征维度与输入前保持一致；在将第三阶段的补丁输入至Swin Transformer模块结束后，将所有补丁排列成一行，最终由Swin Transformer模块输出图像特征张量其中，I代表输入的图像，W代表图像的宽度，H代表图像的高度，3代表图像的通道数，代表实数的集合；则代表I是一张宽度为W，高度为H的3通道的RGB彩色图像，其W和H的取值均为实数；F
I
代表输入的图像I的特征的张量，则代表F
I
是一个长度为特征维度为8C的张量，其中W、H和C的取值均为实数。4.如权利要求3所述的基于Transformer的单视图三维点云重建方法，其特征在于：使用补丁分割模块时，规定单个补丁大小为4
×
4，将输入图像分割为个补丁，并以每个补丁的原始像素RGB值的串联作为其特征，其张量形状为5.如权利要求3所述的基于Transformer的单视图三维点云重建方法，其特征在于：将分割后图像所有的补丁进行分组合并及优化的方法为：首先使用补丁合并模块内的一个线性嵌入层将图像分割后的所有补丁的特征维度映射到C，完成特征嵌入，并输入到SwinTransformer模块进行优化计算然后分三个阶段，第一阶段，将完成特征嵌入后的所有补丁按照相邻的2
×
2个补丁合并形成1个，然后使用补丁合并模块内的一个线性层将合并后的补丁的特征维度映射到2C，并将合并后的补丁
输入到一个SwinTransformer模块中进行优化计算，完成第一阶段的分组合并；第二阶段，将完成第一阶段的分组合并后的所有补丁再一次按照相邻的2
×
2个补丁合并形成1个，然后使用补丁合并模块内的另外一个线性层将合并后的补丁的特征维度映射到4C，并将合并后的补丁输入到另外一个SwinTransformer模块中进行优化计算，完成第二阶段的分组合并；第三阶段，将完成第二阶段的分组合并后的所有补丁再一次按照相邻的2
×
2个补丁合并形成1个，然后使用补丁合并模块内的再另外一个线性层将合并后的补丁的特征维度映射到8C，并将合并后的补丁输入到再另外一个SwinTransformer模块中进行优化计算，完成第三阶段的分组合并。6.如权利要求1所述的基于Transformer的单视图三维点云重建方法，其特征在于：步骤2)中，融合图像特征以获取点云特征的过程为：21)将输入形状为1
×
3n的张量转换为1
×
D的输出张量的线性层定义为点输入嵌入模块；22)将Transformer解码器的M个输入嵌入定义为目标点云的M个点簇，其中，Y
rec
代表目标点云，N为实数，代表目标点云的总点数，则代表一个包含N个点的点云；23)在初始化Transformer解码器的输入时，从半径为1的球面中上采样n＝N/M个点，并将这些点排列为一个形状为1
×
3n的张量，然后利用点输入嵌入模块将这个1
×
3n的张量映射...

【专利技术属性】
技术研发人员：柏基权，杨泽伟，郁钱，
申请(专利权)人：江苏理工学院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人