一种基于移动终端的物体三维重建方法技术

技术编号:38231240 阅读:11 留言:0更新日期:2023-07-25 17:59
本发明专利技术提供了一种基于移动终端的物体三维重建方法。该方法包括:利用轻量化的主干网络提取原始图片的主干特征;通过解码器从主干特征中获取实例分割结果,构建多任务解码器模块;采用占有函数的形式构建三维重建模块,利用轻量化主干网络、多任务解码器和三维重建模块组成三维重建模型;获取移动终端设备采集的单目图像,将单目图像输入到训练好的三维重建模型,三维重建模型输出根据单目图像重建的三维物体。本发明专利技术提出了轻量化主干网络、基于特征融合的实例分割以及三维模型表示方法,实现了对特征快速且有效的提取、外观特征与几何结构特征有效融合以及高分辨率三维模型的准确表示,能够在保证高准确率三维重建的同时还拥有极高的运算效率。有极高的运算效率。有极高的运算效率。

【技术实现步骤摘要】
一种基于移动终端的物体三维重建方法


[0001]本专利技术涉及计算机视觉
,尤其涉及一种基于移动终端的物体三维重建方法。

技术介绍

[0002]虚拟现实与增强现实技术能够在教育医疗、智能制造、交通运输等经济民生领域发挥重大作用。近年来,人们的生产生活方式得到了极大地改变,对于线上产业的需求也空前迫切,而虚拟现实与增强现实技术是线上产业的发展支柱。随着“元宇宙”概念的兴起,包括虚拟现实与增强现实在内的相关
的关注度更是达到了空前的高度。
[0003]近年来针对物体三维重建,国内外有多篇代表性研究工作,这些算法虽然可以有效地检测二维图片中的物体并重建三维模型,但存在诸多问题:
[0004](1)模型结构复杂。为实现准确的三维重建,目前算法采用的模型参数过多,无法实现移动终端设备上的部署。
[0005](2)几何结构信息不足。与基于点云输入数据的三维重建算法相比,单目图片输入缺少有效的几何结构信息。
[0006](3)物体三维建模不准。在由实例分割结果重建物体三维模型时,目前方法依赖具体的拓扑结构,无法实现任意形状的三维重建,同时为保证运算效率,重建三维模型分辨率不高。

技术实现思路

[0007]本专利技术的实施例提供了一种基于移动终端的物体三维重建方法,以实现有效地对物体进行三维重建。
[0008]为了实现上述目的,本专利技术采取了如下技术方案。
[0009]一种基于移动终端的物体三维重建方法,包括:
[0010]将卷积神经网络与自注意力相结合,构建轻量化的主干网络,利用主干网络提取原始图片的主干特征;
[0011]通过解码器从所述轻量化主干网络提取的主干特征中获取实例分割结果,构建多任务解码器模块;
[0012]采用占有函数的形式构建三维重建模块,利用所述轻量化主干网络、多任务解码器和三维重建模块组成三维重建模型,利用所述实例分割结果和损失函数对所述三维重建模型进行训练,得到训练好的三维重建模型;
[0013]获取移动终端设备采集的单目图像,将所述单目图像输入到训练好的三维重建模型,三维重建模型输出根据所述单目图像重建的三维物体。
[0014]优选地,所述的将卷积神经网络与自注意力相结合,构建轻量化的主干网络,利用主干网络提取原始图片的主干特征,包括:
[0015]将卷积神经网络与自注意力相结合,以浅层采用卷积、深层采用注意力机制的设
计原则,构建轻量化的主干网络,所述主干网络由嵌入操作和元注意力模块组成;
[0016]所述主干网络的计算公式如下:
[0017][0018]其中χ0是输入图像,为网络输出,B为批量大小,H与W为图像的尺寸,m是网络深度;
[0019]元注意力模块MB由未指定的Token混合器和一个MLP多程感知机模块组成:
[0020]χ
i+1
=MB
i

i
)=MLP(TokenMixer(χ
i
))
[0021]其中
χi|i>0
是转发到第i个元模块的中间特征,主干网络由一个4维元模块分区与一个3维分区组成,其中4维元模块中的算子以卷积操作实现,3维元模块中的线性投影和注意力在3维张量上执行;
[0022]通过所述主干网络从原始图片中提取主干特征。
[0023]优选地,所述的通过解码器从所述轻量化主干网络提取的主干特征中获取实例分割结果,构建多任务解码器模块,包括:
[0024]通过像素解码器从所述轻量化主干网络获取的主干特征中获取外观特征,通过深度解码器从所述轻量化主干网络获取的主干特征中获取几何结构特征,对所述外观特征和所述几何结构特征添加相应的位置编码信息;
[0025]构建基于特征融合的实例分割解码器,该实例分割解码器包含深度注意力模块,自注意力模块,掩码注意力模块以及前向传播网络,将外观特征、结构特征、查询特征和位置掩码输入到所述实例分割解码器,通过位置掩码表示分割目标,结合掩码注意力机制,实现实例分割、语意分割的分割任务;
[0026]利用所述像素解码器、深度解码器和基于特征融合的实例分割解码器构建多任务解码器模块。
[0027]优选地,所述的采用占有函数的形式构建三维重建模块,包括:
[0028]采用占有函数的形式构建三维重建模型,该三维重建模型以多任务解码器模块得到的实例分割特征作为输入,通过网络预测为该三维空间中每个点位分配占有概率[0,1]即二进制占有值,表示该点是否位于物体上,所述三维重建模块的构建步骤包括:
[0029]对于空间中的任意一点,采用占有函数的形式对物体进行建模,根据其特征预测二进制占有值以表示该点是否位于物体上;
[0030]采用条件批次归一化层对二进制占有值进行回归预测;
[0031]通过隐形编码器将输入特征与二进制占有值编码成物体点高斯分布的均值与方差,并采样得到隐形编码z;
[0032]将隐形编码z与物体点的分割特征相加,经过由卷积构成的形状预测模块得到最终的二进制占有值。
[0033]优选地,所述的利用所述轻量化主干网络、多任务解码器和三维重建模块组成三维重建模型,利用所述实例分割结果和损失函数对所述三维重建模型进行训练,得到训练好的三维重建模型,包括:
[0034]步骤S4

1:利用所述轻量化主干网络、多任务解码器和三维重建模块组成三维重
建模型,初始化三维重建模型的参数,该参数包含深度估计模块、实例分割模块、三维重建模型中卷积层、全连接层与归一化层中的参数;
[0035]步骤S4

2:设置三维重建模型的训练参数,采用随机梯度下降算法对三维重建模型进行训练;
[0036]步骤S4

3:对于深度估计任务,将连续的数据离散化,将回归任务转化为分类任务,使用交叉熵损失函数计算损失值;
[0037]对于实例分割任务,采用的损失函数表示为:
[0038]X
l
=soft max(M
l
‑1+Q
l
K
lT
)V
l
+X
l
‑1[0039]其中l是层索引号,X
l
指第l层的N个C维查询特征,Q
l
=f
Q
(X
l
‑1)∈R
N
×
C
,X0表示注意力机制解码器的输入查询特征,分别是f
K
(
·
)和f
V
(
·
)函数变换下的图像特征,H
l
和W
l
是图像特征的空间分辨率,f
Q
,f
K
,f
V
是线性变换,
[0040]在特征位置(x,y)处的注意掩模M
l
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于移动终端的物体三维重建方法,其特征在于,包括:将卷积神经网络与自注意力相结合,构建轻量化的主干网络,利用主干网络提取原始图片的主干特征;通过解码器从所述轻量化主干网络提取的主干特征中获取实例分割结果,构建多任务解码器模块;采用占有函数的形式构建三维重建模块,利用所述轻量化主干网络、多任务解码器和三维重建模块组成三维重建模型,利用所述实例分割结果和损失函数对所述三维重建模型进行训练,得到训练好的三维重建模型;获取移动终端设备采集的单目图像,将所述单目图像输入到训练好的三维重建模型,三维重建模型输出根据所述单目图像重建的三维物体。2.根据权利要求1所述的方法,其特征在于,所述的将卷积神经网络与自注意力相结合,构建轻量化的主干网络,利用主干网络提取原始图片的主干特征,包括:将卷积神经网络与自注意力相结合,以浅层采用卷积、深层采用注意力机制的设计原则,构建轻量化的主干网络,所述主干网络由嵌入操作和元注意力模块组成;所述主干网络的计算公式如下:其中χ0是输入图像,为网络输出,B为批量大小,H与W为图像的尺寸,m是网络深度;元注意力模块MB由未指定的Token混合器和一个MLP多程感知机模块组成:χ
i+1
=MB
i

i
)=MLP(TokenMixer(χ
i
))其中
χi|i>0
是转发到第i个元模块的中间特征,主干网络由一个4维元模块分区与一个3维分区组成,其中4维元模块中的算子以卷积操作实现,3维元模块中的线性投影和注意力在3维张量上执行;通过所述主干网络从原始图片中提取主干特征。3.根据权利要求1或者2所述的方法,其特征在于,所述的通过解码器从所述轻量化主干网络提取的主干特征中获取实例分割结果,构建多任务解码器模块,包括:通过像素解码器从所述轻量化主干网络获取的主干特征中获取外观特征,通过深度解码器从所述轻量化主干网络获取的主干特征中获取几何结构特征,对所述外观特征和所述几何结构特征添加相应的位置编码信息;构建基于特征融合的实例分割解码器,该实例分割解码器包含深度注意力模块,自注意力模块,掩码注意力模块以及前向传播网络,将外观特征、结构特征、查询特征和位置掩码输入到所述实例分割解码器,通过位置掩码表示分割目标,结合掩码注意力机制,实现实例分割、语意分割的分割任务;利用所述像素解码器、深度解码器和基于特征融合的实例分割解码器构建多任务解码器模块。4.根据权利要求3所述的方法,其特征在于,所述的采用占有函数的形式构建三维重建模块,包括:采用占有函数的形式构建三维重建模型,该三维重建模型以多任务解码器模块得到的
实例分割特征作为输入,通过网络预测为该三维空间中每个点位分配占有概率[0,1]即二进制占有值,表示该点是否位于物体上,所述三维重建模块的构建步骤包括:对于空间中的任意一点,采用占有函数的形式对物体进行建模,根据其特征预测二进制占有值以表示该点是否位于物体上;采用条件批次归一化层对二进制占有值进行回归预测;通过隐形编码器将输入特征与二进制占有值编码成物体点高斯分布的均值与方差,并采样得到隐形编码z;将隐形编码z与物体点的分割特征相加,经过由卷积构成的形状预测模块得到最终的二进制占有值。5.根据权利要求4所述的方法,其特征在于,所述的利用所述轻量化主干网络、多任务解码器和三...

【专利技术属性】
技术研发人员:曹原周汉侯志明李浥东陈乃月张慧
申请(专利权)人:北京交通大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1