一种基于RGB数据的单视角和多视角三维重建方法及装置制造方法及图纸

技术编号:27367409 阅读:30 留言:0更新日期:2021-02-19 13:51
一种基于RGB数据的单视角和多视角三维重建方法及装置,能够充分利用输入图像的个性特征和其属于特定类别的共性特征,以及物体自身的几何信息来增强三维重建效果,能够获得高精度的三维重建结果。方法包括:(1)融合输入视角的个性化特征和其所属类别的共性化特征,重建得到初始化的三维体素;(2)在初始化的三维体素基础上,利用体素在特定视角下的先验对称性和本身具有的内部上下文依赖关系指导体素注意力图结构的构建,基于体素注意力图结构,利用多尺度图卷积对初始体素进行细化处理。用多尺度图卷积对初始体素进行细化处理。用多尺度图卷积对初始体素进行细化处理。

【技术实现步骤摘要】
一种基于RGB数据的单视角和多视角三维重建方法及装置


[0001]本专利技术涉及图像处理的
,尤其涉及一种基于RGB数据的单视角和多视角三维重建方法,以及基于RGB数据的单视角和多视角三维重建装置。

技术介绍

[0002]基于计算机视觉技术的三维物体重建在人类生活的众多领域得到广泛应用,如人机交互、虚拟现实、增强现实和医疗诊断等。
[0003]目前,基于RGB的三维物体重建方法主要分为传统方法和基于深度学习的方法。
[0004]传统的三维重建方法的核心环节是多视图图像特征匹配,重建模型质量高度依赖特征匹配精度。但是,由于外观变化或自遮挡,使得不同视点图像差异较大,因此很难建立精确稠密的特征对应关系。而且,重构的三维形状通常是一个没有几何细节的稀疏点云,精度待提升。此外,传统的三维重建方法涉及的环节较多,一般主要包括图像预处理,特征的计算与配准,数据融合,纹理映射等,导致环节之间的误差传递积累,最后严重影响重建效果。
[0005]基于深度学习的特征提取及三维模型重建克服了上述传统方法中的弊端,从而受到广泛关注。与此同时此类方法随着大量三维计算机辅助设计模型的出现而飞速发展。例如基于循环神经网络的三维重建方法将三维重建看作序列学习问题,使用循环神经网络去融合从输入图像提取的深度特征从而去重建三维形状;但是这类方法在给定不同顺序的输入图像时,三维重建结果存在差异,不能保证三维重建形状的一致性。为了克服这个问题,基于编码器-解码器结构的生成网络的三维重建方法被提出,即用编码器映射二维图像得到潜在特征表示,解码器将潜在特征表示解码得到一个三维形状;但是此类方法是针对每个输入视图单独处理,提取当前输入独有的潜在特征,没有充分利用与特定类别关联的视图共有信息,同时也没有明确利用物体可见部分和遮挡部分相关的几何线索和感知线索,比如模型的几何对称性。这些局限性限制了精细化三维重建的实现。

技术实现思路

[0006]为克服现有技术的缺陷,本专利技术要解决的技术问题是提供了一种基于RGB数据的单视角和多视角三维重建方法,其能够充分利用输入图像的个性特征和其属于特定类别的共性特征,以及物体自身的几何信息来增强三维重建效果,能够获得高精度的三维重建结果。
[0007]本专利技术的技术方案是:这种基于RGB数据的单视角和多视角三维重建方法,包括以下步骤:
[0008](1)融合输入视角的个性化特征和其所属类别的共性化特征,重建得到初始化的三维体素;
[0009](2)在初始化的三维体素基础上,利用体素在特定视角下的先验对称性和本身具有的内部上下文依赖关系指导体素注意力图结构的构建,基于体素注意力图结构,利用多
尺度图卷积对初始体素进行细化处理。
[0010]本专利技术将输入视角的个性化特征和它属于特定类别的共性化特征相融合进行初始化三维体素重建,利用模型在特定视角下的先验对称性和三维体素本身具有的上下文依赖关系指导三维模型的图构建并利用精心设计的多尺度图卷积进行细化,从而得到完整的合理的三维体素,因此能够充分利用输入图像的个性特征和其属于特定类别的共性特征,以及物体自身的几何信息来增强三维重建效果,能够获得高精度的三维重建结果。
[0011]还提供了一种基于RGB数据的单视角和多视角三维重建装置,该装置包括:
[0012]三维体素重建模块,其融合输入视角的个性化特征和其所属类别的共性化特征,重建得到初始化的三维体素;
[0013]体素精细化模块,其在初始化的三维体素基础上,利用体素在特定视角下的先验对称性和本身具有的内部上下文依赖关系指导体素注意力图结构的构建,基于体素注意力图结构,利用多尺度图卷积对初始体素进行细化处理。
附图说明
[0014]图1示出了根据本专利技术的基于RGB数据的单视角和多视角三维重建装置的总体框架图。
[0015]图2示出了单视角的图连接关系。
[0016]图3示出了多视角的图连接关系。
[0017]图4示出了ShapeNet数据集上单视角重建结果。
[0018]图5示出了ShapeNet数据集上多视角重建结果。
具体实施方式
[0019]这种基于RGB数据的单视角和多视角三维重建方法,包括以下步骤:
[0020](1)融合输入视角的个性化特征和其所属类别的共性化特征,重建得到初始化的三维体素;
[0021](2)在初始化的三维体素基础上,利用体素在特定视角下的先验对称性和本身具有的内部上下文依赖关系指导体素注意力图结构的构建,基于体素注意力图结构,利用多尺度图卷积对初始体素进行细化处理。
[0022]本专利技术将输入视角的个性化特征和它属于特定类别的共性化特征相融合进行初始化三维体素重建,利用模型在特定视角下的先验对称性和三维体素本身具有的上下文依赖关系指导三维模型的图构建并利用精心设计的多尺度图卷积进行细化,从而得到完整的合理的三维体素,因此能够充分利用输入图像的个性特征和其属于特定类别的共性特征,以及物体自身的几何信息来增强三维重建效果,能够获得高精度的三维重建结果。
[0023]如图1所示,还提供了一种基于RGB数据的单视角和多视角三维重建装置,该装置包括:
[0024]三维体素重建模块,其融合输入视角的个性化特征和其所属类别的共性化特征,重建得到初始化的三维体素;
[0025]体素精细化模块,其在初始化的三维体素基础上,利用体素在特定视角下的先验对称性和本身具有的内部上下文依赖关系指导体素注意力图结构的构建,基于体素注意力
图结构,利用多尺度图卷积对初始体素进行细化处理。
[0026]优选地,所述三维体素重建模块包括两个编码-解码网络,一个融合模块;其中第一编码-解码网络中的编码器E
Com
从图像中学习潜在特征,并对其进行分类处理以获得属于特定类别的共性特征,送入第一编码-解码网络中的解码器D
Com
重建出共性粗糙三维体素;第二编码-解码网络中的编码器E
Ind-解码器D
Ind
提取输入图像的个性化潜在特征并解码生成个性初始三维体素;融合模块利用基于个性-共性的上下文感知融合模块得到融合的初始三维体素。
[0027]优选地,所述第一编码-解码网络中,对于n个视角的输入图像经过E
Com
得到潜在变量分类该潜在变量到它所属的类别c
j
中,其分类损失为公式(1):
[0028][0029]其中p
k
表示真实的类别,q
k
表示预测的类别;然后将潜在特征送入解码器D
Com
得到重建的
[0030]优选地,所述第二编码-解码网络中,将输入图像经过E
Ind
得到潜在特征z
i
表示第i个视角的个性潜在特征,后将其送入解码器D
Ind
得到重建的个性初始三维体素
[0031]优选地,所述融合模块中,分别通过共性和个性本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于RGB数据的单视角和多视角三维重建方法,其特征在于:该方法包括以下步骤:(1)融合输入视角的个性化特征和其所属类别的共性化特征,重建得到初始化的三维体素;(2)在初始化的三维体素基础上,利用体素在特定视角下的先验对称性和本身具有的内部上下文依赖关系指导体素注意力图结构的构建,基于体素注意力图结构,利用多尺度图卷积对初始体素进行细化处理。2.一种基于RGB数据的单视角和多视角三维重建装置,其特征在于:其包括:三维体素重建模块,其融合输入视角的个性化特征和其所属类别的共性化特征,重建得到初始化的三维体素;体素精细化模块,其在初始化的三维体素基础上,利用体素在特定视角下的先验对称性和本身具有的内部上下文依赖关系指导体素注意力图结构的构建,基于体素注意力图结构,利用多尺度图卷积对初始体素进行细化处理。3.根据权利要求2所述的基于RGB数据的单视角和多视角三维重建装置,其特征在于:所述三维体素重建模块包括两个编码-解码网络,一个融合模块;其中第一编码-解码网络中的编码器E
Com
从图像中学习潜在特征,并对其进行分类处理以获得属于特定类别的共性特征,送入第一编码-解码网络中的解码器D
Com
重建出共性粗糙三维体素;第二编码-解码网络中的编码器E
Ind-解码器D
Ind
提取输入图像的个性化潜在特征并解码生成个性初始三维体素;融合模块利用基于个性-共性的上下文感知融合模块得到融合的初始三维体素。4.根据权利要求3所述的基于RGB数据的单视角和多视角三维重建装置,其特征在于:所述第一编码-解码网络中,对于n个视角的输入图像经过E
Com
得到潜在变量分类该潜在变量到它所属的类别c
j
中,其分类损失为公式(1):其中p
k
表示真实的类别,q
k
表示预测的类别;然后将潜在特征送入解码器D
Com
得到重建的5.根据权利要求4所述的基于RGB数据的单视角和多视角三维重建装置,其特征在于:所述第二编码-解码网络中,将输入图像经过E
Ind
得到潜在特征z
i
表示第i个视角的个性潜在特征,后将其送入解码器D
Ind
得到重建的个性初始三维体素6.根据权利要求5所述的基于RGB数据的单视角和多视角三维重建装置,其特征在于:所述融合模块中,分别通过共性和个性的上下文打分网络对和对打分,得到和然后将体素和相应的分数相乘再进行融合得到融合后的三维体素为了评估重建的体素,在重建的三维体素与真实的三维体素之间采用基于体素的二值交叉熵的平均值进行度量,定义为公式(2):
其中N表示三维物体中体素的数量,p
i
和gt
i
代表预测体素的占...

【专利技术属性】
技术研发人员:孔德慧高俊娜王少帆李敬华王立春
申请(专利权)人:北京工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1