一种基于注意力机制和单目多视角的三维重建方法技术

技术编号:31582298 阅读:23 留言:0更新日期:2021-12-25 11:26
本发明专利技术公开了一种基于注意力机制和单目多视角的三维重建方法S1:通过相机拍摄待测场景,采集待测场景的图像数据;S2:将图像数据进行标序,并按序依次进行特征点提取和特征点匹配,得到特征点匹配对;S3:对相机进行标定,得到相机位姿信息、相机内参和待测场景结构信息,并进行稀疏点云重建;S4:将相机位姿信息、相机内参、待测场景结构信息以及图像输入至预设的注意力机制的单目多视角重建网络,得到若干待测场景的深度估计图;S5:将若干深度估计图进行深度融合,得到稠密点云模型。无需提前相机标定,适用于任意场景的重建,重建结果更准确,点云完整度高,流程简单、重建可靠、适应性强。性强。性强。

【技术实现步骤摘要】
一种基于注意力机制和单目多视角的三维重建方法


[0001]本专利技术属于图像处理领域,尤其涉及一种基于注意力机制和单目多视角的三维重建方法。

技术介绍

[0002]近年来,深度学习技术在二维图像处理的各种任务中大放异彩,在各种数据集中的准确度远超传统方法的结果。随着三维视觉与三维结构数据的需求越来越大,研究人员开始将深度学习技术应用于3D视觉技术中。三维重建问题作为经典的计算机视觉问题,因此将其与神经网络进行结合从而获取更高精度的重建结果成为广泛研究的问题。
[0003]相比于采用激光雷达等方式,基于图像的三维重建技术所需的设备简单便宜,获取的模型应用更加广泛。采用单目多视角的方法进行三维重建的技术对输入图像要求低,图像序列可以是无序的。基于图像的三维重建技术本质上是对物体或者场景进行连续拍摄,计算相邻帧间的视差,通过视差与投影反射原理估计图像每个像素的深度,最终恢复场景几何纹理信息与相机参数信息。相比于传统方法进行三维重建,基于深度学习的单目多视角三维重建技术拥有更快的计算速度与更准确的重建结果。然而现有的基于深度学习的单目多视角三维重建神经网络还未考虑到大尺度特征的捕捉,在准确度和完整性上还存在着较大的提升空间。

技术实现思路

[0004]本专利技术的技术目的是提供一种基于注意力机制和单目多视角的三维重建方法,以解决三维重建中准确度和完整性不足的技术问题。
[0005]为解决上述问题,本专利技术的技术方案为:一种基于注意力机制和单目多视角的三维重建方法,包括如下步骤:
[0006]S1:通过相机拍摄待测场景,采集待测场景的图像数据;
[0007]S2:将图像数据进行标序,并按序依次进行特征点提取和特征点匹配,得到特征点匹配对;
[0008]S3:对相机进行标定,得到相机位姿信息、相机内参和待测场景结构信息,并进行稀疏点云重建;
[0009]S4:将相机位姿信息、相机内参、待测场景结构信息以及图像数据输入至预设的注意力机制的单目多视角重建网络,得到若干待测场景的深度估计图;
[0010]S5:将若干深度估计图进行深度融合,得到稠密点云模型。
[0011]较优地,在步骤S3中,还进一步包括
[0012]通过光束平差法对相机位姿信息进行非线性优化,根据相机内参、相机位姿信息和待测场景结构信息通过重投影误差作为代价函数进行非线性优化。
[0013]较优地,还包括对相机内参去畸变,以消除径向畸变和切向畸变,公式为
[0014]x
distorted
=x(1+k1r2+k2r4+k3r6)+2p1xy+p2(r2+2x2)
[0015]y
distorted
=y(1+k1r2+k2r4+k3r6)+p1(r2+2y2)+2p2xy。
[0016]其中,步骤S4具体包括如下步骤
[0017]S41:基于特征金字塔的搭建尺度无关注意力机制网络;
[0018]S42:搭建基于点云的多视角三维重建神经网络,进而粗预测生成得到粗略深度图,将粗略深度图转换成点云进行迭代优化,得到深度估计图。
[0019]具体地,在步骤S41中,
[0020]设置尺度因子S={1,s1,s2,L,s
n
},基于Non

Local网络计算多尺度特征图的注意力,输出得到特征金字塔。
[0021]具体地,在步骤S42中,
[0022]搭建基于点云的多视角三维重建神经网络,进而粗预测生成粗略深度图,将粗略深度图与特征金字塔的输出相融合并生成特征增强的点云结果,对点云结果进行深度残差计算和迭代优化,得到深度估计图。
[0023]本专利技术由于采用以上技术方案,使其与现有技术相比具有以下的优点和积极效果:
[0024]本专利技术设置结合自注意力机制对三维重建算法进行优化,重建结果更准确,点云完整度高,且实现了任意相机拍摄任意图像的重建,流程简单、重建可靠、适应性强。可以针对任意设备上搭载的单目相机采集到的图像序列实现高精度的稠密三维重建,无需提前相机标定,适用于任意场景的重建。
附图说明
[0025]通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本专利技术的限制。
[0026]图1为本专利技术的一种基于注意力机制和单目多视角的三维重建方法流程示意图;
[0027]图2为单一尺度下的非局部均值操作示意图;
[0028]图3为本专利技术输入图像示意图;
[0029]图4为经本专利技术所实现的重建结果深度图示意图;
[0030]图5为本专利技术得到的稠密点云模型示意图。
具体实施方式
[0031]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对照附图说明本专利技术的具体实施方式。显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图,并获得其他的实施方式。
[0032]为使图面简洁,各图中只示意性地表示出了与本专利技术相关的部分,它们并不代表其作为产品的实际结构。另外,以使图面简洁便于理解,在有些图中具有相同结构或功能的部件,仅示意性地绘示了其中的一个,或仅标出了其中的一个。在本文中,“一个”不仅表示“仅此一个”,也可以表示“多于一个”的情形。
[0033]以下结合附图和具体实施例对本专利技术提出的一种基于注意力机制和单目多视角
的三维重建方法作进一步详细说明。根据下面说明和权利要求书,本专利技术的优点和特征将更清楚。
[0034]实施例
[0035]参看图1,本实施例提供一种基于注意力机制和单目多视角的三维重建方法,具体包括如下步骤。
[0036]首先,参看图1,在步骤S1中,通过相机拍摄待测场景,从多个角度上进行采集待测场景的图像数据。
[0037]接着,参看图1,在步骤S2中,将图像数据进行标序,得到一组图像序列。将图像序列并按序依次通过增量式SFM(运动恢复结构)算法对其进行特征提取与特征匹配,SFM算法的基本流程是获取图像、图像特征点提取与特征点对的匹配、稀疏重建和稠密重建,即得到场景稀疏结构信息——场景稀疏点云。采用SIFT(尺度不变特征变换)算法对步骤S1得到的图像进行特征点的提取以及特征描述子的匹配,得到SIFT特征点匹配对,并用通过RANSAC(Random Sample Consensus,随机抽样一致)算法去除误匹配的特征点。其中,特征描述子从图像中提取有用信息,剔除无关信息,特征点是图像经过特征检测算法计算后得到的梯度极值点,反映图像的关键信息,特征描述子是对特征点进行后处理之后得到的,反映了图像的关键信息,是对图像的简单表示。
[0038]然后,参看图1,进入步骤S3,对相机进行标定,得到相机位姿信息、相机内参和待测场景结构信息,并进行稀疏点云重建。具体本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于注意力机制和单目多视角的三维重建方法,其特征在于,包括如下步骤:S1:通过相机拍摄待测场景,采集待测场景的图像数据;S2:将所述图像数据进行标序,并按序依次进行特征点提取和特征点匹配,得到特征点匹配对;S3:对相机进行标定,得到相机位姿信息、相机内参和待测场景结构信息,并进行稀疏点云重建;S4:将所述相机位姿信息、所述相机内参、所述待测场景结构信息以及所述图像数据输入至预设的注意力机制的单目多视角重建网络,得到若干待测场景的深度估计图;S5:将若干所述深度估计图进行深度融合,得到稠密点云模型。2.根据权利要求1所述的基于注意力机制和单目多视角的三维重建方法,其特征在于,在所述步骤S3中,还进一步包括通过光束平差法对所述相机位姿信息进行非线性优化,根据所述相机内参、所述相机位姿信息和所述待测场景结构信息通过重投影误差作为代价函数进行非线性优化。3.根据权利要求2所述的基于注意力机制和单目多视角的三维重建方法,其特征在于,还包括对所述相机内参去畸变,以消除径向畸变和切向畸变,公式为x
distorted
=x(1+k1r2+k2r4+k3r6)+2p1xy+p2(r2...

【专利技术属性】
技术研发人员:张珂刘梦宇
申请(专利权)人:上海应用技术大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1