基于端到端神经网络的视差图获取方法技术

技术编号:15262490 阅读:205 留言:0更新日期:2017-05-03 18:09
本发明专利技术公开了一种基于端到端神经网络的视差图获取方法,主要解决现有获取视差图时大量搜索与迭代计算导致实时性差的问题。其方案是:1.利用特征学习网络与视差重构网络构建三维重构网络,其中特征学习网络设有结构相同的两个分支,每个分支结构设有五个网络层,视差重构网络设有三个网络层,这两个网络通过一个全连接网络层连接;2.将虚拟场景与现实场景数据分别输入至三维重构网络,通过训练该网络确定其权重参数;3.将拍摄的同步左右视图输入至确定权重参数后的三维重构网络,获得视差图。本发明专利技术避免了复杂的预处理,减小了搜索与迭代计算量,能满足更高的实时性要求,可用于双目相机、机器人视觉导航、工业自动化领域。

【技术实现步骤摘要】

本专利技术属于计算机视觉领域,特别涉及一种视差图获取方法,可用于双目相机、机器人视觉导航、工业自动化领域。技术背景人类正在以飞快的速度进入信息时代,随着科学技术的快速发展,计算机视觉的应用越来越受到广泛的重视。计算机视觉的目标是要使机器人或计算机通过对二维图像的处理达到对三维场景和环境的认知,从而具有和人类相当的视觉处理能力,最终像人一样通过视觉观察和理解世界,具有自主适应环境的能力。当前,人类解决三维场景重构问题的低成本方法主要停留在基于图像的三维重构技术上,从一系列的二维投影图像中重建出真实三维物体模型。现在国内外常见的三维重构算法有基于平面的三维重构、基于深度图的三维重构、基于轮廓线的三维重构、基于立体视觉的三维重构,其中基于立体视觉的三维重构最接近于人类的视觉系统,也是当前最受关注的一种三维重构的方法。基于立体视觉的三维重构方法主要利用基于视差理论的双目立体视觉原理,该方法从两个或多个视点去观察同一物体,获得在不同视角下的一组图像,通过各种算法匹配出相应像素点,然后通过不同图像中对应像素间的视差,推断出物体的空间几何形状和位置。一个完整的双目立体视觉系统通常由图像获取、摄像机标定、特征提取、立体匹配、深度确定及内插与重建这六大部分组成,其中立体匹配是该方法的难点。立体匹配是三维重构最困难的工作之一。给出一幅图像的特征点,如何在其它图像中找到对应点,这一类问题称为特征匹配。当空间三维场景被投影为二维图像时,同一景物在不同视点下的图像会大有不同,而且场景中的诸多因素,如光照条件,景物几何形状和物理特性、噪声干扰和畸变以及摄像机特性等,都被综合成单一的图像中的灰度值。因此,要准确地对包含了如此之多不利因素的图像进行无歧义的匹配,显然十分困难。传统的立体匹配技术可以粗略分为两大类:基于面积的匹配与基于特征的匹配。基于面积的立体匹配方法一般要求图像较为光滑,或者具有较高的纹理区域,因此该类匹配方法已被应用于航天图像以及多纹理的图像。该类匹配方法可以直接产生高密的视差图像,但是当一幅图像缺乏纹理特征,或者在图像的边界不连续区域时,匹配则变得没有意义。基于特征的立体匹配方法不是匹配两幅图像中的纹理区域而是抽取图像中特定的特征进行匹配,该类匹配方法有三个基本步骤:(1)从立体图像对中的一幅图像如左视图中选择与实际物理结构相应的图像特征;(2)在另一幅图像如右视图中确定出同一物理结构的对应图像特征;(3)确定这两个特征之间的相对位置,得到视差。该类匹配方法与基于面积的匹配方法相比,可以得到更加准确的视差图像,但是由于特征的稀疏性、以及特征的分布不均衡性,该方法很难得到高密的视差图像,往往要求进行线性插值计算,这又使视差图像的准确性下降。近几年深度学习网络由于更接近人类的经验而被引入到人工智能领域,同样也被用来解决三维重构中的立体匹配问题。Zbontar和LeCun在文章“Computingthestereomatchingcostwithaconvolutionalneuralnetwork.(CVPR,2015)”中首次将CNN(ConvolutionalNeuralNetwork,卷积神经网络)用来计算立体匹配代价,提出新的网络称之为MC-CNN(MatchingCost-ConvolutionalNeuralNetwork),基于立体数据库KITTI,将匹配错误率从2.83%降低至2.61%,提升了匹配精度,同时开启了深度学习网络在三维重构领域的应用。基于该文章的理论,Luo,Schwing和Urtasum在文章“EfficientDeepLearningforStereoMatching.(CVPR,2016)”提出了新的网络,该网络将立体匹配定义为一个多类的分类问题,这里的类代表是所有可能的视差值,并通过加入一个计算内积的网络层来提升训练速度,与MC-CNN网络进行对比,该网络的精度与速率均有明显提升。虽然深度学习网络的应用使立体匹配技术更智能化,匹配的准确率也有所提升,但其与传统技术类似,依然不可避免的需要经过大量搜索操作,需要进行复杂的迭代优化计算,才能形成视差图来进行重构工作的后期运算,从二维投影图像到获得视差图仍然需要较长的时间,因此该方法不适合用于对实时性要求较高的领域。
技术实现思路
本专利技术的目的在于克服已有技术的不足,提出一种基于端到端神经网络的视差图获取方法,以实现三维重构的人工智能化,使三维重构的过程更接近于人类双目视觉,提高三维重构的灵活性和重构的速率,使其能满足更高的实时性要求。本专利技术的技术方案是,将深度学习与三维重构相结合,通过构建三维重构网络与确定三维重构网络的权重参数,构建一个输入为同步左右视图,输出为对应的视差图的端到端的三维重构网络。其实现步骤包括如下:(1)构建三维重构网络:(1a)设计特征学习网络,该网络设有结构相同的两个分支,每个分支有五个网络层,第一层是卷积网络层,第二层是以sigmoid函数为激活函数的池化网络层,第三层是卷积网络层,第四层是以sigmoid函数为激活函数的池化网络层,第五层是全连接网络层,该网络用于分别学习两幅输入图像的特征;(1b)设计视差重构网络,该网络包括三个网络层,其中第一层是全连接网络层,第二层是一个卷积网络层,第三层是一个携带sigmoid函数的全连接网络层,该网络用于综合训练(1a)中学习到的两幅输入图像特征,重构出视差图;(1c)将(1a)得到的特征学习网络与(1b)得到的视差重构网络进行连接,构建成三维重构网络;(2)确定三维重构网络的权重参数:(2a)由计算机三维场景技术生成虚拟场景数据,该数据作为网络的训练样本,虚拟场景数据中包括同步的左右视图(VSL,VSR)和左右视图所对应的虚拟场景的视差图DS;(2b)将虚拟场景数据输入至步骤(1)构建的三维重构网络中,并使用随机梯度下降算法对该三维重构网络进行训练,直至网络收敛,得到权重参数为θ1的粗调后网络;(2c)在摄像机上平行放置两个摄像头,拍摄现实场景,获得现实场景的同步左右视图(VAL,VAR),使用三维立体扫描仪扫描同一现实场景,获取该现实场景的视差图DA,该视差图DA与所述同步左右视图(VAL,VAR)相对应;(2d)将现实场景的同步左右视图(VAL,VAR)与现实场景的视差图DA输入至粗调后网络中,使用随机梯度下降算法对该粗调后网络进行训练,直至网络收敛,得到权重参数为θ2的精调后网络;(3)通过精调后网络获得视差图D:(3a)使用两个平行放置的摄像头拍摄三维场景,获得三维场景的同步左右视图(VL,VR),分别在三维场景的左视图VL与右视图VR中以k×k大小的矩形窗按照步长s进行滑动,获得三维场景的n个左视图图像块IL(pi)与n个右视图图像块IR(pi),其中当三维场景的左视图VL与右视图VR的尺寸是M×N时,pi表示第i个图像块的中心坐标是(xi,yi),i∈(0,…,n-1);(3b)将三维场景的同步左右图像块(IL(pi),IR(pi))输入至步骤(2d)得到的精调后网络中,从该网络输出与该左右图像块对应位置的三维场景的视差图图像块D(pi);(3c)对三维场景的视差图图像块D(pi)进行融合,得到三维场景的视差图D。本专利技术与现有技术相比具有如本文档来自技高网
...

【技术保护点】
一种基于端到端神经网络的视差图获取方法,其特征在于包括:(1)构建三维重构网络:(1a)设计特征学习网络,该网络设有结构相同的两个分支,每个分支有五个网络层,第一层是卷积网络层,第二层是以sigmoid函数为激活函数的池化网络层,第三层是卷积网络层,第四层是以sigmoid函数为激活函数的池化网络层,第五层是全连接网络层,该网络用于分别学习两幅输入图像的特征;(1b)设计视差重构网络,该网络包括三个网络层,其中第一层是全连接网络层,第二层是一个卷积网络层,第三层是一个携带sigmoid函数的全连接网络层,该网络用于综合训练(1a)中学习到的两幅输入图像特征,重构出视差图;(1c)将(1a)得到的特征学习网络与(1b)得到的视差重构网络进行连接,构建成三维重构网络;(2)确定三维重构网络的权重参数:(2a)由计算机三维场景技术生成虚拟场景数据,该数据作为网络的训练样本,虚拟场景数据中包括同步的左右视图(VSL,VSR)和左右视图所对应的虚拟场景的视差图DS;(2b)将虚拟场景数据输入至步骤(1)构建的三维重构网络中,并使用随机梯度下降算法对该三维重构网络进行训练,直至网络收敛,得到权重参数为θ1的粗调后网络;(2c)在摄像机上平行放置两个摄像头,拍摄现实场景,获得现实场景的同步左右视图(VAL,VAR),使用三维立体扫描仪扫描同一现实场景,获取该现实场景的视差图DA,该视差图DA与所述同步左右视图(VAL,VAR)相对应;(2d)将现实场景的同步左右视图(VAL,VAR)与现实场景的视差图DA输入至粗调后网络中,使用随机梯度下降算法对该粗调后网络进行训练,直至网络收敛,得到权重参数为θ2的精调后网络;(3)通过精调后网络获得视差图D:(3a)使用两个平行放置的摄像头拍摄三维场景,获得三维场景的同步左右视图(VL,VR),分别在三维场景的左视图VL与右视图VR中以k×k大小的矩形窗按照步长s进行滑动,获得三维场景的n个左视图图像块IL(pt)与n个右视图图像块IR(pt),其中M表示三维场景的左视图VL与右视图VR的长为M个像素点,N表示三维场景的左视图VL与右视图VR的宽为N个像素点,pt表示第t个图像块的中心坐标是(xt,yt),t∈(0,…,n‑1);(3b)将三维场景的同步左右图像块(IL(pt),IR(pt))输入至步骤(2d)得到的精调后网络中,从该网络输出与该左右图像块对应位置的三维场景的视差图图像块D(pt);(3c)对三维场景的视差图图像块D(pt)进行融合,得到三维场景的视差图D。...

【技术特征摘要】
1.一种基于端到端神经网络的视差图获取方法,其特征在于包括:(1)构建三维重构网络:(1a)设计特征学习网络,该网络设有结构相同的两个分支,每个分支有五个网络层,第一层是卷积网络层,第二层是以sigmoid函数为激活函数的池化网络层,第三层是卷积网络层,第四层是以sigmoid函数为激活函数的池化网络层,第五层是全连接网络层,该网络用于分别学习两幅输入图像的特征;(1b)设计视差重构网络,该网络包括三个网络层,其中第一层是全连接网络层,第二层是一个卷积网络层,第三层是一个携带sigmoid函数的全连接网络层,该网络用于综合训练(1a)中学习到的两幅输入图像特征,重构出视差图;(1c)将(1a)得到的特征学习网络与(1b)得到的视差重构网络进行连接,构建成三维重构网络;(2)确定三维重构网络的权重参数:(2a)由计算机三维场景技术生成虚拟场景数据,该数据作为网络的训练样本,虚拟场景数据中包括同步的左右视图(VSL,VSR)和左右视图所对应的虚拟场景的视差图DS;(2b)将虚拟场景数据输入至步骤(1)构建的三维重构网络中,并使用随机梯度下降算法对该三维重构网络进行训练,直至网络收敛,得到权重参数为θ1的粗调后网络;(2c)在摄像机上平行放置两个摄像头,拍摄现实场景,获得现实场景的同步左右视图(VAL,VAR),使用三维立体扫描仪扫描同一现实场景,获取该现实场景的视差图DA,该视差图DA与所述同步左右视图(VAL,VAR)相对应;(2d)将现实场景的同步左右视图(VAL,VAR)与现实场景的视差图DA输入至粗调后网络中,使用随机梯度下降算法对该粗调后网络进行训练,直至网络收敛,得到权重参数为θ2的精调后网络;(3)通过精调后网络获得视差图D:(3a)使用两个平行放置的摄像头拍摄三维场景,获得三维场景的同步左右视图(VL,VR),分别在三维场景的左视图VL与右视图VR中以k×k大小的矩形窗按照步长s进行滑动,获得三维场景的n个左视图图像块IL(pt)与n个右视图图像块IR(pt),其中M表示三维场景的左视图VL与右视图VR的长为M个像素点,N表示三维场景的左视图VL与右视图VR的宽为N个像素点,pt表示第t个图像块的中心坐标是(xt,yt),t∈(0,…,n-1);(3b)将三维场景的同步左右图像块(IL(pt),IR(pt))输入至步骤(2d)得到的精调后网络中,从该网络输出与该左右图像块对应位置的三维场景的视差图图像块D(pt);(3c)对三维场景的视差图图像块D(pt)进行融合,得到三维场景的视差图D。2.根据权利要求1所述的方法,其特征在于步骤(1c)中将(1a)得到的特征学习网络与(1b)得到的视差重构网络进行连接,是通过新创建一个全连接网络层将两者进行连接,即将(1a)特征学习网络得到的两幅输入图像的特征输入至该全连接网络层,该全连接网络层的输出结果输入给(1b)设计的视差重构网络。3.根据权利要求1所述的方法,其特征在于,步骤(2b)中使用随机梯度下降算法对三维重构网络进行训练,按如下步骤进行:(2b1)前向传播阶段:(2b11)从虚拟场景数据中取出样本((VSL,VSR),DS),分别在左视图VSL与右视图VSR中以ks×ks大小的矩形窗按照步长ss进行滑动,获得左视图的图像块ISL(pi)与右视图的图像块ISR(pi),其中pi表示第i个图像块的中心坐标是(xi,yi);(2b12)将图像块(ISL(pi),ISR(pi))输入至三维重构网络,计算三维重构网络实际输出的视差图图像块DOS(pi):DOS(pi)=f((ISL(pi),IS...

【专利技术属性】
技术研发人员:刘薇齐飞石光明林春焕宋志明沈冲王晓甜
申请(专利权)人:西安电子科技大学
类型:发明
国别省市:陕西;61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1