基于端到端神经网络的视差图获取方法技术

技术编号：15262490 阅读：219 留言：0更新日期：2017-05-03 18:09

本发明专利技术公开了一种基于端到端神经网络的视差图获取方法，主要解决现有获取视差图时大量搜索与迭代计算导致实时性差的问题。其方案是：1.利用特征学习网络与视差重构网络构建三维重构网络，其中特征学习网络设有结构相同的两个分支，每个分支结构设有五个网络层，视差重构网络设有三个网络层，这两个网络通过一个全连接网络层连接；2.将虚拟场景与现实场景数据分别输入至三维重构网络，通过训练该网络确定其权重参数；3.将拍摄的同步左右视图输入至确定权重参数后的三维重构网络，获得视差图。本发明专利技术避免了复杂的预处理，减小了搜索与迭代计算量，能满足更高的实时性要求，可用于双目相机、机器人视觉导航、工业自动化领域。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于计算机视觉领域，特别涉及一种视差图获取方法，可用于双目相机、机器人视觉导航、工业自动化领域。技术背景人类正在以飞快的速度进入信息时代，随着科学技术的快速发展，计算机视觉的应用越来越受到广泛的重视。计算机视觉的目标是要使机器人或计算机通过对二维图像的处理达到对三维场景和环境的认知，从而具有和人类相当的视觉处理能力，最终像人一样通过视觉观察和理解世界，具有自主适应环境的能力。当前，人类解决三维场景重构问题的低成本方法主要停留在基于图像的三维重构技术上，从一系列的二维投影图像中重建出真实三维物体模型。现在国内外常见的三维重构算法有基于平面的三维重构、基于深度图的三维重构、基于轮廓线的三维重构、基于立体视觉的三维重构，其中基于立体视觉的三维重构最接近于人类的视觉系统，也是当前最受关注的一种三维重构的方法。基于立体视觉的三维重构方法主要利用基于视差理论的双目立体视觉原理，该方法从两个或多个视点去观察同一物体，获得在不同视角下的一组图像，通过各种算法匹配出相应像素点，然后通过不同图像中对应像素间的视差，推断出物体的空间几何形状和位置。一个完整的双目立体视觉系统通常由图像获取、摄像机标定、特征提取、立体匹配、深度确定及内插与重建这六大部分组成，其中立体匹配是该方法的难点。立体匹配是三维重构最困难的工作之一。给出一幅图像的特征点，如何在其它图像中找到对应点，这一类问题称为特征匹配。当空间三维场景被投影为二维图像时，同一景物在不同视点下的图像会大有不同，而且场景中的诸多因素，如光照条件，景物几何形状和物理特性、噪声干扰和畸变以及摄像机特性等，都被综合成单...

【技术保护点】
一种基于端到端神经网络的视差图获取方法，其特征在于包括：(1)构建三维重构网络:(1a)设计特征学习网络，该网络设有结构相同的两个分支，每个分支有五个网络层，第一层是卷积网络层，第二层是以sigmoid函数为激活函数的池化网络层，第三层是卷积网络层，第四层是以sigmoid函数为激活函数的池化网络层，第五层是全连接网络层，该网络用于分别学习两幅输入图像的特征；(1b)设计视差重构网络，该网络包括三个网络层，其中第一层是全连接网络层，第二层是一个卷积网络层，第三层是一个携带sigmoid函数的全连接网络层，该网络用于综合训练(1a)中学习到的两幅输入图像特征，重构出视差图；(1c)将(1a)得到的特征学习网络与(1b)得到的视差重构网络进行连接，构建成三维重构网络；(2)确定三维重构网络的权重参数:(2a)由计算机三维场景技术生成虚拟场景数据，该数据作为网络的训练样本，虚拟场景数据中包括同步的左右视图(VSL,VSR)和左右视图所对应的虚拟场景的视差图DS；(2b)将虚拟场景数据输入至步骤(1)构建的三维重构网络中，并使用随机梯度下降算法对该三维重构网络进行训练，直至网络收敛，得到权重参...

【技术特征摘要】
1.一种基于端到端神经网络的视差图获取方法，其特征在于包括：(1)构建三维重构网络:(1a)设计特征学习网络，该网络设有结构相同的两个分支，每个分支有五个网络层，第一层是卷积网络层，第二层是以sigmoid函数为激活函数的池化网络层，第三层是卷积网络层，第四层是以sigmoid函数为激活函数的池化网络层，第五层是全连接网络层，该网络用于分别学习两幅输入图像的特征；(1b)设计视差重构网络，该网络包括三个网络层，其中第一层是全连接网络层，第二层是一个卷积网络层，第三层是一个携带sigmoid函数的全连接网络层，该网络用于综合训练(1a)中学习到的两幅输入图像特征，重构出视差图；(1c)将(1a)得到的特征学习网络与(1b)得到的视差重构网络进行连接，构建成三维重构网络；(2)确定三维重构网络的权重参数:(2a)由计算机三维场景技术生成虚拟场景数据，该数据作为网络的训练样本，虚拟场景数据中包括同步的左右视图(VSL,VSR)和左右视图所对应的虚拟场景的视差图DS；(2b)将虚拟场景数据输入至步骤(1)构建的三维重构网络中，并使用随机梯度下降算法对该三维重构网络进行训练，直至网络收敛，得到权重参数为θ1的粗调后网络；(2c)在摄像机上平行放置两个摄像头，拍摄现实场景，获得现实场景的同步左右视图(VAL,VAR)，使用三维立体扫描仪扫描同一现实场景，获取该现实场景的视差图DA,该视差图DA与所述同步左右视图(VAL,VAR)相对应；(2d)将现实场景的同步左右视图(VAL,VAR)与现实场景的视差图DA输入至粗调后网络中，使用随机梯度下降算法对该粗调后网络进行训练，直至网络收敛，得到权重参数为θ2的精调后网络；(3)通过精调后网络获得视差图D：(3a)使用两个平行放置的摄像头拍摄三维场景，获得三维场景的同步左右视图(VL,VR)，分别在三维场景的左视图VL与右视图VR中以k×k大小的矩形窗按照步长s进行滑动，获得三维场景的n个左视图图像块IL(pt)与n个右视图图像块IR(pt)，其中M表示三维场景的左视图VL与右视图VR的长为M个像素点，N表示三维场景的左视图VL与右视图VR的宽为N个像素点，pt表示第t个图像块的中心坐标是(xt,yt)，t∈(0,…,n-1)；(3b)将三维场景的同步左右图像块(IL(pt),IR(pt))输入至步骤(2d)得到的精调后网络中，从该网络输出与该左右图像块对应位置的三维场景的视差图图像块D(pt)；(3c)对三维场景的视差图图像块D(pt)进行融合，得到三维场景的视差图D。2.根据权利要求1所述的方法，其特征在于步骤(1c)中将(1a)得到的特征学习网络与(1b)得到的视差重构网络进行连接，是通过新创建一个全连接网络层将两者进行连接，即将(1a)特征学习网络得到的两幅输入图像的特征输入至该全连接网络层，该全连接网络层的输出结果输入给(1b)设计的视差重构网络。3.根据权利要求1所述的方法，其特征在于，步骤(2b)中使用随机梯度下降算法对三维重构网络进行训练，按如下步骤进行：(2b1)前向传播阶段：(2b11)从虚拟场景数据中取出样本((VSL,VSR)，DS),分别在左视图VSL与右视图VSR中以ks×ks大小的矩形窗按照步长ss进行滑动，获得左视图的图像块ISL(pi)与右视图的图像块ISR(pi)，其中pi表示第i个图像块的中心坐标是(xi,yi)；(2b12)将图像块(ISL(pi),ISR(pi))输入至三维重构网络，计算三维重构网络实际输出的视差图图像块DOS(pi)：DOS(pi)=f((ISL(pi),IS...

【专利技术属性】
技术研发人员：刘薇，齐飞，石光明，林春焕，宋志明，沈冲，王晓甜，
申请(专利权)人：西安电子科技大学，
类型：发明
国别省市：陕西;61

全部详细技术资料下载我是这个专利的主人