一种基于卷积神经网络的单目深度信息获取方法技术

技术编号:22690153 阅读:27 留言:0更新日期:2019-11-30 04:17
本发明专利技术涉及计算机视觉领域、图像处理技术领域,具体涉及一种基于卷积神经网络的单目深度信息获取方法。首先图像预处理,构建训练样本,再构建网络模型,之后获取待匹配的图像,再将待匹配的图像进行匹配代价计算,得到初始匹配代价,然后再对初始匹配代价进行带权值的十字交叉聚合处理,并进行半全局算法的优化,获得优化后的匹配代价;然后计算并优化视差图,最后利用视差计算深度信息。本发明专利技术解决了现有立体匹配网络模型在弱纹理区域无法精确寻找到像素匹配点以及细节特征表现效果差的问题,本发明专利技术实现了使用单目摄像机采集图像序列获取真实场景的深度信息,并消除了视差图中的大量噪声,获得了精度更高的真实场景深度信息。

A method of obtaining monocular depth information based on convolution neural network

The invention relates to the field of computer vision and the field of image processing technology, in particular to a method for obtaining monocular depth information based on convolutional neural network. First of all, image preprocessing, training sample construction, network model construction, image acquisition, matching cost calculation of the image to be matched, initial matching cost calculation, and then initial matching cost cross aggregation processing with weights, and semi global algorithm optimization to obtain the optimized matching cost; then calculate and optimize the vision Finally, the depth information is calculated by disparity map. The invention solves the problem that the existing stereo matching network model can not accurately find the pixel matching points in the weak texture area and the performance effect of the detail features is poor. The invention realizes the use of the monocular camera to acquire the depth information of the real scene, eliminates a large number of noises in the disparity map, and obtains the real scene depth information with higher accuracy.

【技术实现步骤摘要】
一种基于卷积神经网络的单目深度信息获取方法
:本专利技术涉及计算机视觉领域、图像处理
,具体涉及一种基于卷积神经网络的单目深度信息获取方法。
技术介绍
:计算机视觉领域的热门研究方向之一是使用图像集合或者序列等二维影像,恢复出场景中物体的深度信息。通常按照提供的场景视点数量的不同,可以将深度信息获取的算法分为三种:基于多视点图像、基于双目图像和基于单目图像的深度信息获取算法。其中基于多视点图像的深度信息获取使用摄像机阵列进行对同一场景采集的图像数据。基于双目图像的深度信息获取使用两摄像头模仿人类双眼的相对位置,通过立体匹配技术获取视差,再根据视差与深度信息的关系得到深度信息。与以上两种方法不同,单目立体视觉从单个摄像机采集的图像序列中获取场景三维环境信息。因为单目立体视觉中使用的图像采集设备更贴近日常应用,需求更广泛,其研究对促进计算机视觉领域的发展有着十分重要的意义。目前,根据单目获取深度信息的方法原理,可以将单目视觉深度信息获取技术分为两类:基于深度线索的信息获取算法和基于机器学习的深度信息获取算法。基于深度线索(包括运动信息或透视聚焦、遮挡、纹理、阴影等特征信息)的信息获取算法对场景特殊性要求较高,在真实拍摄过程中摄像机与物体的运动状态以及场景状况不可预知,而且在得到基于特征点的稀疏视差图后,若要进行三维重建还需进一步求得稠密视差图;基于机器学习的深度信息获取算法,包括基于图模型的算法和基于深度信息采样的算法,这类算法由于依赖人为设计特征以及大型深度数据库,计算速度较慢。专利技术内容:专利技术目的:为了获得较高精度的深度信息,减少计算时间,解决现有立体匹配网络模型在弱纹理区域无法精确寻找到像素匹配点以及细节特征表现效果差的问题,同时适应日常使用的单目设备。本专利技术提供了一种基于卷积神经网络的单目深度信息获取方法。技术方案:一种基于卷积神经网络的单目深度信息获取方法,方法包括:步骤一:图像预处理:对标准图库中带有真实视差值的立体图像对分别做相同的随机变化预处理,得到训练数据和测试数据;步骤二:构建训练样本:在预处理训练数据的图像对中,选择两张图像中的多组对应图像块组成训练样本;步骤三:构建网络模型:网络模型由L1到L8共8层构成,分成2个部分;第一部分构建两个相同的子网络,L1到L4共四层,每一层的结构都依次由卷积层、归一化层和ReLU激活函数组成;然后在L5层通过一个连接层,将两个子网络提取的特征向量连接为一个张量;第二部分是决策层,L6到L8共三层结构,每层都由全连接层和ReLU激活函数组成,最后一层全连接L8后使用sigmod函数输出结果;步骤四:获取待匹配的图像:使用单目摄像机获取视频序列,通过摄像机自标定消除图片畸变,并利用几何校正对齐图片,获得待匹配的图像;步骤五:匹配代价计算:将待匹配的图像对输入到训练好的卷积神经网络模型,输出待匹配的图像对的相似度数值,根据相似数确定初始匹配代价;步骤六:匹配代价聚合和优化:对初始匹配代价进行带权值的十字交叉聚合处理,同时采用半全局算法的优化匹配代价;步骤七:视差计算:采用WTA在优化后的匹配代价的基础上计算视差;步骤八:视差优化;在步骤七获得的视差值的基础上,进行优化,获得视差图;步骤九:计算深度信息:利用步骤八获得的视差图计算单目深度信息。进一步地,步骤一中随机变换方式包括旋转rotate、缩放scale、剪切shear、改变亮度bright和改变对比度contrast。进一步地,根据步骤二中的训练样本构建训练实例,将训练实例用在步骤三中构造的网络模型中,得到经过训练网络模型。进一步地,所述的训练网络模型进行有监督的反向传播算法计算,使用二元交叉熵目标函数表示为公式(1):其中,N为训练集中的个数,训练集中第i个样本的期望输出为s1时的概率为训练集中第i个样本的实际输出为s2时的概率为进一步地,步骤二中,根据已知图像对其中表示左图像中以p(x,y)为中心大小为n×n的图像块,表示右图像中以q为中心的图像块,已知左图中p点的真实视差为d,为p点设置一个正确的匹配实例和一个错误的匹配实例;为获得正确的训练实例,将右图像块的中心位置q的坐标表示为:q=(x-d+Orig,y)其中Orig∈[-rig,rig];Orig表示正确匹配合集中的随机值,d表示p点的真实视差,x、y表示坐标轴中的图像块中心坐标值,rig是正确匹配集合的度量;为了获得错误的训练实例,将右图像块的中心位置q的坐标表示为:q=(x-d+Oerr,y)其中Oerr∈[-errh,-errl]∪[errl,errh],Oerr表示错误匹配合集中的随机取值,errl和errh是错误匹配集合的度量的最低和最高值。进一步地,由训练样本构成的匹配集合,若输入的图像对属于正确匹配集合,则输出类别t=1;若输入的图像对属于错误匹配集合,则输出类别t=0。进一步地,步骤四中获取待匹配的图像是从视频中逐帧截取得到的图像序列,设Δfs为两图像间隔的帧数,从某帧fpi开始,根据不同帧数间隔Δfs得到多帧图像,对不同帧的图像对采用满足对偶绝对二次曲面约束的自标定方法完成摄像机的标定,计算出摄像机的内参矩阵,消除图像畸变;确定每组图像对,<fpi,fpi+Δfs>表示第fpi帧图像和第fpi+Δfs帧图像组成的图像对;通过分别对指定两帧图像进行投影变换,实现图像对的几何校正。进一步地,步骤五中匹配代价计算是输入经过自标定和几何校正后的图像对采用训练好的网络模型训练,最后通过sigmod函数计算出图像对的相似性则匹配代价计算如公式(2):CCNN(p,d)表示待匹配的图像块中以p为中心的左图像块与以p-d为中心的右图像块的相似度。进一步地,步骤六中匹配代价CCNN(p,d)的代价聚合方法为带权值的迭代十字交叉聚合方法,如公式(3):其中,迭代次数i=4,表示迭代i-1次得到的匹配代价,Ud(p)表示左图中p(xp,yp)点的支持区域与p(xp,yp)在右图中对应点的支持区域的联合,定义为公式(4),wq为支持区域中某点q的权重,使用区域内q点与中心像素点p的距离定义,公式为(5):Ud(p)={q|q∈UL(p),q-d∈UR(p-d)}(4)其中UL(p)表示p(xp,yp)在左图像中四个方向上的支持区域,UR(p-d)表示p(xp,yp)在右图像中对应点的支持区域;所述的对聚合后的匹配代价进行优化的方法是半全局的匹配代价优化,通过最小化图像中像素点的多个方向的能量函数计算每个像素的最优代价。优点及效果:本专利技术具有以下优点和有益效果:本专利技术提供了一种基于卷积神经网络的单目深度信息获取方法,首先预处理KITTI数据集获得训练样本,并采用两个相同结构的卷积神经子网络对训练样本进行特征提取,训练用于匹配代价计算的卷积神经网络模型,使卷积本文档来自技高网...

【技术保护点】
1.一种基于卷积神经网络的单目深度信息获取方法,其特征在于:方法包括:/n步骤一:图像预处理:对标准图库中带有真实视差值的立体图像对分别做相同的随机变化预处理,得到训练数据和测试数据;/n步骤二:构建训练样本:在预处理训练数据的图像对中,选择两张图像中的多组对应图像块组成训练样本;/n步骤三:构建网络模型:网络模型由L1到L8共8层构成,分成2个部分;第一部分构建两个相同的子网络,L1到L4共四层,每一层的结构都依次由卷积层、归一化层和ReLU激活函数组成;然后在L5层通过一个连接层,将两个子网络提取的特征向量连接为一个张量;第二部分是决策层,L6到L8共三层结构,每层都由全连接层和ReLU激活函数组成,最后一层全连接L8后使用sigmod函数输出结果;/n步骤四:获取待匹配的图像:使用单目摄像机获取视频序列,通过摄像机自标定消除图片畸变,并利用几何校正对齐图片,获得待匹配的图像;/n步骤五:匹配代价计算:将待匹配的图像对输入到训练好的卷积神经网络模型,输出待匹配的图像对的相似度数值,根据相似数确定初始匹配代价;/n步骤六:匹配代价聚合和优化:对初始匹配代价进行带权值的十字交叉聚合处理,同时采用半全局算法的优化匹配代价;/n步骤七:视差计算:采用WTA在优化后的匹配代价的基础上计算视差;/n步骤八:视差优化;在步骤七获得的视差值的基础上,进行优化,获得视差图;/n步骤九:计算深度信息:利用步骤八获得的视差图计算单目深度信息。/n...

【技术特征摘要】
1.一种基于卷积神经网络的单目深度信息获取方法,其特征在于:方法包括:
步骤一:图像预处理:对标准图库中带有真实视差值的立体图像对分别做相同的随机变化预处理,得到训练数据和测试数据;
步骤二:构建训练样本:在预处理训练数据的图像对中,选择两张图像中的多组对应图像块组成训练样本;
步骤三:构建网络模型:网络模型由L1到L8共8层构成,分成2个部分;第一部分构建两个相同的子网络,L1到L4共四层,每一层的结构都依次由卷积层、归一化层和ReLU激活函数组成;然后在L5层通过一个连接层,将两个子网络提取的特征向量连接为一个张量;第二部分是决策层,L6到L8共三层结构,每层都由全连接层和ReLU激活函数组成,最后一层全连接L8后使用sigmod函数输出结果;
步骤四:获取待匹配的图像:使用单目摄像机获取视频序列,通过摄像机自标定消除图片畸变,并利用几何校正对齐图片,获得待匹配的图像;
步骤五:匹配代价计算:将待匹配的图像对输入到训练好的卷积神经网络模型,输出待匹配的图像对的相似度数值,根据相似数确定初始匹配代价;
步骤六:匹配代价聚合和优化:对初始匹配代价进行带权值的十字交叉聚合处理,同时采用半全局算法的优化匹配代价;
步骤七:视差计算:采用WTA在优化后的匹配代价的基础上计算视差;
步骤八:视差优化;在步骤七获得的视差值的基础上,进行优化,获得视差图;
步骤九:计算深度信息:利用步骤八获得的视差图计算单目深度信息。


2.根据权利要求1所述的基于卷积神经网络的单目深度信息获取方法,其特征在于:步骤一中随机变换方式包括旋转rotate、缩放scale、剪切shear、改变亮度bright和改变对比度contrast。


3.根据权利要求1所述的基于卷积神经网络的单目深度信息获取方法,其特征在于:根据步骤二中的训练样本构建训练实例,将训练实例用在步骤三中构造的网络模型中,得到经过训练网络模型。


4.根据权利要求3所述的基于卷积神经网络的单目深度信息获取方法,其特征在于:所述的训练网络模型进行有监督的反向传播算法计算,使用二元交叉熵目标函数表示为公式(1):



其中,N为训练集中的个数,训练集中第i个样本的期望输出为s1时的概率为训练集中第i个样本的实际输出为s2时的概率为


5.根据权利要求1所述的基于卷积神经网络的单目深度信息获取方法,其特征在于:步骤二中,根据已知图像对其中表示左图像中以p(x,y)为中心大小为n×n的图像块,表示右图像中以q为中心的图像块,已知左图中p点的真实视差为d,为p点设置一个正确的匹配实例和一个错误的匹配实例;
为获得正确的训练实例,将右图像块的中心位置q的坐标表示为:
q=(x-...

【专利技术属性】
技术研发人员:魏东张晨崔泽璐樊启明蒋晓彤
申请(专利权)人:沈阳工业大学
类型:发明
国别省市:辽宁;21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1