The invention relates to the field of computer vision and the field of image processing technology, in particular to a method for obtaining monocular depth information based on convolutional neural network. First of all, image preprocessing, training sample construction, network model construction, image acquisition, matching cost calculation of the image to be matched, initial matching cost calculation, and then initial matching cost cross aggregation processing with weights, and semi global algorithm optimization to obtain the optimized matching cost; then calculate and optimize the vision Finally, the depth information is calculated by disparity map. The invention solves the problem that the existing stereo matching network model can not accurately find the pixel matching points in the weak texture area and the performance effect of the detail features is poor. The invention realizes the use of the monocular camera to acquire the depth information of the real scene, eliminates a large number of noises in the disparity map, and obtains the real scene depth information with higher accuracy.
【技术实现步骤摘要】
一种基于卷积神经网络的单目深度信息获取方法
:本专利技术涉及计算机视觉领域、图像处理
,具体涉及一种基于卷积神经网络的单目深度信息获取方法。
技术介绍
:计算机视觉领域的热门研究方向之一是使用图像集合或者序列等二维影像,恢复出场景中物体的深度信息。通常按照提供的场景视点数量的不同,可以将深度信息获取的算法分为三种:基于多视点图像、基于双目图像和基于单目图像的深度信息获取算法。其中基于多视点图像的深度信息获取使用摄像机阵列进行对同一场景采集的图像数据。基于双目图像的深度信息获取使用两摄像头模仿人类双眼的相对位置,通过立体匹配技术获取视差,再根据视差与深度信息的关系得到深度信息。与以上两种方法不同,单目立体视觉从单个摄像机采集的图像序列中获取场景三维环境信息。因为单目立体视觉中使用的图像采集设备更贴近日常应用,需求更广泛,其研究对促进计算机视觉领域的发展有着十分重要的意义。目前,根据单目获取深度信息的方法原理,可以将单目视觉深度信息获取技术分为两类:基于深度线索的信息获取算法和基于机器学习的深度信息获取算法。基于深度线索(包括运动信息或透视聚焦、遮挡、纹理、阴影等特征信息)的信息获取算法对场景特殊性要求较高,在真实拍摄过程中摄像机与物体的运动状态以及场景状况不可预知,而且在得到基于特征点的稀疏视差图后,若要进行三维重建还需进一步求得稠密视差图;基于机器学习的深度信息获取算法,包括基于图模型的算法和基于深度信息采样的算法,这类算法由于依赖人为设计特征以及大型深度数据库,计算速度较慢。专利技术内 ...
【技术保护点】
1.一种基于卷积神经网络的单目深度信息获取方法,其特征在于:方法包括:/n步骤一:图像预处理:对标准图库中带有真实视差值的立体图像对分别做相同的随机变化预处理,得到训练数据和测试数据;/n步骤二:构建训练样本:在预处理训练数据的图像对中,选择两张图像中的多组对应图像块组成训练样本;/n步骤三:构建网络模型:网络模型由L1到L8共8层构成,分成2个部分;第一部分构建两个相同的子网络,L1到L4共四层,每一层的结构都依次由卷积层、归一化层和ReLU激活函数组成;然后在L5层通过一个连接层,将两个子网络提取的特征向量连接为一个张量;第二部分是决策层,L6到L8共三层结构,每层都由全连接层和ReLU激活函数组成,最后一层全连接L8后使用sigmod函数输出结果;/n步骤四:获取待匹配的图像:使用单目摄像机获取视频序列,通过摄像机自标定消除图片畸变,并利用几何校正对齐图片,获得待匹配的图像;/n步骤五:匹配代价计算:将待匹配的图像对输入到训练好的卷积神经网络模型,输出待匹配的图像对的相似度数值,根据相似数确定初始匹配代价;/n步骤六:匹配代价聚合和优化:对初始匹配代价进行带权值的十字交叉聚合处理 ...
【技术特征摘要】
1.一种基于卷积神经网络的单目深度信息获取方法,其特征在于:方法包括:
步骤一:图像预处理:对标准图库中带有真实视差值的立体图像对分别做相同的随机变化预处理,得到训练数据和测试数据;
步骤二:构建训练样本:在预处理训练数据的图像对中,选择两张图像中的多组对应图像块组成训练样本;
步骤三:构建网络模型:网络模型由L1到L8共8层构成,分成2个部分;第一部分构建两个相同的子网络,L1到L4共四层,每一层的结构都依次由卷积层、归一化层和ReLU激活函数组成;然后在L5层通过一个连接层,将两个子网络提取的特征向量连接为一个张量;第二部分是决策层,L6到L8共三层结构,每层都由全连接层和ReLU激活函数组成,最后一层全连接L8后使用sigmod函数输出结果;
步骤四:获取待匹配的图像:使用单目摄像机获取视频序列,通过摄像机自标定消除图片畸变,并利用几何校正对齐图片,获得待匹配的图像;
步骤五:匹配代价计算:将待匹配的图像对输入到训练好的卷积神经网络模型,输出待匹配的图像对的相似度数值,根据相似数确定初始匹配代价;
步骤六:匹配代价聚合和优化:对初始匹配代价进行带权值的十字交叉聚合处理,同时采用半全局算法的优化匹配代价;
步骤七:视差计算:采用WTA在优化后的匹配代价的基础上计算视差;
步骤八:视差优化;在步骤七获得的视差值的基础上,进行优化,获得视差图;
步骤九:计算深度信息:利用步骤八获得的视差图计算单目深度信息。
2.根据权利要求1所述的基于卷积神经网络的单目深度信息获取方法,其特征在于:步骤一中随机变换方式包括旋转rotate、缩放scale、剪切shear、改变亮度bright和改变对比度contrast。
3.根据权利要求1所述的基于卷积神经网络的单目深度信息获取方法,其特征在于:根据步骤二中的训练样本构建训练实例,将训练实例用在步骤三中构造的网络模型中,得到经过训练网络模型。
4.根据权利要求3所述的基于卷积神经网络的单目深度信息获取方法,其特征在于:所述的训练网络模型进行有监督的反向传播算法计算,使用二元交叉熵目标函数表示为公式(1):
其中,N为训练集中的个数,训练集中第i个样本的期望输出为s1时的概率为训练集中第i个样本的实际输出为s2时的概率为
5.根据权利要求1所述的基于卷积神经网络的单目深度信息获取方法,其特征在于:步骤二中,根据已知图像对其中表示左图像中以p(x,y)为中心大小为n×n的图像块,表示右图像中以q为中心的图像块,已知左图中p点的真实视差为d,为p点设置一个正确的匹配实例和一个错误的匹配实例;
为获得正确的训练实例,将右图像块的中心位置q的坐标表示为:
q=(x-...
【专利技术属性】
技术研发人员:魏东,张晨,崔泽璐,樊启明,蒋晓彤,
申请(专利权)人:沈阳工业大学,
类型:发明
国别省市:辽宁;21
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。