一种基于多尺度CNN和连续CRF的单目图像深度估计方法技术

技术编号:14234212 阅读:98 留言:0更新日期:2016-12-21 02:50
本发明专利技术公开了一种基于多尺度CNN和连续CRF的单目图像深度估计方法,其利用CRF模型根据DCNN的输出深度图计算单点势能,根据输入RGB图像计算成对稀疏势能,最后用MAP(最大化后验概率)算法推导出优化的深度图。本发明专利技术结合了多尺度CNN和连续CRF优化思想,不仅能够以较高的精确度估计出深度图,又能使得到的深度图轮廓清晰;本发明专利技术所估计的深度有比较高的分辨率,而且所得到的深度图能保留场景中所有对象的深度细节信息,具有更好的视觉效果。

A monocular image depth estimation method based on multi scale CNN and continuous CRF

The invention discloses a method for depth estimation based on monocular image multi-scale CNN and continuous CRF, using the CRF model to calculate the single point energy output according to the depth map of DCNN, calculated according to the input image sparse pairwise potential RGB, and finally MAP (maximum a posteriori) algorithm is derived to optimize the depth map. The invention combines multi scale CNN and continuous CRF optimization, not only can get high accuracy to estimate the depth map, and can make the depth map contour clear; a relatively high resolution of the invention estimates the depth, the depth map and the retention in depth details of the scene objects. Has better visual effect.

【技术实现步骤摘要】

本专利技术属于三维图像深度估计
,具体涉及一种基于多尺度CNN和连续CRF的单目图像深度估计方法
技术介绍
视频编辑过程中通常需要创建场景的三维模型来保证编辑的时空一致性,而从二维视频创建场景的三维模型则需要有该场景的深度信息。3D电影和3D电视能给观众带来身临其景的真实感,传统的3D视频通常通过多台摄像机从不同角度同步拍摄视频并制作得到,然而这种3D视频的同步处理和制作成本高昂、费时费力。最近几年来,许多研究人员寻求通过已有的3D模型库、深度估计技术从单视频序列来制作生成3D视频的方法,并取得了一定的成果。将2D视频转成3D视频过程中很重要的一步是从2D视频序列中估计出深度图,得到深度信息之后既可以生成3D模型并投影得到另一视角的视频序列,也可以根据双目视差原理直接计算得到另一视角的视图。目前深度信息的获取可通过硬件和软件两种途径。硬件获取深度信息的设备有激光测距仪和微软推出的3D体感摄像仪Kinect等,但激光测距仪价格昂贵,不利于推广;Kinect虽然价格亲民,但最大检测距离不超过5米,且感知精度受光线和背景物体影响较大,对透明、镜面反光等物体无法正确测距。软件方法常见的主要有多视图立体法(multi-view stereo)、光度立体视觉法(photometric stereo)、色度成形法(shape from shading)、散焦推断法(depth from defocus)以及基于机器学习的方法等。根据多视图几何原理,对于一个静止的场景,如果我们从不同位置拍摄了多幅图像,而且不同图像之间有公共内容,那么理论上就能从这些图像自动地恢复出摄像机的内外参数以及场景的三维信息。如果仅考虑两幅图像之间的立体匹配,就转化成了双视图立体匹配。光度立体技术是一种基于光照模型的三维重建算法,最早由加拿大不列颠哥伦比亚大学的Woodham提出,利用物体在不同光照条件下的图像序列估计出物体的表面法向图,并利用线积分等技术获得最终的表面模型。光度立体计算法还被用于优化其他方法获得的初始3D模型以获得更为精确的几何结构。如果光度立体计算法的图像序列的数目减少至单张,此技术则演变为色度成形法。相机在拍摄时会聚焦到某个物体上,在焦平面外的物体会或多或少显得模糊,其模糊的程度与其深度有关,根据其模糊程度来估计深度的方法称为散焦推断深度法。基于散焦法有许多改进的方法,如双焦平面法和编码光圈法等。人类之所以能准确感知到所见场景的深度信息,除了依赖于视觉系统的双目视差进行感知外,还很大程度上依赖于在平时生活中积累的对所见物体的先验知识。机器学习的方法则是模仿了人类的这一学习过程,也是对单目图像进行深度估计用得最多的方法。美国斯坦福大学的Saxena等人提出采用基于监督学习的算法来获取场景的三维结构。Liu等改进了Saxena等人的方法,先对给定图像进行语义分割,并用这些语义分割的结果作为约束,再用MRF(马尔可夫随机场)来推断出深度信息,改进的方法比之前的方法有显著的性能提升。近年来,深度学习框架被广泛应用在自动语音识别、图像识别、自然语言处理、药物发现与毒理学、客户关系管理、生物信息学等诸多领域。作为一种高性能的机器学习框架,深度学习方法也被应用到了单目图像自动深度估计中。Eigen等首先用多尺度卷积神经网络(CNN)实现了一种端到端的单目图像深度估计,然而因为输出的结果尺寸受限,预测得到深度图比输入的原图像要小很多,长和宽都只有原图的1/16;后来,Eigen和Fergus对网络结构进行了改进,先对原来实现的CNN的输出进行上采样,再与原输入图像的卷积的结果连接后,进一步用多个卷积层处理,使得神经网络更深,而最后的输出深度图的分辨率更高。Fayao Liu等也使用了深度卷积神经网络来从单目图像预测深度信息,然而他们设计的CNN只用来预测单个深度值,该深度值代表了图像中一个超像素的深度值。他们的框架中还集成了基于超像素的连续条件随机场(CRF)来进一步优化预测的深度,使其输出结果更可靠。基于超像素的方法可以获得跟原始输入图像一样大小的深度图,有更清晰的轮廓,然而因其CNN的推导是基于局部信息的,各项评估数据表明其准确程度逊于Eigen和Fergus的方法。
技术实现思路
由于深度卷积神经网络(DCNN)的不变性对其完成高级任务非常有利,但其输出因为不够局部化而导致预测结果丢失细节;为了克服DCNN这一缺点,本专利技术提供了一种基于多尺度CNN和连续CRF的单目图像深度估计方法,包括如下步骤:(1)获取足够数量的样本图像,并对样本图像依次进行数据增强操作以及归一化处理;(2)根据步骤(1)中归一化后的样本图像分两个阶段训练DCNN,DCNN共包括三个栈,前两个栈通过第一阶段训练完成,第三个栈通过第二阶段训练完成;(3)对于待估计深度的输入图像I,根据DCNN的输出建立关于输入图像I及其深度图Y的条件概率分布函数P(Y|I): P ( Y | I ) = 1 Z ( I ) exp ( - E ( Y , I ) ) ]]> Z ( I ) = ∫ Y exp ( - E ( Y , I ) ) d Y ]]> E ( Y , I ) = Σ i ( z i - y i ) 本文档来自技高网
...
一种基于多尺度CNN和连续CRF的单目图像深度估计方法

【技术保护点】
一种基于多尺度CNN和连续CRF的单目图像深度估计方法,包括如下步骤:(1)获取足够数量的样本图像,并对样本图像依次进行数据增强操作以及归一化处理;(2)根据步骤(1)中归一化后的样本图像分两个阶段训练DCNN,DCNN共包括三个栈,前两个栈通过第一阶段训练完成,第三个栈通过第二阶段训练完成;(3)对于待估计深度的输入图像I,根据DCNN的输出建立关于输入图像I及其深度图Y的条件概率分布函数P(Y|I):P(Y|I)=1Z(I)exp(-E(Y,I))]]>Z(I)=∫Y exp(‑E(Y,I)dYE(Y,I)=Σi(zi-yi)2+Σij(yi-yj)2[wij1exp(-||pi-pj||22σij12-||ci-cj||22σij22)+wij2exp(-||pi-pj||22σij32)]]]>其中:Z(I)为输入图像I对应的配分函数,E(Y,I)为关于输入图像I及其深度图Y的能量函数,zi为第i个有效像素预测的对数深度值,yi和yj分别为第i个有效像素和第j个有效像素实际的对数深度值,pi和pj分别为第i个有效像素和第j个有效像素的坐标值,ci和cj分别为第i个有效像素和第j个有效像素的LAB颜色值,wij1、wij2、σij1、σij2和σij3均为CRF模型参数,i和j均为自然数且1≤i≤N,1≤j≤N,N为有效像素的总数;然后对函数P(Y|I)进行最大化求解,进而将求解得到的深度图从对数空间转换回线性空间即可获得具有较高精确度且保留了物体轮廓细节信息的深度图。...

【技术特征摘要】
1.一种基于多尺度CNN和连续CRF的单目图像深度估计方法,包括如下步骤:(1)获取足够数量的样本图像,并对样本图像依次进行数据增强操作以及归一化处理;(2)根据步骤(1)中归一化后的样本图像分两个阶段训练DCNN,DCNN共包括三个栈,前两个栈通过第一阶段训练完成,第三个栈通过第二阶段训练完成;(3)对于待估计深度的输入图像I,根据DCNN的输出建立关于输入图像I及其深度图Y的条件概率分布函数P(Y|I): P ( Y | I ) = 1 Z ( I ) exp ( - E ( Y , I ) ) ]]>Z(I)=∫Y exp(-E(Y,I)dY E ( Y , I ) = Σ i ( z i - y i ) 2 + Σ i j ( y i - y j ) 2 [ w i j 1 exp ( - | | p i - p j | | 2 2 σ i j 1 2 - | | c i - c j | | 2 2 σ i j 2 2 ) + w i ...

【专利技术属性】
技术研发人员:竺乐庆王勋王慧燕
申请(专利权)人:浙江工商大学
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1