一种抗网格效应的人脸深度预测方法技术

技术编号:19122611 阅读:91 留言:0更新日期:2018-10-10 05:27
提供一种抗网格效应的人脸深度预测方法,包括步骤:S1:搭建抗网格效应的卷积神经网络,包括多个空洞卷积,每个空洞卷积串联连接的规范化操作和激励操作,以及多个像素反卷积;S2:建立人脸数据集,其包括训练集和测试集,并设置卷积神经网络的训练参数;S3:对卷积神经网络进行权重初始化,将训练集输入卷积神经网络中,以最小化代价函数为目标来训练神经网络形成人脸图像深度预测神经网络模型;S4:将测试集输入人脸图像深度预测神经网络模型,输出能够反映人脸图像深度信息的图像。本发明专利技术的人脸深度预测方法,能够解决传统卷积神经网络的网格效应,拥有较大的感受域,能够极大地提升人脸深度预测的准确性,有利于进行人脸的三维重建研究。

【技术实现步骤摘要】
一种抗网格效应的人脸深度预测方法
本专利技术涉及计算机视觉与数字图像处理领域,特别涉及一种抗网格效应的人脸深度预测方法
技术介绍
人脸深度预测,是计算机视觉领域一个新颖且富有挑战性的问题。对人脸进行深度预测是理解整个人脸几何关系的重要组成部分。相应的,这样的关系能够很好地反映人脸上的器官以及整个人面部的环境,如果能得到较好的人脸面部深度信息,将会对人脸识别问题提供非常大的帮助,同样地,也有助于构建人脸的3D模型,有利于解决有关人脸的三维重建问题。但是从一张人脸的RGB图片中预测出整个人脸的深度信息本身是一个具有病态性质的问题,因为在将RGB图像的颜色信息映射成深度值的过程中面临诸多的不确定性。为了解决这一问题,一些方法是通过马尔科夫随场来获得深度信息,通过条件随机场来正则化深度图,但是这些方法依赖于图像的水平校准,因而对训练环境比较敏感。近年来,随着卷积神经网络(ConvolutionalNeuralNetworks,CNN)的提出,许多计算机视觉与数字图像处理领域的问题通过使用CNN都取得了非常好的效果。目前,一些基于卷积神经网络进行深度预测的方法被提出,取得了一些较好的结果,但是也存在着一些问题。比如,随着卷积层的不断增加会面临梯度消失从而训练不下去的问题;深层网络的感受野比较小,训练出的深度图精度不是很高,图像较为粗糙。针对深层网络感受野比较小的问题,最近空洞卷积的提出证明了在卷积神经网络训练中加入空洞卷积可以扩大卷积神经网络的感受野从而提升精度。但是空洞卷积存在普遍的网格问题,因为空洞卷积虽然能够扩大感受域,但是其是在卷积核中填充0,形成网格效应,对于空洞率为2的空洞卷积而言,大约会损失75%的信息,随着空洞率的不断增大,局部信息会损失。同样的情况也存在于进行上采样操作的反卷积当中,在进行上采样的过程中由于临近像素之间没有直接联系,产生网格效应,从而影响生成的深度图精度。
技术实现思路
为解决上述技术问题,本专利技术提供一种抗网格效应的人脸深度预测方法。显著地增强了卷积神经网络的学习能力,避免由于网络层数的增加所引起的梯度消失,感受野太小。本专利技术的技术问题通过以下的技术方案予以解决:一种抗网格效应的人脸深度预测方法,包括如下步骤:S1:搭建抗网格效应的卷积神经网络,所述卷积神经网络包括编码网络和解码网络,其中编码网络包括多个空洞卷积,以及每个空洞卷积串联连接的规范化操作和激励操作,所述解码网络包括多个像素反卷积;S2:建立所需的人脸数据集,所述人脸数据集包括训练集和测试集,并且设置所述卷积神经网络的训练参数;S3:对所述卷积神经网络进行权重初始化,将所述训练集输入初始化后的卷积神经网络中,根据所述卷积神经网络及其初始化的权重值,以最小化代价函数为目标来训练所述神经网络形成人脸图像深度预测神经网络模型;S4:将所述测试集输入到所述人脸图像深度预测神经网络模型,输出能够反映人脸图像深度信息的图像。优选地,所述编码网络中的数个空洞卷积依次串联连接,每个空洞卷积的输出端依次串联所述规范化操作和所述激励操作,在最后一个空洞卷积后依次串联多个像素反卷积;所述规范化操作采用BatchNormalization,所述激励操作采用LeakyRelu函数。优选地,所述空洞卷积的数量至少为4个,空洞卷积的空洞率服从锯齿波分布,并逐渐增大。优选地,所述空洞卷积为四个,其空洞率分别为1,2,5,9。优选地,所述步骤S3中的代价函数由正则项和损失项组成,如下:其中,为正则项,为损失项,yi,yi*分别表示所述训练集中的第i张人脸图像经过所述卷积神经网络训练后所得到的像素的深度值,像素的groundtruth值,n表示所述训练集的图像中有深度信息的像素点的个数,λ表示损失项的正则系数。优选地,所述步骤S2中还包括:对人脸数据集中的各RGB图像,生成其的深度信息groundtruth图。优选地,所述卷积神经网络的输入为RGBD四通道的数据;其中D通道的数据的获取方式为:对深度信息groundtruth图进行关键点检测,将这些关键点处的深度保留,其余舍去,所述关键点为人脸的眼睛、嘴巴和鼻子。优选地,所述正则系数λ在(0,1]范围内。优选地,所述步骤S3中对卷积神经网络进行权重初始化采用一维高斯分布,并利用AdamOptimizer方法来最小化所述代价函数。优选地,所述步骤S3中通过不断地最小化代价函数来更新卷积神经网络的权重值,直到代价函数的值不再减小,就停止更新,训练结束。本专利技术与现有技术对比的有益效果包括:本专利技术的抗网格效应的人脸深度预测方法,能够解决卷积神经网络所产生的网格效应,拥有较大的感受域,能够极大地提升人脸深度预测的准确性,有利于进行人脸的三维重建研究。附图说明图1是本专利技术优选实施例的抗网格效应的人脸深度预测方法的流程图;图2是本专利技术优选实施例的抗网格效应的卷积神经网络的内部构造示意图;图3是本专利技术优选实施例的第四通道D数据的生成图;图4是本专利技术优选实施例的像素反卷积的构造流程图;图5是本专利技术优选实施例的实例图结果。具体实施方式下面对照附图并结合优选的实施方式对本专利技术作进一步说明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。如图1所示,本专利技术的优选实施例的抗网格效应的人脸深度预测方法,包括以下步骤:S1:搭建卷积神经网络,所述卷积神经网络包括编码网络和解码网络,其中编码网络包括多个空洞卷积,以及每个空洞卷积串联连接的规范化操作和激励操作,所述解码网络包括多个像素反卷积;其中,较优的是编码网络中的数个空洞卷积依次串联,每个空洞卷积的输出端依次串联规范化操作和激励操作(规范化操作和激励操作未图示),在最后一个空洞卷积后依次串联多个像素反卷积;具体的,前一个空洞卷积的输出端串联连接规范化操作,规范化操作的输出端串联连接激励操作,激励操作的输出端连接后一个空洞卷积的输入端,如此连接,在最后一个空洞卷积的激励操作的输出端之后再依次串联连接多个像素反卷积。其中,规范化操作采用BatchNormalization,激励操作采用LeakyRelu函数,。较优的是,所述空洞卷积的数量至少为4个,针对空洞卷积所产生的网格效应,对于不同的空洞卷积,采用不同的空洞率,空洞卷积的空洞率服从锯齿波分布,并逐渐增大,并采用像素反卷积来消除原始反卷积上采样过程中的网格效应。本专利技术优选实施例的卷积神经网络如图2所示,包括四个3x3的空洞卷积,空洞率如图所示分别为1,2,5,9,每个空洞卷积后都连接有BatchNormalization操作、LeakyRelu激励操作(未图示),还包括四个4x4的像素反卷积。3x3空洞卷积用于提取人脸图像特征,对3x3空洞卷积进行BatchNormalizaion操作可以解决卷积神经网络随着空洞卷积数增多而导致的内部变量偏移问题,从而使得卷积神经网络能够更容易优化,避免陷入局部最优。具体做法可以是:把每一空洞卷积的输入正则化为标准高斯分布,使用LeakyRelu激励函数可以克服普通Relu激励函数在梯度较大情况下产生的神经元死亡现象;使用空洞卷积可以增加卷积神经网络的感受野,为了解决空洞卷积所造成的网格现象,本专利技术的空洞卷积率服从锯齿波分布,空洞率逐渐上升,这样可以获得更多的像素本文档来自技高网
...
一种抗网格效应的人脸深度预测方法

【技术保护点】
1.一种抗网格效应的人脸深度预测方法,其特征在于,包括如下步骤:S1:搭建抗网格效应的卷积神经网络,所述卷积神经网络包括编码网络和解码网络,其中编码网络包括多个空洞卷积,以及每个空洞卷积串联连接的规范化操作和激励操作,所述解码网络包括多个像素反卷积;S2:建立所需的人脸数据集,所述人脸数据集包括训练集和测试集,并且设置所述卷积神经网络的训练参数;S3:对所述卷积神经网络进行权重初始化,将所述训练集输入初始化后的卷积神经网络中,根据所述卷积神经网络及其初始化的权重值,以最小化代价函数为目标来训练所述神经网络形成人脸图像深度预测神经网络模型;S4:将所述测试集输入到所述人脸图像深度预测神经网络模型,输出能够反映人脸图像深度信息的图像。

【技术特征摘要】
1.一种抗网格效应的人脸深度预测方法,其特征在于,包括如下步骤:S1:搭建抗网格效应的卷积神经网络,所述卷积神经网络包括编码网络和解码网络,其中编码网络包括多个空洞卷积,以及每个空洞卷积串联连接的规范化操作和激励操作,所述解码网络包括多个像素反卷积;S2:建立所需的人脸数据集,所述人脸数据集包括训练集和测试集,并且设置所述卷积神经网络的训练参数;S3:对所述卷积神经网络进行权重初始化,将所述训练集输入初始化后的卷积神经网络中,根据所述卷积神经网络及其初始化的权重值,以最小化代价函数为目标来训练所述神经网络形成人脸图像深度预测神经网络模型;S4:将所述测试集输入到所述人脸图像深度预测神经网络模型,输出能够反映人脸图像深度信息的图像。2.如权利要求1所述的人脸深度预测方法,其特征在于:所述编码网络中的数个空洞卷积依次串联连接,每个空洞卷积的输出端依次串联所述规范化操作和所述激励操作,在最后一个空洞卷积后依次串联多个像素反卷积;所述规范化操作采用BatchNormalization,所述激励操作采用LeakyRelu函数。3.如权利要求1所述的人脸深度预测方法,其特征在于:所述空洞卷积的数量至少为4个,空洞卷积的空洞率服从锯齿波分布,并逐渐增大。4.如权利要求3所述的人脸深度预测方法,其特征在于:所述空洞卷积为四个,其空洞率分别为1,2,5,...

【专利技术属性】
技术研发人员:王兴政章书豪王好谦方璐戴琼海
申请(专利权)人:深圳市未来媒体技术研究院清华大学深圳研究生院
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1