本申请提供了一种基于全卷积网络人脸五官定位与判别方法及系统,其中该方法具体包括:收集人脸图片并对人脸五官进行标注,形成一个训练数据集合;设计一个全卷积神经网络;利用训练数据集合对全卷积神经网络进行训练;利用已经训练好的全卷积神经网络,对人脸图片进行五官定位和标注。本申请通过全卷积网络进行图像分割的方式,能够得到输入人脸每一点的预测类别,从而能够得到精确的五官位置,避免了基于人脸关键点的关键点不足以及关键点不够稳定的问题。
【技术实现步骤摘要】
本专利技术涉及图像处理的人脸识别领域,具体涉及一种基于全卷积网络人脸五官定位与判别的方法及系统。
技术介绍
人脸作为人体的一个重要生物特征,近几年在图像处理,视觉技术,信息安全等领域有着越来越重要的作用。而人脸中,五官的判别与定位技术是人脸识别,人脸跟踪等应用的基础。现有的人脸五官定位技术主要通过预测一些预先设计的关键点,如眼角、眉梢、嘴角等实现。一般常见的人脸关键点个数为每张人脸21个关键点。而这种基于人脸关键点定位的方式由于关键点位置少,识别准确度和精度都不高,对于一些需要细节的应用,如美图、定妆等图像处理应用,则很难满足要求。目前,利用人脸关键点定位的方式,为了达到美妆级别的精度,通常的做法是增加预测的关键点的数目,如将关键点个数增加为68个或106个。但该方法会遇到如下问题:1)增多的人脸关键点的标注数据仍不够多;2)68点或106点仍没有完全覆盖五官的边界,从关键点生成的五官区域通常是多边形,形状并不准确,依然难以达到美妆等应用的精度需求;3)人脸关键点会在边界上有小范围移动偏差(如眼睛中间的一点可能在前帧偏左,而后帧偏右),导致视频上的结果会有抖动。
技术实现思路
为了解决现有技术中,人脸五官识别的准确度和精度不高,无法满足多细节且高精度的应用需求的问题,本专利技术提出了一种基于全卷积网络人脸五官定位与判别的方法和系统。该基于全卷积网络的人脸五官定位方法,包括:步骤11:收集人脸图片并对人脸五官进行标注,形成一个训练数据集合;步骤12:设计一个全卷积神经网络;步骤13:利用步骤11中的训练数据集合对步骤12中设计的全卷积神经网络进行训练;步骤14:利用步骤13已经训练好的全卷积神经网络,对人脸图片进行五官定位和标注。该基于全卷积网络的人脸五官定位系统,包括:收集标注模块,收集人脸图片并对人脸五官进行标注,形成一个训练数据集合;神经网络设计模块,用于设计一个全卷积神经网络;神经网络训练模块,用于利用收集标注模块中的训练数据集合对神经网络设计模块中设计的全卷积神经网络进行训练;五官定位标注模块,利用神经网络训练模块中的已经训练好的全卷积神经网络,对人脸图片进行五官定位和标注。本专利技术的基于全卷积网络的人脸五官定位方法与现有的基于人脸关键点定位的五官定位方法相比,本专利技术能够得到输入人脸图像每个像素点的类别,从而实现高精度的人脸五官识别,彻底解决了现有技术中关键点个数不足,生成的五官定位形状不准确,精度不高等问题。本专利技术通过全卷积网络进行图像分割的方式,能够得到输入人脸每一点的预测类另IJ,从而能够得到精确的五官位置,避免了基于人脸关键点的关键点不足以及关键点不够稳定的问题。和公知的全卷积神经网络相比,本专利技术通过在卷积层之后增加两层反卷积层,将输出放大到与输入图片同样的大小。具体的,在第9层卷积化层之后,特征大小仅为原图的1/16,直接输出结果无法达到像素级别的精度。而通过之后的三层反卷积层,我们能够得到的输出具有像素级别精度的结果。通过学习反卷积的权重大小能够更好的得到更适宜的放大参数。利用该神经网络的分类结果如图3所示。【附图说明】图1是基于全卷积网络人脸五官定位与判别方法的流程图;图2是全卷积网络的分层结构示意图;图3是基于全卷积网络人脸五官定位与判别方法的结果示意图;图4是基于全卷积网络人脸五官定位与判别系统的整体框架图。【具体实施方式】下面结合附图1-3和【具体实施方式】,对本申请中的基于全卷积网络人脸五官定位与判别方法做进一步详细的说明。参见附图1所示,所述人脸五官定位与判别方法,包括如下步骤:步骤11:收集人脸图片并对人脸五官进行标注,形成一个训练数据集合。针对收集的人脸图片,手工标注五官类别。五官类别包括但不限于,脸部,左眼,右目艮,左眉,右眉,鼻子,上嘴唇,下嘴唇,嘴中部,舌部,及背景。为了获得更好的训练效果,优选的,手工标注为像素级别标注。针对收集的人脸图片,按照像素进行五官类别的标注,针对边界区域,按照最可能的归属类别进行标注。此外,优选的,收集的人脸图片可以具有多样性,可以包括人脸的正面图片,侧面图片,五官信息完全的图片,或只有部分五官信息的图片,图片清晰或者模糊但是五官仍然可以识别的图片。但五官很小或非常模糊的图片不包含在训练数据集合中。优选的,在标注五官前,先预处理收集的人脸图片。预处理操作具体包括:步骤10:截取训练数据集合的人脸图片中的人脸区域,去掉多余的背景区域,并对人脸进行转正、对齐。因为不同的人脸照片,具有不同的姿态。为了使得训练效果更好,可以利用自适应增强分类器(AdaBoost分类器)或者传统深度学习的人脸检测算法检测人脸和人脸关键点。所述人脸关键点包括眼角、眉毛的末端、嘴角、鼻尖等位置信息。根据检测的人脸关键点,计算一个该人脸到标准人脸的仿射或者相似变换,把该人脸与标准人脸对齐。步骤12:设计一个全卷积神经网络。该全卷积神经网络的前端可以是任何多个卷积层(convolut1nal layer)和池化层(pooling layer)的组合,后端是多个反卷积层(deconvolut1n layer)的组合,最后为softmax或其他等效损耗层。该神经网络的具体层结构如附图2所示。在一个优选的实施例中,该全卷积神经网络的结构如下:第一层,卷积层,卷积核大小为3x3,步长stride为2 ;第二层,最大池化层(Max pooling),池化区间为2x2,步长stride为2 ;第三层,卷积层,卷积核大小为3x3,步长Stride为1 ;第四层,最大池化层(Max pooling),池化区间为2x2,步长stride为2 ;第五层,卷积层,卷积核大小为3x3,步长Stride为1 ;第六层,最大池化层(Max pooling),池化区间为2x2,步长stride为2 ;第七层,卷积层,卷积核大小为3x3,步长stride为1 ;第八层,卷积层,卷积核大小为3x3,步长stride为1 ;第九层,卷积层,卷积核大小为3x3,步长stride为1 ;第十层,反卷积层,卷积核大小为6x6,步长stride为4 ;第^^一层,反卷积层,卷积核大小为6x6,步长stride为4 ;第十二层,反卷积层,卷积核大小为6x6,步长stride为1。在上述全卷积神经网络中,每个卷积层和反卷积层之后都有一个非线性响应单元。卷积层的输入是经过预处理的图像或者图像特征,通过一线性变换输出新的图像特征。池化层主要将多个数值映射到一个数值,该层连接在卷积层后面,用于进一步加强学习到的图像特征的非线性,增强学习的特征的平移不变性。该非线性响应单元采用纠正线性单元ReLU(Rectified Linear Units),在卷积层和反卷积层后增加上述纠正线性单元,主要用于将卷积层和反卷积层的映射结果尽量稀疏一些,更接近人的视觉反应,从而使图像处理效果更好。将卷积层的卷积核设为3x3,能更好的综合局部信息。设定卷积层和最大池化层(Max pooling)的步长stride,目的是为了让上层特征在不当前第1页1 2 3 本文档来自技高网...
【技术保护点】
一种基于全卷积网络人脸五官定位与判别方法,该方法包括如下步骤:步骤11:收集人脸图片并对人脸五官进行标注,形成一个训练数据集合;步骤12:设计一个全卷积神经网络;步骤13:利用步骤11中的训练数据集合对步骤12中设计的全卷积神经网络进行训练;步骤14:利用步骤13已经训练好的全卷积神经网络,对人脸图片进行五官定位和标注。
【技术特征摘要】
【专利技术属性】
技术研发人员:石建萍,梁继,隋凌志,
申请(专利权)人:北京市商汤科技开发有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。