一种基于卷积宽度网络的人脸检测和识别方法技术

技术编号:33147712 阅读:58 留言:0更新日期:2022-04-22 14:00
本发明专利技术公开了一种基于卷积宽度网络的人脸检测和识别方法,包括以下步骤:S1、使用摄像头采集视频并按一定频率截取视频帧;S2、使用深度网络MTCNN对视频帧进行人脸检测;S3、将检测到的人脸区域输入到卷积宽度人脸识别网络,并输出最终通用的人脸特征;S4、将获得的人脸特征与现有人员库中的人员特征进行对比,并根据阈值输出人脸识别结果。本发明专利技术将深度学习与宽度学习相结合,并用于人脸检测识别,解决了现有方法中参数量大,资源消耗大,训练时间长的问题,能够满足部署中实时性的要求。能够满足部署中实时性的要求。能够满足部署中实时性的要求。

【技术实现步骤摘要】
一种基于卷积宽度网络的人脸检测和识别方法


[0001]本专利技术属于人脸检测识别
,具体涉及一种基于卷积宽度网络的人脸检测和识别方法。

技术介绍

[0002]随着科技和成像技术的发展,人工智能已经涉及到人类生活的方方面面,人脸检测和识别就是一个重要的场景。由于其卓越的学习表征和识别性能,深度学习在人脸检测识别中的研究越来越广泛。Pang等人提出的基于级联残差网络的人脸检测方法在双目立体匹配中表现出最高精度。此外,Faster

RCNN也在人脸检测上取得了不错的效果,同时缩短了学习时间。还有Zhang等人设计的三层级联网络,其准确率超过了92%等。虽然目前的方法在人脸检测识别上表现优异,但是都是基于深度神经网络的,他们的参数量大,资源消耗大,训练时间长。部署在资源受限的设备中时,很难达到实时性的要求。

技术实现思路

[0003]本专利技术的主要目的在于克服现有技术的缺点与不足,提供一种基于卷积宽度网络的人脸检测和识别方法,该方法在保证人脸检测识别的精度的同时,解决了深度学习中参数量大,时间消耗长的问题,能达到实时性的要求。
[0004]为了达到上述目的,本专利技术采用以下技术方案:
[0005]一种基于卷积宽度网络的人脸检测和识别方法,包括以下步骤:
[0006]S1、使用摄像头采集视频并按一定频率截取视频帧;
[0007]S2、使用深度网络MTCNN对视频帧进行人脸检测;
[0008]S3、将检测到的人脸区域输入到卷积宽度人脸识别网络,并输出最终通用的人脸特征;
[0009]S4、将获得的人脸特征与现有人员库中的人脸特征进行对比,计算与人员库中每个人脸特征的差异值,并根据设定阈值输出人脸识别结果。
[0010]进一步的,深度网络MTCNN包括三个级联子网络,分别为P

Net、R

Net以及Q

Net。
[0011]进一步的,P

Net具体结构为:
[0012]P

Net网络输入为12
×
12
×
3的图像,中间具有3个3
×
3的卷积,网络第一部分输出是判断该12
×
12图像是否存在人脸,输出向量大小1
×1×
2;网络第二部分输出当前人脸框位置相对完美的人脸框位置的偏移,输出向量为1
×1×
4,表示左上角的横坐标的相对偏移,框左上角的纵坐标的相对偏移、框的宽度的误差以及框的高度的误差;网络第三部分输出人脸的5个特征点的位置,分别对应左右眼位置、鼻子位置以及左右嘴巴位置,每个特征点需要两维来表示,因此输出是向量大小为1
×1×
10。
[0013]进一步的,R

Net具体为:
[0014]R

Net网络输入为24
×
24
×
3的图像,包括3个卷积,大小分别为3
×
3、3
×
3以及2
×
2,3个卷积后接一个全连接层,其输出和P

Net输出相同,包含三部分:1
×1×
2的向量表示
是否存在人脸,1
×1×
4的向量表示人脸框位置偏移信息和1
×1×
10的向量表示5个人脸特征位置。
[0015]进一步的,Q

Net具体结构为:
[0016]Q

Net网络输入为48
×
48
×
3的图像,包括4个卷积,大小分别为3
×
3、3
×
3、3
×
3以及2
×
2,4个卷积后接一个全连接层,其输出边界框的坐标信息和特征点信息。
[0017]进一步的,步骤S2中,使用深度网络MTCNN对视频帧进行人脸检测具体为:
[0018]将图像进行不同尺度的变换,构建图像金字塔以适应不同尺度的人脸;
[0019]在P

Net中通过一个人脸分类器判断该区域是否是人脸,同时使用边框回归和一个面部关键点的定位器来进行人脸区域的初步提议,该部分最终将输出多张可能存在人脸的人脸区域,并将这些区域输入R

Net进行进一步处理;
[0020]在R

Net中,对输入进行细化选择,并且舍去错误输入,再次使用边框回归和面部关键点定位器进行人脸区域的边框回归和关键点定位,最后输出可信的人脸区域;
[0021]Q

Net继续进行人脸判别、人脸区域边框回归和人脸特征定位,最终输出人脸区域的坐标信息与人脸区域的五个特征点。
[0022]进一步的,步骤S3中,卷积宽度人脸识别网络具体包括:
[0023]S31、初始化卷积宽度网络参数,模型参数包括映射特征组个数n、组内特征个数k以及增强节点个数m,每种特征对应的卷积核Kernel;
[0024]S32、使用随机卷积核初始化宽度学习中的映射特征节点组;利用模型输入K,使用随机初始化的卷积核Kernel
k
(θ1)计算特征映射节点Z
n
≡[Z1,Z2,

,Z
n
],其中第i组映射特征Z
i
的计算如公式(1),每一组特征包含k个映射特征;
[0025]Z
i
=X*Kernel
k
(θ1),i=1,2,

,n
ꢀꢀ
(1)
[0026]S33、由映射节点Z
n
使用随机初始化的卷积核Kernel
m
(θ2)计算增强节点H
m
≡[H1,H2,

,H
m
],其中增强特征H
j
的计算如公式(2):
[0027]H
j
≡Z
n
*Kernel
m
(θ2),j=1,2,

,m
ꢀꢀ
(2)
[0028]S34、将映射特征和增强节点特征合并成特征层A=α[Z|H],连接到模型输出层Y,特征层和输出层的连接权重为W;其中α是一个向量,所有元素和为1;真实输出Y和特征层A的关系如公式(3):
[0029]Y=WA
ꢀꢀ
(3)
[0030]S35、使用批量梯度下降算法对其参数进行优化,包括最后一层连接权重和特征层卷积核,直到达到停止条件;若卷积宽度网络的损失函数为公式(4)
[0031][0032]其中,N表示数据的个数,z
i
是第i个数据对应的预测输出;
[0033]对公式(4)所表示的损失函数求偏本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于卷积宽度网络的人脸检测和识别方法,其特征在于,包括以下步骤:S1、使用摄像头采集视频并按一定频率截取视频帧;S2、使用深度网络MTCNN对视频帧进行人脸检测;S3、将检测到的人脸区域输入到卷积宽度人脸识别网络,并输出最终通用的人脸特征;S4、将获得的人脸特征与现有人员库中的人脸特征进行对比,计算与人员库中每个人脸特征的差异值,并根据设定阈值输出人脸识别结果。2.根据权利要求1所述的一种基于卷积宽度网络的人脸检测和识别方法,其特征在于,深度网络MTCNN包括三个级联子网络,分别为P

Net、R

Net以及Q

Net。3.根据权利要求2所述的一种基于卷积宽度网络的人脸检测和识别方法,其特征在于,P

Net具体结构为:P

Net网络输入为12
×
12
×
3的图像,中间具有3个3
×
3的卷积,网络第一部分输出是判断该12
×
12图像是否存在人脸,输出向量大小1
×1×
2;网络第二部分输出当前人脸框位置相对完美的人脸框位置的偏移,输出向量为1
×1×
4,表示左上角的横坐标的相对偏移,框左上角的纵坐标的相对偏移、框的宽度的误差以及框的高度的误差;网络第三部分输出人脸的5个特征点的位置,分别对应左右眼位置、鼻子位置以及左右嘴巴位置,每个特征点需要两维来表示,因此输出是向量大小为1
×1×
10。4.根据权利要求2所述的一种基于卷积宽度网络的人脸检测和识别方法,其特征在于,R

Net具体为:R

Net网络输入为24
×
24
×
3的图像,包括3个卷积,大小分别为3
×
3、3
×
3以及2
×
2,3个卷积后接一个全连接层,其输出和P

Net输出相同,包含三部分:1
×1×
2的向量表示是否存在人脸,1
×1×
4的向量表示人脸框位置偏移信息和1
×1×
10的向量表示5个人脸特征位置。5.根据权利要求2所述的一种基于卷积宽度网络的人脸检测和识别方法,其特征在于,Q

Net具体结构为:Q

Net网络输入为48
×
48
×
3的图像,包括4个卷积,大小分别为3
×
3、3
×
3、3
×
3以及2
×
2,4个卷积后接一个全连接层,其输出边界框的坐标信息和特征点信息。6.根据权利要求2所述的一种基于卷积宽度网络的人脸检测和识别方法,其特征在于,步骤S2中,使用深度网络MTCNN对视频帧进行人脸检测具体为:将图像进行不同尺度的变换,构建图像金字塔以适应不同尺度的人脸;在P

Net中通过一个人脸...

【专利技术属性】
技术研发人员:陈俊龙郭继凤冯绮颖刘竹琳张通
申请(专利权)人:华南理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1