基于多尺度密集连接深度可分离网络的人脸表情识别方法技术

技术编号:30767958 阅读:20 留言:0更新日期:2021-11-10 12:31
本发明专利技术公开了基于多尺度密集连接深度可分离网络的人脸表情识别方法,属于图像识别技术领域。本发明专利技术包含以下步骤:构建基于多尺度密集连接深度可分离网络的轻量级表情识别网络;训练表情识别网络模型;将经过预处理后的待识别表情图像输入到训练后的表情识别网络;表情识别网络对表情图像进行自动识别并输出所属类别。本发明专利技术充分利用了密集连接卷积神经网络在大规模图像识别领域内展现的优势,将分组卷积、多尺度深度可分离卷积及通道注意力机制三种思想相结合,通过减少参数量,有效降低了标准卷积运算的复杂度及网络深度,提升了表情识别的准确率,为设备集成与实际应用部署提供了可能性。供了可能性。供了可能性。

【技术实现步骤摘要】
基于多尺度密集连接深度可分离网络的人脸表情识别方法


[0001]本专利技术涉及图像识别
,尤其涉及一种基于多尺度密集连接深度可分离网络的人脸表情识别方法。

技术介绍

[0002]面部表情是人类传达情感状态和意图最普遍自然的途径之一,人脸表情识别在人机交互中扮演着非常重要的角色。
[0003]随着深度学习技术的飞速发展,各种深度学习模型被应用在人脸表情识别的研究中。深度学习技术带来识别效果提升的同时也使得运算需求急剧增加,对模型运行所需要的硬件配置也不断增高,过高的配置需求会极大地阻碍模型的实际应用。因此,表情识别技术除了在提高识别准确率方面需要继续深入研究以外,如何降低模型参数量,使模型能够在性能较低的设备上正常运行也是一个重要的研究方向。如今,如何压缩模型使其足够轻量化便于部署对于表情识别技术在远程教育,医疗监护,安全驾驶,娱乐产业等领域的相关应用也有重要意义。
[0004]近年来,卷积神经网络(CNN)已成为计算机视觉任务中最常用的算法。通过权重共享和下采样,卷积神经网络可以直接从原始图片中学习特征。目前主要有两种增强卷积神经网络学习能力的方式,一种是通过增加梯度下降的有效优化距离增加模型的深度,典型的例子有ResNet,另一种是通过不同大小的卷积核多尺度的提取特征图进而增加模型的宽度,典型的例子有Inception。无论是增加网络深度还是网络宽度,准确率提升的同时都会带来参数量的大量增加。ResNet的成功表明,只要卷积神经网络的深度足够大,模型准确度就可以一直提高。因此,研究人员购买了许多高性能显卡,并构建了更深层的卷积神经网络。然而这些模型只能在比赛中使用,因为它们需要大量时间进行训练,这限制了它们在现实世界中的应用。
[0005]因此,考虑到表情识别实际应用时的硬件成本和实时速度要求,设计了便于部署的轻量级表情识别网络。

技术实现思路

[0006]本专利技术要解决的技术问题是当人脸表情识别技术被实际应用部署到具体项目时,目前的深度学习网络模型参数量大,泛化能力不够,在满足现有硬件设备的情况下,无法达到较高的精度。为此,本专利技术提出一种基于密集连接卷积神经网络的轻量化人脸表情识别模型,在满足现有硬件条件下提高精度,进而降低了模型应用部署时的硬件成本。
[0007]为实现上述目的,本专利技术采用如下的技术方案:
[0008]一种基于多尺度密集连接深度可分离网络的表情识别方法,包含以下步骤:
[0009]步骤1:构建基于人脸表情图像的轻量级表情识别网络;
[0010]所述的轻量级表情识别网络包含特征学习模块和表情分类模块,所述特征学习模块包括依次串联的First Conv模块、第一Dense Block模块、第一Transition Layer模块、
第二Dense Block模块、第二Transition Layer模块、第三Dense Block模块、第三Transition Layer模块、第四Dense Block模块。
[0011]First Conv模块包括依次串联的一个3
×
3卷积层,BN层,激活层和一个平均池化层。
[0012]每个Dense Block模块里包含相互串联的若干个自定义子网络结构Bottleneck Layer。
[0013]Bottleneck Layer包括四个并行的分支结构,在前三个分支里,输入图像首先经过1
×
1卷积层进行降维,然后经过SE模块,接下来依次通过不同规模的分组卷积和可分离卷积;最后一个分支依次包含一层1
×
1卷积层,se模块,一层分组卷积层和最大池化层;将四个分支的输出经过concatenate操作连接后,进行逐点卷积,并最终与Bottleneck Layer的原始输入x连接。
[0014]自定义子网络结构Bottleneck Layer中包含分组卷积,多尺度深度可分离卷积和通道注意力模块。深度可分离卷积大幅度降低参数量和计算量;多分支中各分支引入卷积核大小不同的卷积层,可以得到不同尺度的感受野,最终融合多个尺度的特征,有利于模型对不同尺度特征的学习;深度卷积前加入分组卷积,加强通道间信息交互。最后,在各分支中将通道注意力机制和多尺度融合,有利于整个分支有效信息的高效传播,提高模型的分类精度。
[0015]Transition Layer模块依次包含BN层、激活层,1
×
1卷积层和平均池化层。
[0016]表情分类模块采用Classification模块,包含BN层,池化层和线性全连接层用于进行表情分类。
[0017]进一步地,预处理阶段得到的人脸表情图像输入后,经过First Conv模块,将输入图像变为自定义通道数。然后通过四个串联的Dense Block模块,将增长率设置为12,每个Dense Block模块分别包含3,6,12,8个自定义子结构Bottleneck Layer。相邻Dense Block通过Transition Layer模块进行连接。
[0018]进一步地,每个自定义子结构Bottleneck Layer包含分组卷积,多尺度深度可分离卷积和通道注意力模块SE。深度可分离卷积大幅度降低参数量和计算量;多分支中各分支引入卷积核大小不同的卷积层,可以得到不同尺度的感受野,最终融合多个尺度的特征,有利于模型对不同尺度特征的学习;深度卷积前加入分组卷积,加强通道间信息交互。最后,在各分支中将通道注意力机制SE和多尺度融合,有利于整个分支有效信息的高效传播,提高模型的分类精度。
[0019]进一步地,分类阶段输出端的分类器设计采用了全卷积神经网络的分类策略,以标准卷积层代替全连接层,加快表情识别速度。
[0020]步骤2:训练轻量级表情识别网络模型;
[0021]训练轻量级表情识别网络模型的具体步骤为:获取目前表情识别相关挑战赛认可的公共数据集RAF

DB,FER2013,FERPlus,CK+,对数据集中的训练集进行预处理;将经过预处理的图像输入到轻量级表情识别网络模型进行训练。
[0022]进一步地,对训练数据集中人脸表情进行预处理的具体方法为:对训练集中的图片进行归一化处理;对训练图片进行数据增强(翻转、平移、颜色抖动等)。
[0023]检测到人脸图像后,由于背景,光照,头部姿势等无关因素会对网络训练产生影
响,因此需要先对数据进行预处理。主要包括面部对齐,数据增强和归一化。然后对检测到的人脸图像进行裁剪处理,从裁剪的面部区域提取特征并连在一起形成特征矢量,将特征矢量作为特征学习阶段的输入,最后经过分类阶段得到最终的表情识别结果。
[0024]进一步地,将经过预处理的人脸数据输入到轻量级表情识别网络模型进行训练,在训练网络模型时,优化器为SGD,epoch设置为350、初始学习率为0.01。
[0025]步骤3:将经过预处理后的待识别人脸表情图像输入到训练后的轻量级表情识别模型;...

【技术保护点】

【技术特征摘要】
1.基于多尺度密集连接深度可分离网络的人脸表情识别方法,其特征在于包括以下步骤:步骤1)构建基于多尺度密集连接深度可分离网络的轻量级表情识别网络;步骤2)训练轻量级表情识别网络;步骤3)将经过预处理后的待识别表情图像输入到训练后的轻量级表情识别网络;步骤4)轻量级表情识别网络对表情图像进行自动识别并输出所属类别;其中,所述的轻量级表情识别网络主要包含特征学习模块和表情分类模块,所述特征学习模块包括依次串联的First Conv模块、第一Dense Block模块、第一Transition Layer模块、第二Dense Block模块、第二Transition Layer模块、第三Dense Block模块、第三Transition Layer模块、第四Dense Block模块;First Conv模块包括依次串联的一个3
×
3卷积层,BN层,激活层和一个平均池化层;每个Dense Block模块里包含相互串联的若干个自定义子网络结构Bottleneck Layer;Bottleneck Layer包括四个并行的分支结构,在前三个分支里,输入图像首先经过1
×
1卷积层进行降维,然后经过SE模块,接下来依次通过不同规模的分组卷积和可分离卷积;最后一个分支依次包含一层1
×
1卷积层,SE模块,一层分组卷积层和最大池化层;将四个分支的输出经过concatenate操作连接后,进行逐点卷积,并最终与Bottleneck Layer的原始输入x连接;Transition Layer模块依次包含BN层、激活层,1
×
1卷积层和平均池化层;表情分类模块采用Classification模块,依次包含BN层,池化层和线性全连接层用于进行表情分类。2.根据权利要求1所述的基于多尺度密集连接深度可分离网络的人脸表情识别方法,其特征在于,第一至第四Dense Block模块分别包含3,6,12,8个Bottleneck Layer。3.根据权利要求1所述的基于多尺度密集连接深度可分离网络的人脸表情识别方法,其特征在于,Bottleneck Layer中前三个分支结构...

【专利技术属性】
技术研发人员:贾克斌吴亚娜孙中华
申请(专利权)人:北京工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1