基于注意力调制上下文空间信息的表情识别方法技术

技术编号:34176341 阅读:56 留言:0更新日期:2022-07-17 12:00
本发明专利技术公开了一种基于注意力调制上下文空间信息的表情识别方法,具体步骤为:S1:获取待训练的自然场景人脸表情图像公共数据集,对人脸表情图像进行预处理;S2:构建用于自然场景人脸表情识别的注意力调制上下文空间信息网络模型;S3:利用预处理过的人脸表情图像对上下文空间信息(ACSI)网络模型进行训练;S4:重复步骤S3的模型训练,直至达到设定的训练次数,得到训练后的深度残差网络模型,利用训练后的深度残差网络模型进行人脸表情识别。上下文卷积和协调注意力的联合可以显著提高表情识别性能。在公开的表情数据集上,与同类的算法相比,ACSI具有更高的识别性能。ACSI具有更高的识别性能。ACSI具有更高的识别性能。

Expression recognition method based on attention modulated contextual spatial information

【技术实现步骤摘要】
基于注意力调制上下文空间信息的表情识别方法


[0001]本专利技术涉及表情自动识别
,涉及一种表情识别算法,具体涉及一种基于注意力调制上下文空间信息的表情识别方法。

技术介绍

[0002]面部表情具有丰富的特征信息,人脸表情识别在人机交互、心理健康评估等方面得到了广泛的应用。传统的表情识别方法可以分为两类,一类是基于面部动作单元(Action Unit,AU)的表情识别方法,通常将人脸表情识别(Facial Expression Recognition,FER)任务转化为AU检测任务,AU是与表情相关的微小但可辨别的肌肉动作,然而使用该方法难以检测人脸的局部变化,而且光照或姿势变化等因素也会降低AU检测的性能;另一类是通过人工设计特征来表征人脸图像并训练表情分类器来实现表情识别。然而,在自然场景中,受不可控因素的影响,基于人工设计特征的人脸表情识别方法性能有限。近年来,基于深度学习的人脸表情识别成为研究的热点,相关工作已经从受控的实验室场景转向自然场景,并取得了一定的进展。卷积神经网络(Convolutional Neural Network,CNN)是表情识别的主流模型,CNN在表情识别任务中具有很强的泛化性。其后出现了各种改进方法。在这些方法中,一方面,为了解决表情特征不完备的问题,Zhao Z等人设计了一种对称结构来学习残差块中的多尺度特征,在粒度级别上保留人脸表情信息;Li Y等人提出了滑动块(Slide

Patch,SP),在每个特征图上进行窗口滑动,提取面部表情的全局特征;Fan X等人提出了一种分层尺度卷积神经网络(Hierarchical Scale Net,HSNet)用于人脸表情识别,其中添加了膨胀起始块来增强核尺度信息提取。Liang X等人采用双分支网络进行表情识别,其中一个分支利用CNN捕捉局部边缘信息,另一个分支应用视觉Transformer来获得更好的全局表示;毛君宇等人提出使用大小不同的卷积核组成金字塔卷积单元提取表情特征,提高模型的非线性表达能力。然而,上述方法通过增加辅助网络层或采用分支结构的方式来改善所提取表情特征的完备性,另一方面,为了解决表情类间分类边界模糊的问题,Xie S等人提出了一个名为显著表情区域描述(Salient Expressional Region Descriptor,SERD)的模块,突出与表情相关的显著特征,提高特征表征能力;Gera D等人提出一种新的空间通道注意网络(Spatio

Channel Attention Net,SCAN)获得每个通道及每个空间位置的局部和全局注意,在空间和通道维度上处理表情特征,而不是直接进行特征降维压缩;Wang Z等人采用类似于U

Net的体系结构设计了一个注意力分支,用于突出细微的局部表情信息。宋玉琴等在提取多尺度特征之后使用CBAM注意力机制对表情特征进行筛选,提升有效表情特征的表达。上述方法通过增加网络辅助层或使用分支结构的方式来提取更细微的深层人脸表情特征,从而使模型性能得到提升。然而,这些方法忽略了人脸局部区域间潜在的上下文关系,而且复杂的网络结构不利于模型轻量化。
[0003]中国专利文献(申请号:202010537198.2)公开了一种基于深度残差网络的人脸表情识别方法,首先通过深度残差网络模型对放大的人脸表情图像进行多尺度特征提取,然后对提取的特征进行降维压缩处理,将处理后的特征用于表情分类。该方法存在三个缺陷:

在残差网络中使用具有固定感受野的标准卷积核,无法获取广泛的人脸表情信息;

通过降维压缩特征方案去除冗余信息的同时丢失了部分与表情相关的重要信息;

在实验室受控数据集上表现良好,但在非受控数据集上的识别性能有待验证。以上几点致使该方法所提取表情特征的完备性受限,特征的表征能力还有待提高。
[0004]中国专利文献(申请号:202110133950.1)公开了一种基于表征流嵌入网络的动态表情识别方法及系统,在卷积神经网络中嵌入可微分的表征流层从视频序列中提取动态表情特征,并使用空间注意力权重对输出特征进行加权。该方法有两个缺陷:

仅使用了空间注意力,没有从通道维度上进行特征优选;

涉及视频数据的采集和处理,工作步骤复杂,导致操作成本较高。
[0005]现有方法存在以下不足:1)在特征提取阶段,仅考虑人脸表情全局或局部特征,致使特征完备性受限;2)在特征处理阶段,对特征进行降维压缩,导致类间分类边界模糊。

技术实现思路

[0006]本专利技术提供一种基于注意力调制上下文空间信息的表情识别方法,提出了一种新的自然场景人脸表情识别模型,称为注意力调制上下文空间信息(Attention

modulated Contextual Spatial Information,ACSI)模型,利用上下文卷积替换残差网络中的标准卷积,构建上下文卷积残差网络CoResNet18和CoResNet50用于提取多尺度特征,在不增加网络复杂度的情况下获得更细微的表情信息;在CoResNet中的每个残差块内嵌入协调注意力以关注显著特征,增强输入特征图中与表情相关的有用信息和抑制冗余信息,有效降低深层卷积对人脸遮挡和姿势变化的敏感性。
[0007]为了解决上述技术问题,本专利技术采用的技术方案是:该基于注意力调制上下文空间信息的表情识别方法,具体包括以下步骤:
[0008]S1:获取待训练的自然场景人脸表情图像公共数据集,对人脸表情图像进行预处理;
[0009]S2:构建用于自然场景人脸表情识别的注意力调制上下文空间信息网络模型;
[0010]S3:利用预处理过的人脸表情图像对上下文空间信息(ACSI)网络模型进行训练;
[0011]S4:重复步骤S3的模型训练,直至达到设定的训练次数,得到训练后的深度残差网络模型,利用训练后的深度残差网络模型进行人脸表情识别。
[0012]采用上述技术方案,构建了基于注意力调制上下文空间信息的表情识别模型该模型,首先使用具有较低膨胀率的卷积核捕获局部上下文信息,其次使用具有较高膨胀率的卷积核合并全局上下文信息,提取人脸的辨别性局部特征和相关性全局特征,保证表情特征信息的互补性,最后使用协调注意力机制为提取的特征分配注意力权重,增大表情类间特征差异,强化特征表征能力,在AffectNet

7和RAF_DB数据集上进行实验,验证了ACSI模型的有效性,且与同类模型相比,所提模型具有更好的识别性能。
[0013]作为本专利技术的优选技术方案,所述步骤S2具体包括以下步骤:
[0014]S21:利用上下文卷积块替换残差块的中间卷积层,形成上下文卷积残差模块构建上下文卷积残差网络;
[0015]S22:使用协调注意力(Coordinate Attention,CA)构建协调注意力模块对CoResNet提取的多尺度特征分配注意力权重以强化本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于注意力调制上下文空间信息的表情识别方法,其特征在于,具体包括以下步骤:S1:获取待训练的自然场景人脸表情图像公共数据集,对人脸表情图像进行预处理;S2:构建用于自然场景人脸表情识别的注意力调制上下文空间信息网络模型ACSI;S3:利用预处理过的人脸表情图像对上下文空间信息网络模型ACSI进行训练;S4:重复步骤S3的模型训练,直至达到设定的训练次数,得到训练后的深度残差网络模型,利用训练后的深度残差网络模型进行人脸表情识别。2.根据权利要求1所述的基于注意力调制上下文空间信息的表情识别方法,其特征在于,所述步骤S2具体包括以下步骤:S21:利用上下文卷积块替换残差块的中间卷积层,形成上下文卷积残差模块构建上下文卷积残差网络;S22:使用协调注意力构建协调注意力CA模块对所述步骤S21中构建的上下文卷积残差网络CoResNet提取的多尺度特征分配注意力权重以强化特征表征能力。3.根据权利要求2所述的基于注意力调制上下文空间信息的表情识别方法,其特征在于,所述步骤S21具体为:S211:上下文卷积块接收输入特征图M
in
,其在不同层级L={1,2,3,...,n}应用具有不同膨胀率的卷积核D={d1,d2,d3,...,d
n
},即level
i
上的卷积核具有膨胀率d
i
,S212:在不同上下文卷积的级别level上,上下文卷积均输出多个特征图对于所有i∈L,每个图具有宽度W
out
和高度H
out
;S213:保持残差结构将层间的相关性结合起来,得到上下文卷积残差模块;S214:根据特征图的尺寸调整每层中上下文卷积块的级别,从而构建上下文卷积残差网络。4.根据权利要求3所述的基于注意力调制上下文空间信息的表情识别方法,其特征在于,所述步骤S21中上下文卷积的可学习参数和浮点运算的数量采用公式(1)和(2)进行计算;params=M
in
·
K
w
·
K
h
·
M
out
ꢀꢀꢀꢀ
(1);FLOPs=M
in
·
K
h
·
K
w
·
M
out
·
W
out
·
H
out
ꢀꢀꢀꢀ
(2);其中,M
in
和M
out
表示输入和输出特征映射的数量,K
w
和K
h
表示卷积核的宽度和高度,最后,W
out
和H
out
表示输出特征映射的宽度和高度。5.根据权利要求2所述的基于注意力调制上下文空间信息的表情识别方法,其特征在于,所述步骤S22具体为:S221:将CoResNet提取的特征记为X,首先使用尺寸(H,1)和(1,W)的平均池化核沿着水平坐标方向和竖直坐标方向对每个通道进行编码,高度为h的第c个通道的编码输出由公式(3)计算:该公式(3)计算水平坐标方向上高度为h时的第c个通道的编码输出,沿宽度i,对输入
特征进行求和运算;宽度为w的第c个通道的编码输出由公式(4)计算:该公式(4)计算竖直坐标方向上高度为w时的第c个通道的编码输出,沿高度j,0≤j≤H对输入特征进行求和运算;S222:将步骤S221中的两个变换沿着两个空间方向进行特征聚合,返回一对方向感知注意力图;S223:将所述步骤S222中生成的一对方向感知注意力图连接起来,将其送入一个1
×
1的卷积变换函数F中;f=δ(F([y
h
,y
w
]))
ꢀꢀꢀꢀ
(5);其中,[,]表示沿着空间维度的拼接操作,δ为非线性的sigmoid激活函数,f∈R
C/r
×
(H+W)
为水平方向和垂直方向对空间信息进行编码的中间特征映射;S224:继续沿着空间维把f分解成两个单独的张量f
h
∈R
C/r
×
H

【专利技术属性】
技术研发人员:朱春华李雪周飞郭歆莹杨静杨卫东许德刚李智张闻强魏蔚梁义涛张雪萍
申请(专利权)人:河南工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1