基于注意力调制上下文空间信息的表情识别方法技术

技术编号：34176341 阅读：56 留言：0更新日期：2022-07-17 12:00

本发明专利技术公开了一种基于注意力调制上下文空间信息的表情识别方法，具体步骤为：S1：获取待训练的自然场景人脸表情图像公共数据集，对人脸表情图像进行预处理；S2：构建用于自然场景人脸表情识别的注意力调制上下文空间信息网络模型；S3：利用预处理过的人脸表情图像对上下文空间信息(ACSI)网络模型进行训练；S4：重复步骤S3的模型训练，直至达到设定的训练次数，得到训练后的深度残差网络模型，利用训练后的深度残差网络模型进行人脸表情识别。上下文卷积和协调注意力的联合可以显著提高表情识别性能。在公开的表情数据集上，与同类的算法相比，ACSI具有更高的识别性能。ACSI具有更高的识别性能。ACSI具有更高的识别性能。

Expression recognition method based on attention modulated contextual spatial information

全部详细技术资料下载

【技术实现步骤摘要】
基于注意力调制上下文空间信息的表情识别方法

[0001]本专利技术涉及表情自动识别
，涉及一种表情识别算法，具体涉及一种基于注意力调制上下文空间信息的表情识别方法。

技术介绍

[0002]面部表情具有丰富的特征信息，人脸表情识别在人机交互、心理健康评估等方面得到了广泛的应用。传统的表情识别方法可以分为两类，一类是基于面部动作单元(Action Unit,AU)的表情识别方法，通常将人脸表情识别(Facial Expression Recognition,FER)任务转化为AU检测任务，AU是与表情相关的微小但可辨别的肌肉动作，然而使用该方法难以检测人脸的局部变化，而且光照或姿势变化等因素也会降低AU检测的性能；另一类是通过人工设计特征来表征人脸图像并训练表情分类器来实现表情识别。然而，在自然场景中，受不可控因素的影响，基于人工设计特征的人脸表情识别方法性能有限。近年来，基于深度学习的人脸表情识别成为研究的热点，相关工作已经从受控的实验室场景转向自然场景，并取得了一定的进展。卷积神经网络(Convolutional Neural Network,CNN)是表情识别的主流模型，CNN在表情识别任务中具有很强的泛化性。其后出现了各种改进方法。在这些方法中，一方面，为了解决表情特征不完备的问题，Zhao Z等人设计了一种对称结构来学习残差块中的多尺度特征，在粒度级别上保留人脸表情信息；Li Y等人提出了滑动块(Slide
‑
Patch,SP)，在每个特征图上进行窗口滑动，提取面部表情的全局特征；Fan...

【技术保护点】

【技术特征摘要】
1.一种基于注意力调制上下文空间信息的表情识别方法，其特征在于，具体包括以下步骤：S1：获取待训练的自然场景人脸表情图像公共数据集，对人脸表情图像进行预处理；S2：构建用于自然场景人脸表情识别的注意力调制上下文空间信息网络模型ACSI；S3：利用预处理过的人脸表情图像对上下文空间信息网络模型ACSI进行训练；S4：重复步骤S3的模型训练，直至达到设定的训练次数，得到训练后的深度残差网络模型，利用训练后的深度残差网络模型进行人脸表情识别。2.根据权利要求1所述的基于注意力调制上下文空间信息的表情识别方法，其特征在于，所述步骤S2具体包括以下步骤：S21：利用上下文卷积块替换残差块的中间卷积层，形成上下文卷积残差模块构建上下文卷积残差网络；S22：使用协调注意力构建协调注意力CA模块对所述步骤S21中构建的上下文卷积残差网络CoResNet提取的多尺度特征分配注意力权重以强化特征表征能力。3.根据权利要求2所述的基于注意力调制上下文空间信息的表情识别方法，其特征在于，所述步骤S21具体为：S211：上下文卷积块接收输入特征图M
in
，其在不同层级L＝{1,2,3,...,n}应用具有不同膨胀率的卷积核D＝{d1,d2,d3,...,d
n
}，即level
i
上的卷积核具有膨胀率d
i
,S212：在不同上下文卷积的级别level上，上下文卷积均输出多个特征图对于所有i∈L，每个图具有宽度W
out
和高度H
out
；S213：保持残差结构将层间的相关性结合起来，得到上下文卷积残差模块；S214：根据特征图的尺寸调整每层中上下文卷积块的级别，从而构建上下文卷积残差网络。4.根据权利要求3所述的基于注意力调制上下文空间信息的表情识别方法，其特征在于，所述步骤S21中上下文卷积的可学习参数和浮点运算的数量采用公式(1)和(2)进行计算；params＝M
in
·
K
w
·
K
h
·
M
out
ꢀꢀꢀꢀ
(1)；FLOPs＝M
in
·
K
h
·
K
w
·
M
out
·
W
out
·
H
out
ꢀꢀꢀꢀ
(2)；其中，M
in
和M
out
表示输入和输出特征映射的数量，K
w
和K
h
表示卷积核的宽度和高度，最后，W
out
和H
out
表示输出特征映射的宽度和高度。5.根据权利要求2所述的基于注意力调制上下文空间信息的表情识别方法，其特征在于，所述步骤S22具体为：S221：将CoResNet提取的特征记为X，首先使用尺寸(H,1)和(1,W)的平均池化核沿着水平坐标方向和竖直坐标方向对每个通道进行编码，高度为h的第c个通道的编码输出由公式(3)计算：该公式(3)计算水平坐标方向上高度为h时的第c个通道的编码输出，沿宽度i，对输入
特征进行求和运算；宽度为w的第c个通道的编码输出由公式(4)计算：该公式(4)计算竖直坐标方向上高度为w时的第c个通道的编码输出，沿高度j，0≤j≤H对输入特征进行求和运算；S222：将步骤S221中的两个变换沿着两个空间方向进行特征聚合，返回一对方向感知注意力图；S223：将所述步骤S222中生成的一对方向感知注意力图连接起来，将其送入一个1
×
1的卷积变换函数F中；f＝δ(F([y
h
,y
w
]))
ꢀꢀꢀꢀ
(5)；其中，[，]表示沿着空间维度的拼接操作，δ为非线性的sigmoid激活函数，f∈R
C/r
×
(H+W)
为水平方向和垂直方向对空间信息进行编码的中间特征映射；S224：继续沿着空间维把f分解成两个单独的张量f
h
∈R
C/r
×
H

【专利技术属性】
技术研发人员：朱春华，李雪，周飞，郭歆莹，杨静，杨卫东，许德刚，李智，张闻强，魏蔚，梁义涛，张雪萍，
申请(专利权)人：河南工业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人