一种基于注意力机制的面部情感识别方法技术

技术编号:32640238 阅读:35 留言:0更新日期:2022-03-12 18:16
本发明专利技术公开了一种基于注意力机制的面部情感识别方法,首先采集图像,并将图像分为训练样本集和测试样本集;然后读取训练样本集中每个样本图像原始情感标注值,并将训练样本集中每个样本图像送入多任务卷积神经网络中,得到输出特征;将预处理后得到的输出特征输入到残差注意力网络中得到注意力输出特征图;将输出特征图分别送入转换器Transformer和非局部神经网络中学习,从而得到输出特征;采用两阶段多任务学习网络训练一个分类器,从而可以将测试样本的深度特征通过分类器产生维度空间的情感状态值。本发明专利技术解决了现有的基于注意力机制的面部情感识别方法缺乏对特征图之间依赖关系和特征图内特征的空间位置依赖关系同时进行建模学习的问题。时进行建模学习的问题。时进行建模学习的问题。

【技术实现步骤摘要】
一种基于注意力机制的面部情感识别方法


[0001]本专利技术属于模式识别
,具体涉及一种基于注意力机制的面部情感识别方法。

技术介绍

[0002]近些年随着社会的不断发展以及各方面对于快速有效的自动情感识别的迫切需要,生物特征识别技术在近十几年中得到了飞速的发展。在现实生活中,为了正常的社会交流和需求,人们之间需要进行必要的情感识别,以判断对方的情绪做出正确的行为回应。
[0003]早在1981年,Aaron Sloman就提出了关于人工智能情感的研究。1985年,人工智能的奠基人之一Marvin Minsky提出计算机和情感的问题。1995年,MIT媒体实验室的Rosalind W.Picard正式提出情感计算的概念,并于1997年在《情感计算》中定义“情感计算”为“与情感有关、由情感引发或者能够影响情感因素的计算”。
[0004]情感识别作为识别领域的重要分支之一,近些年一直是广大学者的重点研究对象。对于静态人脸图像,在传统的识别方法中,研究者通常人为地提取情感特征(例如基于Dlib的68特征点),然后送入预先设计好的分类器进行分类(SVM、决策树、随机森林等),得到最终的情感预测结果。然而,这种方法在实际操作中,需要利用丰厚的经验去人工地选择合适的情感特征,并且往往需要耗费大量的时间和精力。而且,不同的特征对最终的结果贡献度不同,传统的方法并没有对其进行很好的区分。
[0005]近些年,随着计算机能力的不断提升,深度学习被重新提出。因其强大的特征学习能力和高性能,逐渐取代传统的机器学习成为识别领域的主流方法。目前基于深度学习的情感分析方法中,大多方法会结合注意力机制对有效特征进行筛选,但缺少对特征图之间依赖关系的学习能力进行建模,以及特征图中空间位置特征之间依赖关系的考虑。并且,传统的方法针对不同的任务会训练不同的模型,没有利用到相关任务之间的相似性。

技术实现思路

[0006]本专利技术的目的是提供一种基于注意力机制的面部情感识别方法,解决了现有的基于注意力机制的面部情感识别方法缺乏对特征图之间依赖关系和特征图内特征的空间位置依赖关系同时进行建模学习的问题。
[0007]本专利技术所采用的技术方案是,基于注意力机制的面部情感识别方法,具体按照以下步骤实施:
[0008]步骤1、采集图像,并将图像分为训练样本集x
train
和测试样本集x
test

[0009]步骤2、读取训练样本集x
train
中每个样本图像原始情感标注值,并将训练样本集x
train
中每个样本图像送入多任务卷积神经网络MTCNN中,根据人脸检测和5个关键特征点,完成人脸对齐,得到输出特征x
input
=[x1,x2,...,x
n
];
[0010]步骤3、将预处理后得到的输出特征x
input
输入到残差注意力网络中,然后通过主干分支提取不同感受野的特征M
i,c
(x)、掩码分支学习注意力权重T
i,c
(x);最后,将主干分支的
输出和掩码分支的输出进行点积运算,得到注意力输出特征图H
i,c
(x);
[0011]步骤4、将步骤3中得到的注意力输出特征图H
i,c
(x)分别送入转换器Transformer和非局部神经网络学习,Transformer输出特征图之间的依赖关系Z
trans
,非局部神经网络输出特征图中空间位置之间的依赖关系Z
non

local

[0012]步骤5、将特征图之间的依赖关系Z
trans
和特征图中空间位置之间的依赖关系Z
non

local
进行融合,得到输出特征Z
fusion

[0013]步骤6、采用两阶段多任务学习网络训练一个分类器,将步骤5得到的输出特征Z
fusion
送入分类器,得到情感状态值:Arousal和Valence。
[0014]本专利技术的特点还在于,
[0015]步骤1具体按照以下步骤实施:
[0016]对于训练样本集x
train
,样本图片为n
×
h
×
w维的张量x
train
=[(h1,w1),(h2,w2),...,(h
n
,w
n
)],其中n表示训练样本集的样本总数目,h表示每个样本图片的长度,w表示每个样本图片的宽度,样本的原始情感标注值为n
×
2维的向量y
a,v
=[(a1,v1),(a2,v2),...,(a
n
,v
n
)],其中(a
n
,v
n
)分别表示训练样本集x
train
中第n个样本图片的Arousal和Valence标签;
[0017]对于测试样本集x
test
,样本图片为m
×
h
×
w维的张量x
test
=[(h1,w1),(h2,w2),...,(h
m
,w
m
)],其中m表示测试样本集的样本总数目,h表示每个样本图片的长度,w表示每个样本图片的宽度,样本的原始情感标注值为m
×
2维的向量y
a,u
=[(a1,v1),(a2,v2),...,(a
m
,v
m
)],其中(a
m
,v
m
)分别表示测试样本集x
test
中第m个样本图片的Arousal和Valence标签。
[0018]步骤2具体按照以下步骤实施:
[0019]步骤2.1、读取训练样本集x
train
中每个样本图片(h
l
,w
l
),其中l=1,2,...,n,h
l
表示第l个样本图片的长度,w
l
表示第l个样本图片的宽度。然后将输入样本图片进行不同尺度的变换,得到一系列不同大小的图片,用来构建图片特征其中x
k
表示第k个图片的特征;
[0020]步骤2.2、然后将步骤2.1得到的图片特征送入多任务卷积神经网络MTCNN,多任务卷积神经网络MTCNN由三个子网络组成,分别是Proposal Network、Refine Network和Output Network,其中Proposal Network由四层卷积神经网络构成,Refine Network由三层卷积神经网络和两层全连接层构成,Output Network由四层卷积神经网络和两层全连接层构成,之后得到MTCNN的输出特征本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于注意力机制的面部情感识别方法,其特征在于,具体按照以下步骤实施:步骤1、采集图像,并将图像分为训练样本集x
train
和测试样本集x
test
;步骤2、读取训练样本集x
train
中每个样本图像原始情感标注值,并将训练样本集x
train
中每个样本图像送入多任务卷积神经网络MTCNN中,根据人脸检测和5个关键特征点,完成人脸对齐,得到输出特征x
input
=[x1,x2,...,x
n
];步骤3、将预处理后得到的输出特征x
input
输入到残差注意力网络中,然后通过主干分支提取不同感受野的特征M
i,c
(x)、掩码分支学习注意力权重T
i,c
(x);最后,将主干分支的输出和掩码分支的输出进行点积运算,得到注意力输出特征图H
i,c
(x);步骤4、将步骤3中得到的注意力输出特征图H
i,c
(x)分别送入转换器Transformer和非局部神经网络学习,Transformer输出特征图之间的依赖关系Z
trans
,非局部神经网络输出特征图中空间位置之间的依赖关系Z
non

local
;步骤5、将特征图之间的依赖关系Z
trans
和特征图中空间位置之间的依赖关系Z
non

local
进行融合,得到输出特征Z
fusion
;步骤6、采用两阶段多任务学习网络训练一个分类器,将步骤5得到的输出特征Z
fusion
送入分类器,得到情感状态值:Arousal和Valence。2.根据权利要求1所述的基于注意力机制的面部情感识别方法,其特征在于,所述步骤1具体按照以下步骤实施:对于训练样本集x
train
,样本图片为n
×
h
×
w维的张量x
train
=[(h1,W1),(h2,w2),...,(h
n
,w
n
)],其中n表示训练样本集的样本总数目,h表示每个样本图片的长度,w表示每个样本图片的宽度,样本的原始情感标注值为n
×
2维的向量y
a,v
=[(a1,v1),(a2,v2),...,(a
n
,v
n
)],其中(a
n
,v
n
)分别表示训练样本集x
train
中第n个样本图片的Arousal和Valence标签;对于测试样本集x
test
,样本图片为m
×
h
×
W维的张量x
test
=[(h1,w1),(h2,w2),...,(h
m
,w
m
)],其中m表示测试样本集的样本总数目,h表示每个样本图片的长度,w表示每个样本图片的宽度,样本的原始情感标注值为m
×
2维的向量y
a,v
=[(a1,v1),(a2,v2),...,(a
m
,v
m
)],其中(a
m
,v
m
)分别表示测试样本集x
test
中第m个样本图片的Arousal和Valence标签。3.根据权利要求2所述的基于注意力机制的面部情感识别方法,其特征在于,所述步骤2具体按照以下步骤实施:步骤2.1、读取训练样本集x
train
中每个样本图片(h
l
,w
l
),其中l=1,2,...,n,h
l
表示第l个样本图片的长度,w
l
表示第l个样本图片的宽度;然后将输入样本图片进行不同尺度的变换,得到一系列不同大小的图片,用来构建图片特征其中x
k
表示第k个图片的特征;步骤2.2、然后将步骤2.1得到的图片特征送入多任务卷积神经网络MTCNN,多任务卷积神经网络MTCNN由三个子网络组成,分别是Proposal Network、Refine Network和Output Network,其中Proposal Network由四层卷积神经网络构成,Refine Network由三层卷积神经网络和两层全连接层构成,Output Network由四层卷积神经网络和两层全连接层构成,之后得到MTCNN的输出特征x
input
=[x1,x2,...,x
n
],其中x
n
表示第n个图片的特征。4.根据权利要求3所述的基于注意力机制的面部情感识别方法,其特征在于,所述步骤3具体按照以下步骤实施:
步骤3.1、对整体网络架构参数即权重、偏置初始化,包括网络中所有卷积层、池化层、全连接层;步骤3.2、将输出特征x
input
分别送入主干分支和掩码分支,得到主干分支的输出结果M
i,c
(x)和掩码分支的输出结果T
i,c
(x),具体过程如下所描述:主干分支:输出特征x
input
经过两个卷积核大小为3
×
3的卷积层,并对每个卷积层输出结果进行批量正则化BN和ReLU函数激活,得到主干分支的输出结果M
i,c
(x),该输出结果M
i,c
(x)为输出特征x
input
不同感受野的特征;假设第l层的卷积层输出为z
l
,然后经过批量正则化BN和ReLU激活函数得到最终输出o
l
,其具体计算公式如下:o
l
=ReLU(BN(z
l
))=ReLU(BN(Wo
l
‑1+b))
ꢀꢀꢀꢀꢀ
(1)W和b分别代表权重值与偏置,l=1,2;其中,BN为批量归一化,是一种对数据概率分布进行归一化处理的方法,计算公式如下:公式(2)中,x
i
表示输出特征x
input
中的任一单个样本图像特征,x
BN
为经过批量归一化后的输出特征,σ
l
为第l层图像特征的标准差图像,μ
l
为第l层图像特征的均值图像;公式(2)中...

【专利技术属性】
技术研发人员:孙强梁乐党鑫豪
申请(专利权)人:西安理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1