【技术实现步骤摘要】
一种结合注意力机制的面部表情识别方法及系统
[0001]本专利技术属于表情识别
,更具体地,涉及一种结合注意力机制的面部表情识别方法及系统。
技术介绍
[0002]面部表情是人类传达情绪状态生理和心理的反应,面部表情识别在机器人、智能医疗、人机交互和在线教育等多个领域都有广泛的应用。目前的面部表情识别技术主要分为静态图片识别和动态视频序列识别。图片识别只考虑当前图像特征,但面部表情是一个动态变化的过程,静态图片识别忽略了表情在时间维度和空间维度上的变化,存在局限性。因此进一步的研究面部表情识别需要考虑表情的空时特征,在视频序列上对面部表情识别以提升算法的性能。
[0003]目前常用于视频序列面部表情识别的技术包括CNN+RNN级联网络、三维卷神经网络3DCNN、光流法等。CNN+RNN级联网络是将卷积神经网络CNN与循环神经网络RNN结合的级联网络对视频序列下的面部表情空时变化进行建模。为了达到较好的识别效果,会使用较深的卷积神经网络结构,同时选择LSTM网络作为时间特征提取器,利用连续特征向量间的相关性提取特征。但级联网络方法过深的网络也会导致梯度爆炸或梯度消失等问题。
[0004]三维卷积神经网络3DCNN在常规2D空间卷积基础上,增加一个时间维度,形成三维卷积,从而获取时序信息。C3D网络最早用于视频序列的表情识别,基于C3D的变体网络如I3D结合人脸特征点提取表情的几何特征,3DCNN-DAP将面部动作约束与3DCNN结合提升表情识别效果。由于三维卷积神经网络相较于2D网络增加一个时间维 ...
【技术保护点】
【技术特征摘要】
1.一种结合注意力机制的面部表情识别方法,其特征在于,包括如下步骤:检测视频序列中每个视频帧内包括的人脸,并提取对应的人脸感兴趣区域,得到每个视频帧内的人脸图片;基于每个视频帧内的人脸图片的面部特征点的位置信息对每个视频帧内的人脸图片进行矫正,使得每个视频帧内的人脸图片相对平面直角坐标系对齐;将视频序列中每个视频帧内对齐后的人脸图片输入到残差神经网络中,提取人脸图片对应的人脸面部表情的空间特征;将从视频序列中提取的人脸面部表情的空间特征输入到混合注意力模块,所述混合注意力模块通过注意力机制计算面部表情的特征权重,给面部表情变化的关注区域分配高于阈值的权重,面部表情变化无关的区域分配低于阈值的权重,以关联视频帧间人脸面部表情的特征信息,提取相邻视频帧间人脸面部表情的依赖关系,剔除无关的干扰特征,获取人脸面部表情的融合特征;将从视频序列中获取的人脸面部表情的融合特征输入到循环神经网络,提取人脸面部表情的时间特征;将从视频序列中提取的人脸面部表情的时间特征输入到全连接层,基于所述全连接层中预存的人脸面部表情模板对视频中人脸的面部表情进行分类识别。2.根据权利要求1所述的结合注意力机制的面部表情识别方法,其特征在于,所述基于每个视频帧内的人脸图片的面部特征点的位置信息对每个视频帧内的人脸图片进行矫正,使得每个视频帧内的人脸图片相对平面直角坐标系对齐;具体为:检测每个视频帧内人脸图片中的多个面部表情特征点,所述多个面部表情特征点分别分布在眼部区域、眉毛区域、鼻子区域、嘴部区域以及面部轮廓区域;基于每个视频中内人脸图片的眼部区域的特征点和眉毛区域的特征点确定人脸图片中人脸中间点的位置,并基于所述人脸中间点的位置对所述人脸图片进行对齐;所述对齐为相对平面直角坐标系对齐,其中,对齐后的人脸图片的两边分别平行于平面直角坐标系的两个轴。3.根据权利要求2所述的结合注意力机制的面部表情识别方法,其特征在于,所述基于所述人脸中间点的位置对所述人脸图片进行对齐,具体为:使用仿射变换矩阵基于人脸中间点的位置对人脸图片进行对齐。4.根据权利要求2所述的结合注意力机制的面部表情识别方法,其特征在于,所述将视频序列中每个视频帧内对齐后的人脸图片输入到残差神经网络之前,还包括如下步骤:将对齐后的人脸图片的大小统一调整成预设大小的图片。5.根据权利要求4所述的结合注意力机制的面部表情识别方法,其特征在于,所述残差神经网络、混合注意力模块、循环神经网络以及全连接层均需要通过预先训练,训练好之后再进行面部表情识别;在训练阶段,输入到所述残差神经网络的人脸图片,除需要进行人脸图片对齐、调整成统一大小图片外,还需对每张人脸图片打上对应的面部表情标签;所述面部表情标签即为每张人脸图片的面部表情的识别结果。6.根据权利要求1至5任一项所述的结合注意力机制的面部表情识别方法,其特征在于,所述混合注意力模块由自注意力模块和空间注意力模块组成;
所述自注意力模块通过卷积操作,对...
【专利技术属性】
技术研发人员:刘三女牙,杨宗凯,叶世豪,朱晓亮,戴志诚,赵亮,
申请(专利权)人:华中师范大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。