一种基于帧注意力机制的视频人脸情绪识别方法技术

技术编号:35745868 阅读:34 留言:0更新日期:2022-11-26 18:50
本发明专利技术属于人工智能、多模态人脸情绪识别技术领域,具体涉及一种基于帧注意力机制的视频人脸情绪识别方法,包括:将含有人脸的视频转换人脸与声音两种模态的特征表示,将人脸模态特征和声音模态特征进行特征联合表示,得到联合多模态特征,通过全连接计算,得到情绪分类的预测结果值,通过函数归一化情绪分类的预测结果值,并将预测概率分布值最大的视频人脸情绪作为最终的视频人脸情绪识别结果。本发明专利技术通过改进的帧注意力网络模型能有效的提取人脸模态特征和声音模态特征的时序信息和空间信息,从而能提升情绪识别的精度。从而能提升情绪识别的精度。从而能提升情绪识别的精度。

【技术实现步骤摘要】
一种基于帧注意力机制的视频人脸情绪识别方法


[0001]本专利技术属于人工智能与多模态人脸情绪识别
,具体涉及一种基于帧注意力机制的视频人脸情绪识别方法。

技术介绍

[0002]人脸识别技术是依据人脸生理特征来进行身份识别的一种生物特征识别技术。随着虚拟现实、人机交互、增强现实技术、计算机辅助教育的发展,情绪识别已经成为人工智能领域研究的重点,而情感的重要性早在几十年前就被人注意到了,人工智能之父Minsky曾指出“问题不是智能机器能不能有情感,而是机器没有情感能不能智能”。情感在日常生活中几乎无处不在,还会影响我们的判断与决策。文字是记录人类自然语言的一种形式,它隐含着信息情感。数字音频信号是声音的一种表现形式,通常使用一系列二进制数字来存储和传输。语音主要关注人类的声音信息,其内容何以翻译成自然语言,不同于与语音,音频更一般,包括任何声音,如音乐或鸟鸣等。图像是彩色点在空间上的分布,心理学已经证明,人类情绪可以通过图像来唤起。随着深度学习的发展,单模态的情绪识别取得了非常大的进展。在我们的现实生活之中,人们在移动设备以及社交网络中都习惯以视频来分享自己的经验以及观点,因此网络上充斥着大量的视频信息,而视频本身包含了多种模态的信息,因此,基于视频的多模态情绪分析也是情绪识别研究的重点。
[0003]人的情绪状态(生气、愤怒、惊讶、开心等)会伴随人体的多个生理或行为特征的变化,某些生理或行为也会影响情绪的状态。当我们表达情感时,往往涉及多种形式,包括显式表达(如面部表情、声音),以及隐式表达(如文字、行为动作)。由于情感特征的复杂性,很难用单一的状态表达来描述一个人的情感,往往需要结合多种表达方式才能更好的理解一个人所表达出来的情绪状态。多模态(主要是音频和视频)情感识别往往备受青睐,但如何抽取有效的特征参数并运用恰当的模型来表达这些特征参数和情感之间的关联性,是亟待解决的一个关键问题。
[0004]情感是一个时序变化的行为,其演变都会经历一定的时间,因此需要考虑情感信息的前后依赖性与相关性。传统的动态模型如隐马尔科夫模型和条件随机场,由于其可以对时序上下文信息建模的内在属性,取得了比静态模型更好的识别性能。然而这些模型考虑的前后时序信息较短,因此取得的效果有限。基于深度学习的情感识别系统具有更强的非线性建模能力,在情感识别领域取得了广泛应用;但是经典的基于卷积神经网络(Convolutional Neural Networks,CNN)和长短期记忆网络(Long Short

Term Memory,LSTM)的模型在建模过程中对于每一帧预测情感的贡献度是相同的,这种假设存在着不合理性。针对这种问题引入注意力机制,通过全局上下文信息自动学习不同帧对于情感识别的重要性得到相匹配的权重系数,可以实现更有针对性的情感建模,显著提高情感识别的性能。
[0005]综上所述,现有技术问题是:由于多模态情绪识别中数据来源的多样性,如何有效的表示多模态的数据是现有技术的一大挑战,现有情感识别模型对于视频数据的每一帧进
行情感预测的贡献度是相同的,存在不合理性。

技术实现思路

[0006]为解决上述技术问题,本专利技术提出一种基于帧注意力机制的视频人脸情绪识别方法,包括以下步骤:
[0007]S1:获取原始视频数据,提取原始视频数据的视频部分和音频部分;
[0008]S2:将视频部分转化为视频帧,检测视频帧中的人脸图像,并进行预处理,得到人脸模态特征,对音频部分进行分帧处理并转化成声谱图,得到声音模态特征;
[0009]S3:将人脸模态特征和声音模态特征输入到自编码网络中进行提取模态的特征,并利用解码器对模态特征进行特征联合表示,得到联合多模态特征;
[0010]S4:将联合多模态特征输入到改进的帧注意力残差网络模型中提取空间信息特征和时序信息特征;
[0011]S5:将提取的空间信息特征和时序信息特征通过全连接计算,得到情绪分类的预测结果值;
[0012]S6:通过softmax函数归一化情绪分类的预测结果值,得到视频人脸情绪的多分类目标预测概率分布值,并将多分类目标预测概率分布值最大的视频人脸情绪作为最终的视频人脸情绪识别结果。
[0013]优选的,所述S2具体包括:
[0014]提取原始视频的视频帧,对视频帧进行人脸检测,对检测出的人脸进行定位,将定位出的人脸剪裁为统一大小,并进行人脸对齐处理,得到处理后的人脸图,每个视频中的视频帧分别选取固定帧作为一组视频序列,得到人脸模态特征;
[0015]提取原始视频音频部分的语音信号,将语音信号进行分帧处理,将分帧后的语音信号通过短时傅里叶变换转换成频域上的声谱图,得到声音模态特征。
[0016]优选的,所述改进的帧注意力残差网络模型包括:四层卷积层、两层池化层、六层残差模块、全连接层、两层swin

transformer模块、帧注意力模块,两层swin

transformer模块设置在第一层的池化层之后,帧注意力模块设置在最后一层池化层之后。
[0017]优选的,提取空间信息特征和时序信息特征的过程具体包括:
[0018]将联合多模态特征输入第一层卷积层提取粗略特征并通过第一层池化层进行特征降维,将降维后的特征输入到两层的swin

transformer模块中,第一层swin

transformer模块对特征区域进行划分,第二层swin

transformer模块使用窗口移位的方式进行计算跨区域自注意力,获取粗略的全局空间信息特征,将粗略的全局空间信息特征输入到多层残差模块中进行跳越连接,并利用多层卷积进行进一步的特征提取获取最终的空间信息特征;将最终的空间信息特征输入到帧注意模块中计算自注意力权重和关系注意力权重,并将自注意力权重和关系注意力权重通过两层全连接层聚合,得到时序信息特征。
[0019]进一步的,计算自注意力权重,表示为:
[0020]α
i
=σ(f
iT
q0+b0)
[0021]其中,α
i
表示自注意权重,f
i
表示卷积池化操作后的第i个多模态联合表示的特征,T表示转置操作,q0表示第一全连接层的参数,b0表示第一偏置参数,σ表示sigmod函数。
[0022]进一步的,计算关系注意力权重,表示为:
[0023]β
i
=σ([f
i
:f

v
]T
q1+b1)
[0024]其中,β
i
表示关系注意力权重,f
i
表示卷积池化操作后的第i个多模态联合表示的特征,f

v
表示帧序列全局锚点,[f
i
:f

v
]T
表示f
i
与f本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于帧注意力机制的视频人脸情绪识别方法,其特征在于,具体包括以下步骤:S1:获取原始视频数据,提取原始视频数据的视频部分和音频部分;S2:将视频部分转化为视频帧,检测视频帧中的人脸图像,并进行预处理,得到人脸模态特征,对音频部分进行分帧处理并转化成声谱图,得到声音模态特征;S3:将人脸模态特征和声音模态特征输入到自编码网络中进行提取模态的特征,并利用解码器对模态特征进行特征联合表示,得到联合多模态特征;S4:将联合多模态特征输入到改进的帧注意力残差网络模型中提取空间信息特征和时序信息特征;S5:将提取的空间信息特征和时序信息特征通过全连接计算,得到情绪分类的预测结果值;S6:通过softmax函数归一化情绪分类的预测结果值,得到视频人脸情绪的多分类目标预测概率分布值,并将多分类目标预测概率分布值最大的视频人脸情绪作为最终的视频人脸情绪识别结果。2.根据权利要求1所述的一种基于帧注意力机制的视频人脸情绪识别方法,其特征在于,所述S2具体包括:提取原始视频的视频帧,对视频帧进行人脸检测,对检测出的人脸进行定位,将定位出的人脸剪裁为统一大小,并进行人脸对齐处理,得到处理后的人脸图,每个视频中的视频帧分别选取固定帧作为一组视频序列,得到人脸模态特征;提取原始视频音频部分的语音信号,将语音信号进行分帧处理,将分帧后的语音信号通过短时傅里叶变换转换成频域上的声谱图,得到声音模态特征。3.根据权利要求1所述的一种基于帧注意力机制的视频人脸情绪识别方法,其特征在于,所述改进的帧注意力残差网络模型包括:四层卷积层、两层池化层、六层残差模块、两层全连接层、两层swin

transformer模块、帧注意力模块,两层swin

transformer模块设置在第一层的池化层之后,帧注意力模块设置在最后一层池化层之后。4.根据权利要求1所述的一种基于帧注意力机制的视频人脸情绪识别方法,其特征在于,提取空间信息特征和时序信息特征的过程具体包括:将联合多模态特征输入第一层卷积层提取粗略特征并通过第一层池化层进行特征降维,将降维后的特征输入到两层的swin

transformer模块中,第一层swin

transformer模块对特征区域进行划分,第二层swin

transformer模块使用窗口移位的方式进行计算跨区域自注意力,获取粗略的全局空间信息特征,将粗略的全局空间信息特征输入到多层残差模块中进行跳越连接,并利用多层卷积进行进一步的特征提取获取最终的空间信息特征;将最终的空间信息特征输入到帧注意模块中计算自注意力权重和关系注意力权重,并将自注意力权重和关系注意力权重通过两层全连接层聚合,得到时序信息特征。5.根据权利要求4所述的一种基于帧注意力机制的视频人脸情绪识别方法,其特征在于,窗口移位的方式进行跨区域的计算自注意力,表示为:其中,Q表示查询矩阵,K表示键矩阵,V表示值矩阵,B表示可学习的偏置矩阵,d表示维
度,softmax表示softmax函数,Q=w
q
X,K=w
k
X,V=w
v
X,X表示划分后的一个区域矩阵,w
q
,w
k
,w
v
表示三个...

【专利技术属性】
技术研发人员:杨春德苏晓东舒坤贤
申请(专利权)人:重庆邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1