【技术实现步骤摘要】
一种基于帧注意力机制的视频人脸情绪识别方法
[0001]本专利技术属于人工智能与多模态人脸情绪识别
,具体涉及一种基于帧注意力机制的视频人脸情绪识别方法。
技术介绍
[0002]人脸识别技术是依据人脸生理特征来进行身份识别的一种生物特征识别技术。随着虚拟现实、人机交互、增强现实技术、计算机辅助教育的发展,情绪识别已经成为人工智能领域研究的重点,而情感的重要性早在几十年前就被人注意到了,人工智能之父Minsky曾指出“问题不是智能机器能不能有情感,而是机器没有情感能不能智能”。情感在日常生活中几乎无处不在,还会影响我们的判断与决策。文字是记录人类自然语言的一种形式,它隐含着信息情感。数字音频信号是声音的一种表现形式,通常使用一系列二进制数字来存储和传输。语音主要关注人类的声音信息,其内容何以翻译成自然语言,不同于与语音,音频更一般,包括任何声音,如音乐或鸟鸣等。图像是彩色点在空间上的分布,心理学已经证明,人类情绪可以通过图像来唤起。随着深度学习的发展,单模态的情绪识别取得了非常大的进展。在我们的现实生活之中,人们在移动设备以及社交网络中都习惯以视频来分享自己的经验以及观点,因此网络上充斥着大量的视频信息,而视频本身包含了多种模态的信息,因此,基于视频的多模态情绪分析也是情绪识别研究的重点。
[0003]人的情绪状态(生气、愤怒、惊讶、开心等)会伴随人体的多个生理或行为特征的变化,某些生理或行为也会影响情绪的状态。当我们表达情感时,往往涉及多种形式,包括显式表达(如面部表情、声音),以及隐式表达(如文字、行 ...
【技术保护点】
【技术特征摘要】
1.一种基于帧注意力机制的视频人脸情绪识别方法,其特征在于,具体包括以下步骤:S1:获取原始视频数据,提取原始视频数据的视频部分和音频部分;S2:将视频部分转化为视频帧,检测视频帧中的人脸图像,并进行预处理,得到人脸模态特征,对音频部分进行分帧处理并转化成声谱图,得到声音模态特征;S3:将人脸模态特征和声音模态特征输入到自编码网络中进行提取模态的特征,并利用解码器对模态特征进行特征联合表示,得到联合多模态特征;S4:将联合多模态特征输入到改进的帧注意力残差网络模型中提取空间信息特征和时序信息特征;S5:将提取的空间信息特征和时序信息特征通过全连接计算,得到情绪分类的预测结果值;S6:通过softmax函数归一化情绪分类的预测结果值,得到视频人脸情绪的多分类目标预测概率分布值,并将多分类目标预测概率分布值最大的视频人脸情绪作为最终的视频人脸情绪识别结果。2.根据权利要求1所述的一种基于帧注意力机制的视频人脸情绪识别方法,其特征在于,所述S2具体包括:提取原始视频的视频帧,对视频帧进行人脸检测,对检测出的人脸进行定位,将定位出的人脸剪裁为统一大小,并进行人脸对齐处理,得到处理后的人脸图,每个视频中的视频帧分别选取固定帧作为一组视频序列,得到人脸模态特征;提取原始视频音频部分的语音信号,将语音信号进行分帧处理,将分帧后的语音信号通过短时傅里叶变换转换成频域上的声谱图,得到声音模态特征。3.根据权利要求1所述的一种基于帧注意力机制的视频人脸情绪识别方法,其特征在于,所述改进的帧注意力残差网络模型包括:四层卷积层、两层池化层、六层残差模块、两层全连接层、两层swin
‑
transformer模块、帧注意力模块,两层swin
‑
transformer模块设置在第一层的池化层之后,帧注意力模块设置在最后一层池化层之后。4.根据权利要求1所述的一种基于帧注意力机制的视频人脸情绪识别方法,其特征在于,提取空间信息特征和时序信息特征的过程具体包括:将联合多模态特征输入第一层卷积层提取粗略特征并通过第一层池化层进行特征降维,将降维后的特征输入到两层的swin
‑
transformer模块中,第一层swin
‑
transformer模块对特征区域进行划分,第二层swin
‑
transformer模块使用窗口移位的方式进行计算跨区域自注意力,获取粗略的全局空间信息特征,将粗略的全局空间信息特征输入到多层残差模块中进行跳越连接,并利用多层卷积进行进一步的特征提取获取最终的空间信息特征;将最终的空间信息特征输入到帧注意模块中计算自注意力权重和关系注意力权重,并将自注意力权重和关系注意力权重通过两层全连接层聚合,得到时序信息特征。5.根据权利要求4所述的一种基于帧注意力机制的视频人脸情绪识别方法,其特征在于,窗口移位的方式进行跨区域的计算自注意力,表示为:其中,Q表示查询矩阵,K表示键矩阵,V表示值矩阵,B表示可学习的偏置矩阵,d表示维
度,softmax表示softmax函数,Q=w
q
X,K=w
k
X,V=w
v
X,X表示划分后的一个区域矩阵,w
q
,w
k
,w
v
表示三个...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。