基于三阶段多模态视觉语言提示的表情识别方法和系统技术方案

技术编号：44883575 阅读：13 留言：0更新日期：2025-04-08 00:20

本发明专利技术提出了一种基于三阶段多模态视觉语言提示的表情识别方法及系统。涉及计算机视觉与自然语言处理技术领域，针对的问题是：现有方法无法识别面部表情的细微变化，仅关注视频相关信息，忽视帧内信息和文本信息，模型识别不准确。本发明专利技术获取动态面部表情视频数据集；通过图像编码器，提取每一帧的面部特征向量，采用三阶段可优化提示学习方法进行优化学习，将优化学得到的融合后的提示输入至时间模型，得到面部视频特征；通过文本编码器中，提取面部表情类别相关的文本特征；将面部视频特征与文本特征进行余弦相似度计算，得到预测概率，确定识别结果。本发明专利技术的模型在不增加学习代价的同时显著提高了识别的准确性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于计算机视觉与自然语言处理，尤其涉及一种基于三阶段多模态视觉语言提示的表情识别方法和系统。

技术介绍

1、本部分的陈述仅仅是提供了与本专利技术相关的
技术介绍
信息，不必然构成在先技术。

2、面部表情在日常对话交流中占据重要地位，其识别技术因广泛应用于心理健康、人机交互、驾驶辅助等领域，正逐渐吸引语言学、计算机科学、心里学、神经科学等多领域研究者的目光。在离散情绪模型框架下，面部表情识别(fer)致力于将视频序列或图像归类为七种基本情绪类别：中性、悲伤、快乐、惊讶、厌恶、恐惧及愤怒。传统fer方法多聚焦于静态图像或单一视频帧，忽略了面部表情随时间演变的动态特征。相比之下，动态面部表情识别技术(dfer)则强调对面部运动连续变化的捕捉与分析，动态信息的纳入为情绪识别的准确性提供了有力支持。因此，dfer已逐渐成为情感计算领域和计算机视觉一个至关重要的研究方向。

3、在动态面部表情识别技术dfer领域，早期探索主要聚焦于实验室控制的场景，这些场景下人脸呈现正面且无遮挡，便于基础研究。然而，面部表情总是伴随着非正面姿势、光照和遮挡等变化。近年来，针对野外dfer的研究显著增多，其核心在于设计能够有效提取时空特征的方法，以增强模型的判别力和鲁棒性。这些方法可划分为几大类：基于3dcnn的、基于transformer的和基于cnn–rnn。其中基于transformer的方法在dfer任务中达到了该领域的前沿水平。

4、近期，视觉语言预训练(vlp)模型，特别是clip，作为视觉表征学习领域的新

5、考虑到视频具有时间上的关系，所以对于动态面部表情识别任务，之前大都是通对vlp模型中的图像编码器部分进行微调，并增加了引入时间位置编码的transformer层来建模时间模型，从而处理动态面部表情识别(dfer)任务。然而，这种途径面临了两大挑战：首先是图像域与视频域差异显著。尽管vlp模型主要针对图像-文本对进行优化，但在处理视频任务中，视频是由一系列连续的帧组成的。这意味着vlp可以有效地应用于视频帧-文本对。然而，传统的vlp模型并非为处理帧序列而设计，而是专注于静态图像的分析。如果只是通过视频初始帧数据微调模型，可能导致视频相关信息的缺失，例如各个帧之间的关系，面部运动和动态特征(如眉毛是否上扬等)，视频上下文信息以及在适应视频域方面有多欠缺。其次，vlp主要用于识别图像中的场景和物体，并擅长捕捉图像的整体特征。但它们无法识别面部表情的细微方面。在使用vlp探索dfer任务时，许多方法仅关注视频相关信息，而忽视了每帧内的信息，例如关键面部位置的细微变化。

技术实现思路

1、为克服上述现有技术的不足，本专利技术提供了一种基于三阶段多模态视觉语言提示的表情识别方法和系统。通过多模态视觉-语言提示学习及关键点协调网络，使视频文本与视觉内容的双重信息均能被充分融合与有效利用，从而达到更精准、更高效的视频理解与处理能力，提高模型识别的准确性和适应性。

2、为实现上述目的，本专利技术的一个或多个实施例提供了如下技术方案：

3、本专利技术第一方面公开了一种基于三阶段多模态视觉语言提示的表情识别方法，包括：

4、获取动态面部表情视频数据集和各表情相关的面部动作描述文本；

5、所述动态面部表情视频数据集至少包含视频帧和表情类别；

6、基于表情类别获得每个表情类别可优化提示向量；

7、采用图像编码器从视频帧中提取每一帧的面部特征向量；

8、采用三阶段可优化提示学习方法对面部特征向量进行优化学习，得到融合后提示；

9、将融合后提示输入至时间模型得到面部视频特征；

10、将各表情相关的面部动作描述文本与每个表情类别可优化提示向量融入至文本编码器中，提取面部表情类别相关的文本特征；

11、将面部视频特征与面部表情类别相关的文本特征进行余弦相似度计算，得到预测概率；

12、根据预测概率，得到识别结果；

13、其中，三阶段可优化提示包括第一阶段帧内级提示、第二阶段帧间级提示及第三阶段全局级提示，具体为：

14、对每一帧的面部特征向量进行第一阶段帧内级提示，得到每一帧的特征嵌入；

15、对每一帧的特征嵌入进行第二阶段帧间级提示，得到帧间级提示；

16、对每一帧的面部特征向量进行第三阶段全局级提示，得到全局级提示。

17、作为进一步的技术方案，将融合后提示输入至时间模型，得到面部视频特征，具体为：将特征嵌入、帧间级提示及全局级提示进行融合，输入至时间模型中，提取面部视频特征。

18、作为进一步的技术方案，获取动态面部表情视频数据集之后，还通过面部关键点检测模型，提取视频帧的面部关键点特征；

19、作为进一步的技术方案，通过构建一致性损失函数，计算面部视频特征和视频帧的面部关键点特征的一致性。

20、作为进一步的技术方案，提取面部表情类别相关的文本特征，具体为：

21、获取每个表情类别可优化提示向量；

22、将每个表情类别可优化提示向量与各表情相关的面部动作描述文本输入至文本编码器，得到面部表情类别相关的文本特征。

23、作为进一步的技术方案，通过构建交叉熵损失函数，对预测概率进行优化。

24、作为进一步的技术方案，通过一致性损失函数和交叉熵损失函数构建总损失函数，对模型进行优化。

25、第二个方面公开了一种基于三阶段多模态视觉语言提示的表情识别系统，包括：

26、获取数据模块，用于获取动态面部表情视频数据集和各表情相关的面部动作描述文本；所述动态面部表情视频数据集至少包含视频帧和表情类别；基于表情类别获得每个表情类别可优化提示向量；

27、面部视频特征提取模块，用于采用图像编码器从视频帧中提取每一帧的面部特征向量；采用三阶段可优化提示学习方法对面部特征向量进行优化学习，得到融合后提示；将融合后提示输入至时间模型得到面部视频特征；其中，三阶段可优化提示包括第一阶段帧内级提示、第二阶段帧间级提示及第三阶段全局级提示，具体为：

28、对每一帧的面部特征向量进行第一阶段帧内级提示，得到每一帧的特征嵌入；

29、对每一帧的特征嵌入进行第二阶段帧间级提示，得到帧间级提示；

30、对每一帧的面部特征向量进行第三阶段全局级提示，得到全局级提示；

31、文本特征提取模块，用于将各表情相关的面部动作描述文本与每个表情类别可优化提示向量融入至文本编码器中，提取面部表情类别相关的文本特征；

32、预测识别模块，用于将面部视频特征与面部表情类别相关的文本特征进行余弦相似度计算，得到预测概率；

33、根据本文档来自技高网...

【技术保护点】

1.一种基于三阶段多模态视觉语言提示的表情识别方法，其特征在于，包括：

2.如权利要求1所述的一种基于三阶段多模态视觉语言提示的表情识别方法，其特征在于，将融合后提示输入至时间模型，得到面部视频特征，具体为：将特征嵌入、帧间级提示及全局级提示进行融合，输入至时间模型中，提取面部视频特征。

3.如权利要求1所述的一种基于三阶段多模态视觉语言提示的表情识别方法，其特征在于，获取动态面部表情视频数据集之后，还通过面部关键点检测模型，提取视频帧的面部关键点特征。

4.如权利要求1所述的一种基于三阶段多模态视觉语言提示的表情识别方法，其特征在于，通过构建一致性损失函数，计算面部视频特征和视频帧的面部关键点特征的一致性。

5.如权利要求1所述的一种基于三阶段多模态视觉语言提示的表情识别方法，其特征在于，提取面部表情类别相关的文本特征，具体为：

6.如权利要求1所述的一种基于三阶段多模态视觉语言提示的表情识别方法，其特征在于，通过构建交叉熵损失函数，对预测概率进行优化。

7.如权利要求1所述的一种基于三阶段多模态视觉语言提

8.一种基于三阶段多模态视觉语言提示的表情识别系统，其特征在于，包括：

9.一种计算机装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1-7任一项所述的方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时执行权利要求1-7任一项所述方法的步骤。

...

【技术特征摘要】

1.一种基于三阶段多模态视觉语言提示的表情识别方法，其特征在于，包括：

5.如权利要求1所述的一种基于三阶段多模态视觉语言提示的表情识别方法，其特征在于...

【专利技术属性】
技术研发人员：戚萌，李娜，梁圣磊，
申请(专利权)人：山东师范大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人