一种基于多模态融合的微表情识别方法技术

技术编号：43435800 阅读：23 留言：0更新日期：2024-11-27 12:43

本发明专利技术公开了一种基于多模态融合的微表情识别方法，涉及智能化的微表情识别，包括从微表情数据库中获取模型的输入数据、对每个输入数据使用ViT和卷积神经网络CNN进行特征提取，得到特征向量V<subgt;a</subgt;和特征向量V<subgt;f</subgt;，对特征向量V<subgt;a</subgt;和特征向量V<subgt;f</subgt;进行相似度量，得到输出特征。通过融合峰值帧、光流图和关键点分类微表情数据，利用不同模态的数据特征，解决了现有技术中对微表情数据利用不足的问题；针对不同模态的数据，采用网络架构：Vision Transformer(ViT)用于提取峰值帧的全局特征，卷积神经网络（CNN）用于提取光流图的局部特征，融合后的特征通过对比损失和分类损失进行优化，提高了同一表情样本特征的相似性，增强了识别的准确性和鲁棒性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及智能化的微表情识别，尤其涉及一种基于多模态融合的微表情识别方法。

技术介绍

1、人类的面部表情可以分为两类:宏表情和微表情。宏表情的主要特点是持续时间长，面部动作非常明显，很容易被人类和计算机识别。然而，相比之下，微表情是自发的，面部运动非常低，持续时间为0.065至0.5秒，可以揭示一个人的真实情绪状态。然而，对于长期没有接受过这方面训练的人来说，很难识别表情的变化。微表情广泛应用于测谎、教育、安防等领域。

2、微表情识别主要包括特征提取和情绪分类，特征提取是关键性的步骤，主要有基于传统的特征提取以及基于深度学习的特征表示。目前深度学习的方法在微表情领域发挥着重要的作用。卷积神经网络（cnn）和视觉transformer（vit）是强大的特征提取工具。许多研究使用cnn架构作为用于学习表征的骨干网络。此外,一些基于vit的微表情识别方法也进行了研究显示了它在捕捉全局特征方面的能力。由于微表情数据自身的短暂性、微弱性和局部性，因此仅仅依赖单一模态进行识别往往不能满足精度和鲁棒性的要求。

技术实现思路

1、本专利技术的目的是提供一种基于多模态融合的微表情识别方法，解决了现有技术中不能充分利用微表情数据的技术问题。

2、本专利技术的技术方案是：一种基于多模态融合的微表情识别方法，包括以下步骤：

3、步骤1、从微表情数据库中获取模型的输入数据；

4、步骤2、对每个输入数据使用vit和卷积神经网络cnn进行特征提取，得到特征向量和特征向量；

5、步骤3、对特征向量和特征向量进行相似度量，得到输出特征；

6、步骤4、对输出特征进行特征级和决策级融合，输出微表情的类别。

7、进一步地，步骤1包括：步骤1.1、使用人脸识别工具包dlib对微表情数据库进行人脸裁剪和对齐操作，删除背景与其他无关信息，获取对齐的面部序列；

8、步骤1.2、峰值帧的获取：需要得到casme ii、samm和smic-hs数据库的峰值帧，casme ii和samm数据库对峰值帧进行标记，smic-hs数据库没有标记峰值帧，则通过微表情序列的中间帧代替峰值帧；

9、步骤1.3、光流图的获取：使用tv-l1提取起始帧和峰值帧之间的光流；

10、步骤1.4、关键点的获取：选择与微表情相关区域的关键点。

11、进一步地，步骤2包括：

12、步骤2.1、将峰值帧输入到vit中，得到一系列带有位置信息的特征向量，然后将输入到transformer编码器中；

13、步骤2.2、经过3层transformer编码器编码之后，得到的特征，然后经过重构和重排操作得到的特征向量；

14、步骤2.3、将光流图输入到卷积神经网络cnn中，然后使用的最大池化层，得到的特征向量；

15、步骤2.4、对于每个关键点，使用起始帧和峰值帧之间的位移，位移的计算如下：

16、；

17、其中，表示横坐标的差，表示纵坐标的差，使用位移构造的特征向量，然后输入到两个完全连接层，最终输出优化选择的结果。

18、进一步地，在步骤3中，对于同一微表情样本得到的特征向量和，使用l2归一化余弦相似度进行度量：

19、；

20、其中，表示两者之间的相似性。

21、进一步地，步骤4包括：

22、步骤4.1、在分类融合中，将步骤2得到的特征向量和通过凸组合的方式进行融合，融合方式如下：；

23、其中，为特征向量和特征向量融合后的特征向量，是用于凸组合运算融合的可学习的权重参数；

24、步骤4.2、将输送到两个全连接层，最后一层的全连接的输出个数为3，获得特征融合分类结果；

25、步骤4.3、对特征融合分类结果和关键点分类结果进行决策层融合，整体分类结果如下：

26、；

27、其中，为整体分类结果，是控制特征融合分支的分类结果和关键点分支的分类结果的权重参数，通过调整这两个权重参数，该模型可以动态优化整体性能，根据数据的特点来适应不同的任务要求。

28、进一步地，还包括模型参数的设置，模型参数的设置包括数据集；

29、将casme ii、samm和smic-hs数据集分为消极、积极和惊喜；

30、mer-mfnet进行多次迭代的端到端训练，adamw作为优化器；

31、mer-mfnet为基于多模态融合的微表情识别网络micro-expression recognitionbased on multimodal fusion network。

32、进一步地，设置对比损失函数为：，以使两种模态的特征更加接近。

33、更进一步地，对模型进行优化，使用端到端的联合训练，根据对比损失函数与分类损失函数，分类损失函数使用交叉熵损失函数进行计算，整体损失函数计算结果如下：

34、；

35、其中，m是控制对比损失的函数在整体损失函数中的贡献度参数，是整体损失函数。

36、通过采用上述技术方案，使得本专利技术具有以下有益效果：

37、通过融合峰值帧、光流图和关键点分类微表情数据，充分利用不同模态的数据特征，解决了现有技术中对微表情数据利用不足的问题；针对不同模态的数据，采用了专门设计的网络架构：vision transformer(vit)，用于提取峰值帧的全局特征，卷积神经网络（cnn）用于提取光流图的局部特征，几何分析用于提取关键点的局部特征。融合后的特征通过对比损失和分类损失进行优化，有效提高了同一表情样本特征的相似性，增强了识别的准确性和鲁棒性，使得在复杂场景下的微表情识别中表现出色，具备广泛的应用前景。

本文档来自技高网...

【技术保护点】

1.一种基于多模态融合的微表情识别方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于多模态融合的微表情识别方法，其特征在于，所述步骤1包括：

3.根据权利要求2所述的基于多模态融合的微表情识别方法，其特征在于，所述步骤2包括：

4.根据权利要求3所述的基于多模态融合的微表情识别方法，其特征在于，在所述步骤3中，对于同一微表情样本得到的特征向量和特征向量，使用L2归一化余弦相似度进行度量：

5.根据权利要求4所述的基于多模态融合的微表情识别方法，其特征在于，所述步骤4包括：

6.根据权利要求3所述的基于多模态融合的微表情识别方法，其特征在于，还包括模型参数的设置，所述模型参数的设置包括数据集；

7.根据权利要求5所述的基于多模态融合的微表情识别方法，其特征在于，设置对比损失函数为：，以使两种模态的特征更加接近。

8.根据权利要求7所述的基于多模态融合的微表情识别方法，其特征在于，对所述模型进行优化，使用端到端的联合训练，根据对比损失函数与分类损失函数，分类损失函数使用交叉熵损失函数进行计

...

【技术特征摘要】

1.一种基于多模态融合的微表情识别方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于多模态融合的微表情识别方法，其特征在于，所述步骤1包括：

3.根据权利要求2所述的基于多模态融合的微表情识别方法，其特征在于，所述步骤2包括：

4.根据权利要求3所述的基于多模态融合的微表情识别方法，其特征在于，在所述步骤3中，对于同一微表情样本得到的特征向量和特征向量，使用l2归一化余弦相似度进行度量：

5.根据权利要求4所述的基于多模态融合的微表情识别方法，其特...

【专利技术属性】
技术研发人员：李宁，李亚峰，王倩，
申请(专利权)人：宝鸡文理学院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人