System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于视频流与语音的实时情绪识别系统及方法技术方案_技高网

一种基于视频流与语音的实时情绪识别系统及方法技术方案

技术编号:44964200 阅读:4 留言:0更新日期:2025-04-12 01:35
本发明专利技术公开了一种基于视频流与语音的实时情绪识别系统及方法,该系统包括:数据采集模块:用于通过摄像头实时采集用户面部表情的视频帧,同时通过麦克风实时采集用户的语音信号;特征提取模块:用于将视频帧输入卷积神经网络以提取视觉特征,同时将语音信号输入长短期记忆网络以提取时序特征;加权融合模块:用于将视觉特征和时序特征进行加权融合,生成多模态特征向量;情绪识别模块:用于调用外部大模型的API,对视频帧中的情绪进行进一步识别,获取外部大模型反馈的情绪识别结果,并将外部大模型反馈的情绪识别结果与多模态特征向量进行进一步结合,以生成并输出最终的情绪识别结果。本发明专利技术能够提高情绪识别的准确性、高效性与实时性。

【技术实现步骤摘要】

本专利技术属于情绪识别,具体涉及一种基于视频流与语音的实时情绪识别系统及方法


技术介绍

1、近年来,随着人工智能技术和深度学习技术的飞速发展,情绪识别作为人机交互中的核心任务,得到了广泛的关注和研究。情绪识别不仅能够帮助智能系统理解用户的情绪状态,还能用于诸如健康监测、智能客服、教育领域的情绪反馈等应用场景。

2、传统的情绪识别系统大多基于单一模态,如仅使用面部图像或仅使用语音信号来进行情绪分类和识别。然而,情绪表达是多模态的,既包含了非语言信号(如面部表情、手势、身体姿态),也包含了语言和语音信号。因此,单一模态的情绪识别系统难以全面准确地捕捉用户的真实情绪状态。

3、为了解决上述问题,多模态情绪识别逐渐成为研究的热点方向。多模态情绪识别通过融合视觉和听觉信息,能够更全面地捕捉情绪线索。然而,如何高效地将不同模态的数据进行融合,并在系统运行过程中实现实时情绪反馈,是当前技术中的一个难点。


技术实现思路

1、针对现有情绪识别技术的不足,本专利技术提出了一种基于知识图谱增强的大语言模型问答系统及方法,通过结合外部的大模型,如chatgpt、kimi等支持上传图片文件的在线情绪识别模型的能力,对视频帧中的面部表情进行进一步分析。外部的大模型通过api接口与本专利技术提供的系统进行交互,结合视频帧中的特征进行深度情绪分析,最终反馈的情绪结果与系统自有的多模态分析结果结合,生成最终的权重加权结果,这种融合机制使得本专利技术不仅能够基于用户实时的情绪输入进行准确判断,还能利用大模型的强大情绪分析能力提升情绪识别精度。

2、本专利技术所述的一种基于视频流与语音的实时情绪识别系统,包括:

3、数据采集模块:用于通过摄像头实时采集用户面部表情的视频帧,同时通过麦克风实时采集用户的语音信号;

4、特征提取模块:用于将所述视频帧输入卷积神经网络以提取视觉特征,同时将所述语音信号输入长短期记忆网络以提取时序特征;

5、加权融合模块:用于将所述视觉特征和所述时序特征进行加权融合,生成多模态特征向量;

6、情绪识别模块:用于调用外部大模型的api,对所述视频帧中的情绪进行进一步识别,获取外部大模型反馈的情绪识别结果,并将外部大模型反馈的情绪识别结果与所述多模态特征向量进行进一步结合,以生成并输出最终的情绪识别结果。

7、更进一步的,所述特征提取模块包括:通过卷积神经网络从用户面部表情中提取多层特征图。

8、更进一步的,所述特征提取模块包括:通过长短期记忆网络从语音信号中提取隐藏状态和单元状态。

9、更进一步的,所述特征提取模块包括:通过包括openface和facenet的预训练模型从所述视频帧中提取视觉特征。

10、更进一步的,所述特征提取模块包括:通过语谱图生成模型和包括mfcc和rnn的情绪特征提取模型从所述语音信号中提取时序特征。

11、更进一步的,所述系统还包括增量学习模块:用于实时记录用户的情绪数据,并采用增量学习算法对所述情绪识别模型进行更新。

12、更进一步的,所述增量学习算法包括icarl算法和ewc算法。

13、本专利技术还公开一种基于视频流与语音的实时情绪识别方法,包括以下步骤:

14、步骤s1:通过摄像头实时采集用户面部表情的视频帧,同时通过麦克风实时采集用户的语音信号;

15、步骤s2:将所述视频帧输入卷积神经网络以提取视觉特征,同时将所述语音信号输入长短期记忆网络以提取时序特征;

16、步骤s3:将所述视觉特征和所述时序特征进行加权融合,生成多模态特征向量;

17、步骤s4:调用外部大模型的api,对所述视频帧中的情绪进行进一步识别,获取外部大模型反馈的情绪识别结果,并将外部大模型反馈的情绪识别结果与所述多模态特征向量进行进一步结合,以生成并输出最终的情绪识别结果。

18、本专利技术与现有技术相比,具有的有益效果是:

19、1.提高了情绪识别的准确性,能够避免单一模态识别的片面性。

20、2.实现了情绪识别系统在长期使用过程中对用户情绪变化的实时学习和适应,避免“灾难性遗忘”问题。

21、3.解决了情绪识别大模型实时调用中计算资源占用大的问题,保证情绪识别的高效性与实时性。

本文档来自技高网...

【技术保护点】

1.一种基于视频流与语音的实时情绪识别系统,其特征在于,包括:

2.根据权利要求1所述的一种基于视频流与语音的实时情绪识别系统,其特征在于,所述特征提取模块包括:通过卷积神经网络从用户面部表情中提取多层特征图。

3.根据权利要求1所述的一种基于视频流与语音的实时情绪识别系统,其特征在于,所述特征提取模块包括:通过长短期记忆网络从语音信号中提取隐藏状态和单元状态。

4.根据权利要求1所述的一种基于视频流与语音的实时情绪识别系统,其特征在于,所述特征提取模块包括:通过包括OpenFace和FaceNet的预训练模型从所述视频帧中提取视觉特征。

5.根据权利要求1所述的一种基于视频流与语音的实时情绪识别系统,其特征在于,所述特征提取模块包括:通过语谱图生成模型和包括MFCC和RNN的情绪特征提取模型从所述语音信号中提取时序特征。

6.根据权利要求1所述的一种基于视频流与语音的实时情绪识别系统,其特征在于,所述系统还包括增量学习模块:用于实时记录用户的情绪数据,并采用增量学习算法对所述情绪识别模型进行更新。

7.根据权利要求6所述的一种基于视频流与语音的实时情绪识别系统,其特征在于,所述增量学习算法包括iCaRL算法和EWC算法。

8.一种基于视频流与语音的实时情绪识别方法,其特征在于,包括以下步骤:

...

【技术特征摘要】

1.一种基于视频流与语音的实时情绪识别系统,其特征在于,包括:

2.根据权利要求1所述的一种基于视频流与语音的实时情绪识别系统,其特征在于,所述特征提取模块包括:通过卷积神经网络从用户面部表情中提取多层特征图。

3.根据权利要求1所述的一种基于视频流与语音的实时情绪识别系统,其特征在于,所述特征提取模块包括:通过长短期记忆网络从语音信号中提取隐藏状态和单元状态。

4.根据权利要求1所述的一种基于视频流与语音的实时情绪识别系统,其特征在于,所述特征提取模块包括:通过包括openface和facenet的预训练模型从所述视频帧中提取视觉特征。

5....

【专利技术属性】
技术研发人员:杜伟彬滕璐瑶汤非易刘希
申请(专利权)人:广州番禺职业技术学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1