一种多模态情绪识别方法以及系统技术方案

技术编号：37718499 阅读：10 留言：0更新日期：2023-06-02 00:16

本公开涉及多模态情绪识别方法以及系统，该方法包括：多模态信息预处理步骤，采集用户的语音数据和图像数据，获得对应的语音片段数据和面部图像数据；多模态情绪识别步骤，进行语音、文本和表情视觉情绪分析以得到对应的情绪状态的结果；第一HMM处理步骤，将多模态的情绪状态的结果组合成一组特征，作为观测值输入至该第一HMM，输出各个情绪的对应概率；相关度计算步骤，对于多模态的情绪状态的结果，使用交叉相关函数CCF，计算结果两两之间的相关性；以及第二HMM处理步骤，将相关性结果以及多模态的情绪状态的结果作为观测值输入至该第二HMM，将输出数值最大的情绪作为最终识别结果。将输出数值最大的情绪作为最终识别结果。将输出数值最大的情绪作为最终识别结果。

全部详细技术资料下载

【技术实现步骤摘要】
一种多模态情绪识别方法以及系统

[0001]本公开涉及生物智能识别
，更具体地涉及一种多模态情绪识别方法以及系统。

技术介绍

[0002]近年来，随着计算机和通信技术的进步，人工智能等新技术不断迅猛发展。在整体技术进步的背景下，在基于人工智能构建的各类智慧系统中，如何有效且准确地动态分析并识别参与者个体的情绪状态，逐渐成为研究热点。
[0003]情绪识别是在人工智能的技术环境中，以计算机工程可实现的方式，结合人类情绪的运作机制，通过获取个体的生理或非生理信号对个体的情绪状态进行自动辨别，是情感计算的一个重要组成部分，属于涉及到神经科学、心理学、认知科学、计算机科学和人工智能等领域的重要的交叉学科研究课题。作为具体的应用领域，情绪识别已在包括例如智能客服、私人助理、教育教学、金融反欺诈、医疗护理、人机交互、服务型机器人等各种场景和领域中有了深入和广泛的应用。例如，在医疗护理的场景下，如果能够实时知晓患者、特别是有表达障碍的患者的情绪状态，就能够根据患者的情绪采取最优的护理措施，提高护理质量；在产品开发领域，如果能够识别出用户使用产品过程中的情绪状态，了解用户体验，则有助于开发人员改善产品功能，设计出更适合用户需求的产品；在各种人机交互系统中，如果系统能够实时识别出用户的情绪状态，有利于使人与机器的交互变得更加友好和自然；在包括电信领域在内的几乎所有服务行业中，情绪识别可以应用在客户服务方面，提高客户的满意度。
[0004]作为情绪识别研究的着眼点，可以包括面部表情、语音、心率、行为、文本和生理信号...

【技术保护点】

【技术特征摘要】
1.一种多模态情绪识别方法，包括：多模态信息预处理步骤，采集作为情绪识别对象在说话时产生的包括至少语音数据和图像数据的多模态原始数据，将多模态原始数据中的语音数据进行空白片段检测和标记后存储为语音片段数据，利用语音转文字ASR对语音音频流进行解析以将语音转化为文本片段数据，对多模态原始数据中的图像数据进行面部检测和裁剪后将面部图像数据存储于存储器；多模态情绪识别步骤，根据所述多模态信息预处理步骤中得到的至少包括语音片段数据、文本片段数据和面部图像数据的多模态信息，分别进行语音情绪分析、文本情绪分析和表情视觉情绪分析，以得到基于语音的情绪状态、基于文本的情绪状态和基于视觉的情绪状态的结果；第一隐马尔可夫模型HMM处理步骤，将根据所述多模态情绪识别步骤中的语音情绪分析、文本情绪分析和表情视觉情绪分析而得到的情绪状态的结果组合成一组特征，作为该第一HMM中的观测值输入至该第一HMM，输出多种情绪中的各个情绪的对应概率；相关度计算步骤，对于所述多模态情绪识别步骤中得出的基于语音的情绪状态、基于文本的情绪状态和基于视觉的情绪状态的结果，使用交叉相关函数CCF，计算多模态的情绪状态的结果两两之间的相关性；以及第二HMM处理步骤，将所述相关度计算步骤中得到的相关性结果以及所述第一HMM处理步骤中得到的各个情绪的概率，作为该第二HMM中的观测值输入至该第二HMM，将输出的各个情绪的状态值中数值最大的情绪作为最终的情绪识别结果。2.根据权利要求1所述的多模态情绪识别方法，其中，在所述多模态信息预处理步骤中，在接收到语音采集指令时，启动语音录制功能，对用户语音进行采集，基于获取的所述语音处理规则对实时采集到的语音数据中的空白片段进行检测并标记，得到标记结果，在语音采集完成得到初始语音文件并保存。3.根据权利要求2所述的多模态情绪识别方法，其中，在所述多模态信息预处理步骤中，利用关键字识别与模糊匹配结合的方式将输入的语音数据转换成对应的文字信息并输出。4.根据权利要求1所述的多模态情绪识别方法，其中，在所述多模态信息预处理步骤中，拍摄包含情绪识别对象的面部的面部表情图像，追踪情绪识别对象的面部并拍摄记录情绪识别对象在各个时刻的表情，对所拍摄的面部表情图像进行面部区域裁剪从而获得面部图像数据。5.根据权利要求1所述的多模态情绪识别方法，其中，在所述多模态情绪识别步骤中，针对语音片段数据，从采集到的语音信号中提取表达情感的声学特征，并找出提取的声学特征与情绪的映射关系，通过特征提取构造语音情绪分类器，利用该语音情绪分类器得出各段语音片段数据的情绪状态的结果。6.根据权利要求1所述的多模态情绪识别方法，其中，在所述多模态情绪识别步骤中，针对文本片段数据，基于包括俚语词库、情绪词库、增强词库、削弱词库、否定词库的各类词库，构建无监督的文本情绪分类器，利用该文本情绪分类器计算各个文本片段数据的...

【专利技术属性】
技术研发人员：张星星，张画，
申请(专利权)人：中国电信股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人