一种多模态情绪识别方法以及系统技术方案

技术编号:37718499 阅读:10 留言:0更新日期:2023-06-02 00:16
本公开涉及多模态情绪识别方法以及系统,该方法包括:多模态信息预处理步骤,采集用户的语音数据和图像数据,获得对应的语音片段数据和面部图像数据;多模态情绪识别步骤,进行语音、文本和表情视觉情绪分析以得到对应的情绪状态的结果;第一HMM处理步骤,将多模态的情绪状态的结果组合成一组特征,作为观测值输入至该第一HMM,输出各个情绪的对应概率;相关度计算步骤,对于多模态的情绪状态的结果,使用交叉相关函数CCF,计算结果两两之间的相关性;以及第二HMM处理步骤,将相关性结果以及多模态的情绪状态的结果作为观测值输入至该第二HMM,将输出数值最大的情绪作为最终识别结果。将输出数值最大的情绪作为最终识别结果。将输出数值最大的情绪作为最终识别结果。

【技术实现步骤摘要】
一种多模态情绪识别方法以及系统


[0001]本公开涉及生物智能识别
,更具体地涉及一种多模态情绪识别方法以及系统。

技术介绍

[0002]近年来,随着计算机和通信技术的进步,人工智能等新技术不断迅猛发展。在整体技术进步的背景下,在基于人工智能构建的各类智慧系统中,如何有效且准确地动态分析并识别参与者个体的情绪状态,逐渐成为研究热点。
[0003]情绪识别是在人工智能的技术环境中,以计算机工程可实现的方式,结合人类情绪的运作机制,通过获取个体的生理或非生理信号对个体的情绪状态进行自动辨别,是情感计算的一个重要组成部分,属于涉及到神经科学、心理学、认知科学、计算机科学和人工智能等领域的重要的交叉学科研究课题。作为具体的应用领域,情绪识别已在包括例如智能客服、私人助理、教育教学、金融反欺诈、医疗护理、人机交互、服务型机器人等各种场景和领域中有了深入和广泛的应用。例如,在医疗护理的场景下,如果能够实时知晓患者、特别是有表达障碍的患者的情绪状态,就能够根据患者的情绪采取最优的护理措施,提高护理质量;在产品开发领域,如果能够识别出用户使用产品过程中的情绪状态,了解用户体验,则有助于开发人员改善产品功能,设计出更适合用户需求的产品;在各种人机交互系统中,如果系统能够实时识别出用户的情绪状态,有利于使人与机器的交互变得更加友好和自然;在包括电信领域在内的几乎所有服务行业中,情绪识别可以应用在客户服务方面,提高客户的满意度。
[0004]作为情绪识别研究的着眼点,可以包括面部表情、语音、心率、行为、文本和生理信号识别等方面,通过以上内容来判断用户的情绪状态。然而,现有的情绪识别主要局限于语音、生物信号等某种单一特定的因素,通过大规模提取用户特征,进行分析和检测;考虑到运算的复杂度等,很少结合多种因素以利用各个方面的信息进行分析判断。因而,现有的情绪识别方案在采用单一数据源的情况下,在采集的数据量不够大,或者当面对不同文化背景或个体差异的识别对象时,识别性能往往不够稳定而容易出现差错。因此,业内亟需一种能够有效提升情绪识别的准确度和稳定性的可行的技术方案。

技术实现思路

[0005]针对上述现有的情绪识别方案的准确度和稳定性不足等问题,本领域研究人员综合运用语音识别、自然语言处理、表情识别等多方面的手段进行了深入研发,并且从结合不同因素之间的相关性的角度进行了多模态的情绪识别。本公开的目的在于提供一种多模态情绪识别方法以及系统,使得能够有效提升情绪识别的准确度和稳定性。
[0006]在下文中给出了关于本公开的简要概述,以便提供关于本公开的一些方面的基本理解。但是,应当理解,这个概述并不是关于本公开的穷举性概述。它并不是意图用来限定本公开的关键性部分或重要部分,也不是意图用来限定本公开的范围。其目的仅仅是以简
化的形式给出关于本公开的某些概念,以此作为稍后给出的更详细描述的前序。
[0007]根据本公开的一个方面,提供了一种多模态情绪识别方法。该方法可以包括:多模态信息预处理步骤,采集作为情绪识别对象在说话时产生的包括至少语音数据和图像数据的多模态原始数据,将多模态原始数据中的语音数据进行空白片段检测和标记后存储为语音片段数据,利用语音转文字ASR(Automatic Speech Recognition)对语音音频流进行解析以将语音转化为文本片段数据,对多模态原始数据中的图像数据进行面部检测和裁剪后将面部图像数据存储于存储器;多模态情绪识别步骤,根据所述多模态信息预处理步骤中得到的至少包括语音片段数据、文本片段数据和面部图像数据的多模态信息,分别进行语音情绪分析、文本情绪分析和表情视觉情绪分析,以得到基于语音的情绪状态、基于文本的情绪状态和基于视觉的情绪状态的结果;第一隐马尔可夫模型HMM(Hidden Markov Model)处理步骤,将根据所述多模态情绪识别步骤中得出的语音情绪分析、文本情绪分析和表情视觉情绪分析而得到的情绪状态的结果组合成一组特征,作为该第一HMM中的观测值输入至该第一HMM,输出多种情绪中的各个情绪的对应概率;相关度计算步骤,对于所述多模态情绪识别步骤中得出的基于语音的情绪状态、基于文本的情绪状态和基于视觉的情绪状态的结果,使用交叉相关函数CCF(Cross

Correlation Function),计算多模态的情绪状态的结果两两之间的相关性;以及第二HMM处理步骤,将所述相关度计算步骤中得到的相关性结果以及所述第一HMM处理步骤中得到的各个情绪的概率,作为该第二HMM中的观测值输入至该第二HMM,将输出的各个情绪的状态值中数值最大的情绪作为最终的情绪识别结果。
[0008]根据本公开的另一方面,提供了一种多模态情绪识别系统。该系统可以包括:语音采集单元,用于采集情绪识别对象的语音,获取语音处理规则,基于所述语音处理规则对实时采集到的语音数据中的空白片段进行检测并标记以得到标记结果,在语音采集完成时得到初始语音文件并保存;语音转文字单元,利用关键字识别与模糊匹配的方法将输入的语音信息转换成对应的文字信息并输出;视觉表情采集单元,用于追踪情绪识别对象的面部并拍摄记录该情绪识别对象在各个时刻的表情,拍摄包含面部的面部表情图像,对所述面部表情图像进行面部区域裁剪以获得面部图像数据;语音情绪分类器,以所述语音采集单元的语音片段为输入,基于训练好的内置模型输出多种情绪中的各个情绪的情绪状态的结果;文本情绪分类器,以语音转文字单元输出的文本片段作为输入,输出多种情绪中的各个情绪的情绪状态的结果;表情情绪分类器,以所述视觉表情采集单元采集到的面部图像数据为输入,输出多种情绪中的各个情绪的情绪状态的结果;第一HMM模块,具有18个状态和6个输出,输入为多模态的情绪状态的结果的特征向量,输出为多种情绪中的各个情绪的对应概率;相关度计算单元,对于所述语音情绪分类器、所述文本情绪分类器和所述表情情绪分类器得出的基于语音的情绪状态、基于文本的情绪评分和基于视觉的情绪状态的结果,使用交叉相关函数CCF,计算多模态的情绪状态的结果两两之间的相关性;以及第二HMM模块,将所述相关度计算单元得到的相关性结果以及所述第一HMM模块输出的各个情绪的概率,作为该第二HMM中的观测值输入至该第二HMM,将输出状态值中数值最大的情绪作为最终的情绪识别结果。
[0009]根据本公开的另一方面,提供了一种多模态情绪识别装置。该装置可以包括:存储器,其上存储有指令;以及处理器,被配置为执行存储在所述存储器上的指令,以执行上述根据本公开的一个方面的多模态情绪识别方法。
[0010]根据本公开的又一方面,提供了一种计算机可读存储介质。该计算机可读存储介质可以存储有计算机可执行指令,所述计算机可执行指令在由一个或多个处理器执行时,使得所述一个或多个处理器执行上述根据本公开的一个方面的多模态情绪识别方法。
[0011]根据本公开的再一方面,提供了一种计算机程序产品。该计算机程序产品可以包括计算机程序/指令,当该计算机程序/指令被处理器执行时实现上述根据本公开的一个方面的多模态情绪识别本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种多模态情绪识别方法,包括:多模态信息预处理步骤,采集作为情绪识别对象在说话时产生的包括至少语音数据和图像数据的多模态原始数据,将多模态原始数据中的语音数据进行空白片段检测和标记后存储为语音片段数据,利用语音转文字ASR对语音音频流进行解析以将语音转化为文本片段数据,对多模态原始数据中的图像数据进行面部检测和裁剪后将面部图像数据存储于存储器;多模态情绪识别步骤,根据所述多模态信息预处理步骤中得到的至少包括语音片段数据、文本片段数据和面部图像数据的多模态信息,分别进行语音情绪分析、文本情绪分析和表情视觉情绪分析,以得到基于语音的情绪状态、基于文本的情绪状态和基于视觉的情绪状态的结果;第一隐马尔可夫模型HMM处理步骤,将根据所述多模态情绪识别步骤中的语音情绪分析、文本情绪分析和表情视觉情绪分析而得到的情绪状态的结果组合成一组特征,作为该第一HMM中的观测值输入至该第一HMM,输出多种情绪中的各个情绪的对应概率;相关度计算步骤,对于所述多模态情绪识别步骤中得出的基于语音的情绪状态、基于文本的情绪状态和基于视觉的情绪状态的结果,使用交叉相关函数CCF,计算多模态的情绪状态的结果两两之间的相关性;以及第二HMM处理步骤,将所述相关度计算步骤中得到的相关性结果以及所述第一HMM处理步骤中得到的各个情绪的概率,作为该第二HMM中的观测值输入至该第二HMM,将输出的各个情绪的状态值中数值最大的情绪作为最终的情绪识别结果。2.根据权利要求1所述的多模态情绪识别方法,其中,在所述多模态信息预处理步骤中,在接收到语音采集指令时,启动语音录制功能,对用户语音进行采集,基于获取的所述语音处理规则对实时采集到的语音数据中的空白片段进行检测并标记,得到标记结果,在语音采集完成得到初始语音文件并保存。3.根据权利要求2所述的多模态情绪识别方法,其中,在所述多模态信息预处理步骤中,利用关键字识别与模糊匹配结合的方式将输入的语音数据转换成对应的文字信息并输出。4.根据权利要求1所述的多模态情绪识别方法,其中,在所述多模态信息预处理步骤中,拍摄包含情绪识别对象的面部的面部表情图像,追踪情绪识别对象的面部并拍摄记录情绪识别对象在各个时刻的表情,对所拍摄的面部表情图像进行面部区域裁剪从而获得面部图像数据。5.根据权利要求1所述的多模态情绪识别方法,其中,在所述多模态情绪识别步骤中,针对语音片段数据,从采集到的语音信号中提取表达情感的声学特征,并找出提取的声学特征与情绪的映射关系,通过特征提取构造语音情绪分类器,利用该语音情绪分类器得出各段语音片段数据的情绪状态的结果。6.根据权利要求1所述的多模态情绪识别方法,其中,在所述多模态情绪识别步骤中,针对文本片段数据,基于包括俚语词库、情绪词库、增强词库、削弱词库、否定词库的各类词库,构建无监督的文本情绪分类器,利用该文本情绪分类器计算各个文本片段数据的...

【专利技术属性】
技术研发人员:张星星张画
申请(专利权)人:中国电信股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1