语音情绪交互方法、计算机设备和计算机可读存储介质技术

技术编号:21774610 阅读:31 留言:0更新日期:2019-08-03 22:23
本发明专利技术实施例提供了一种语音情绪交互方法、计算机设备和计算机可读存储介质,解决了现有技术中的语音交互方式无法分析出用户消息的深层次意图以及无法提供更人性化的交互体验的问题。该方法包括:根据用户语音消息的音频数据和文本内容获确定情绪识别结果;根据用户语音消息的文本内容进行意图分析,得到对应的基本意图信息;以及根据情绪识别结果和基本意图信息确定对应的交互指令;获取情绪识别结果包括:提取用户语音消息的音频特征向量;将用户语音消息的音频特征向量与多个情绪特征模型进行匹配;将相匹配的情绪特征模型所对应的情绪分类作为用户语音消息的情绪分类。

Speech Emotion Interaction Method, Computer Equipment and Computer Readable Storage Media

【技术实现步骤摘要】
语音情绪交互方法、计算机设备和计算机可读存储介质
本专利技术涉及智能交互
,具体涉及一种语音情绪交互方法、计算机设备和计算机可读存储介质。
技术介绍
随着人工智能技术的不断发展以及人们对于交互体验要求的不断提高,智能交互方式已逐渐开始替代一些传统的人机交互方式,并且已成为一个研究热点。然而,现有智能交互方式仅能通过语音消息转文本并进行语义识别的方式大概分析出用户消息的语义内容,并无法识别用户当前的情绪状态,因而无法根据用户的情绪状态分析出用户消息所实际想要表达的深层次的情绪需求,也无法根据用户消息提供更人性化的交互体验。例如,对于一个正在赶时间的情绪状态为焦急的用户与一个刚开始做行程规划的情绪状态为平和的用户,在询问航班时间信息时所希望得到的回复方式肯定是有所不同的,而根据现有的基于语义的智能交互方式,不同的用户所得到的回复方式是相同的,例如只是把对应的航班时间信息程序给用户。
技术实现思路
有鉴于此,本专利技术实施例提供了一种语音情绪交互方法、计算机设备和计算机可读存储介质,解决了现有技术中的智能交互方式无法分析出用户消息的深层次意图以及无法提供更人性化的交互体验的问题。本专利技术一实施例提供的一种语音情绪交互方法包括:根据所述用户语音消息的音频数据获取音频情绪识别结果,且根据所述用户语音消息的文本内容获取文本情绪识别结果;根据所述用户语音消息的文本内容进行意图分析,得到对应的基本意图信息;以及根据所述情绪识别结果和所述基本意图信息确定对应的交互指令;所述根据所述用户语音消息的音频数据获取情绪识别结果包括:提取所述用户语音消息的音频特征向量,其中所述用户语音消息对应所述待识别音频流中的一段话,所述音频特征向量包括以下几种音频特征中的一种或多种:能量特征、发音帧数特征、基音频率特征、共振峰特征、谐波噪比特征以及梅尔倒谱系数特征;将所述用户语音消息的音频特征向量与多个情绪特征模型进行匹配,其中所述多个情绪特征模型分别对应多个情绪分类中的一个;以及将匹配结果为相匹配的所述情绪特征模型所对应的情绪分类作为所述用户语音消息的情绪分类。本专利技术一实施例提供的一种计算机设备包括:存储器、处理器以及存储在所述存储器上被所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如前所述方法的步骤。本专利技术一实施例提供的一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如前所述方法的步骤。本专利技术实施例提供的一种语音情绪交互方法、计算机设备和计算机可读存储介质,在理解用户的基本意图信息的基础上,结合了基于用户语音消息的音频数据和文本内容获取的情绪识别结果,并进一步根据基本意图信息和情绪识别结果给出带有情绪的交互指令,从而解决了现有技术中的智能交互方式无法分析出用户消息的深层次意图以及无法提供更人性化的交互体验的问题。附图说明图1所示为本专利技术一实施例提供的一种语音情绪交互方法的流程示意图。图2所示为本专利技术一实施例所提供的语音情绪交互方法中根据用户语音消息的音频数据获取音频情绪识别结果的流程示意图。图3所示为本专利技术一实施例所提供的语音情绪交互方法中建立情绪特征模型的流程示意图。图4所示为本专利技术一实施例所提供的语音情绪交互方法中提取用户语音消息的流程示意图。图5所示为本专利技术一实施例所提供的语音情绪交互方法中确定语音开始帧以及语音结束帧的流程示意图。图6所示为本专利技术一实施例所提供的语音情绪交互方法中检测发音帧或非发音帧的流程示意图。图7所示为本专利技术一实施例提供的语音情绪交互方法中根据用户语音消息获取基本意图信息的流程示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。图1所示为本专利技术一实施例提供的一种语音情绪交互方法的流程示意图。如图1所示,该语音情绪交互方法包括如下步骤:步骤101:根据用户语音消息的音频数据获取音频情绪识别结果,且根据用户语音消息的文本内容获取文本情绪识别结果,根据所述音频情绪识别结果以及所述文本情绪识别结果确定情绪识别结果。例如,在呼叫中心系统的客服交互场景中,用户可能是客户端也可能是服务端;再例如在智能机器人交互场景中,用户语音消息就可包括用户通过该智能机器人的语音输入模块输入的信息。由于不同情绪状态的用户语音消息的音频数据会包括不同的音频特征,此时就可根据用户语音消息的音频数据获取音频情绪识别结果,并根据音频情绪识别结果确定情绪识别结果。根据该用户消息所获取到的情绪识别结果将在后续的过程中与基本意图信息进行结合,以推测用户的情绪意图,或直接根据基本意图信息和情绪识别结果给出带有情绪的交互指令。在本专利技术一实施例中,音频情绪识别结果和文本情绪识别结果可通过多种方式来表征。在本专利技术一实施例中,可采用离散的情绪分类的方式来表征情绪识别结果,此时音频情绪识别结果和文本情绪识别结果可分别包括多个情绪分类中的一种或多种。例如,在客服交互场景中,该多个情绪分类就可包括:满意分类、平静分类以及烦躁分类,以对应客服交互场景中用户可能出现的情绪状态;或者,该多个情绪分类可包括:满意分类、平静分类、烦躁分类以及生气分类,以对应客服交互场景中客服人员可能出现的情绪状态。然而应当理解,这些情绪分类的种类和数量可根据实际的应用场景需求而调整,本专利技术对情绪分类的种类和数量同样不做严格限定。在一进一步实施例中,每个情绪分类还可包括多个情绪强度级别。具体而言,情绪分类和情绪强度级别可以认为是两个维度参数,可以彼此独立(例如,每种情绪分类都有对应的N种情绪强度级别,例如轻度、中度和重度),也可以有预设的对应关系(例如“烦躁”情绪分类包括三种情绪强度级别,轻度、中度和重度;而“满意”情绪分类只包括两种情绪强度级别,中度和重度)。由此可见,此时的情绪强度级别可以看做是情绪分类的一个属性参数,当通过情绪识别过程确定一种情绪分类时,也就确定了该情绪分类的情绪强度级别。在本专利技术另一实施例中,还可采用非离散的维度情绪模型的方式来表征情绪识别结果。此时音频情绪识别结果和文本情绪识别结果可分别对应多维情感空间中的一个坐标点,多维情感空间中的每个维度对应一个心理学定义的情感因素。例如,可采用PAD(PleasureArousalDominanc)三维情绪模型。该模型认为情绪具有愉悦度,激活度和优势度三个维度,每种情绪都可通过这三个维度所分别对应的情感因素来表征。其中P代表愉悦度,表示个体情绪状态的正负特性;A代表激活度,表示个体的神经胜利激活水平;D代表优势度,表示个体对情景和他人的控制状态。应当理解,音频情绪识别结果和文本情绪识别结果也可采用其他的表征方式来表征,本专利技术对具体的表征方式并不做限定。在本专利技术一实施例中,音频情绪识别结果和文本情绪识别结果分别对应多维情感空间中的一个坐标点,此时就可将音频情绪识别结果和文本情绪识别结果在多维情感空间中的坐标点的坐标值进行加权平均处理,将加权平均处理后得到的坐标点作为情绪识别结果。例如,当采用PAD三维情绪模型时,音频情绪识别结果表征为(p1,a1,d1),文本本文档来自技高网...

【技术保护点】
1.一种语音情绪交互方法,其特征在于,包括:根据所述用户语音消息的音频数据获取音频情绪识别结果,且根据所述用户语音消息的文本内容获取文本情绪识别结果,根据所述音频情绪识别结果以及所述文本情绪识别结果确定情绪识别结果;根据所述用户语音消息的文本内容进行意图分析,得到对应的基本意图信息;以及根据所述情绪识别结果和所述基本意图信息确定对应的交互指令;所述根据所述用户语音消息的音频数据获取情绪识别结果包括:提取所述用户语音消息的音频特征向量,其中所述用户语音消息对应所述待识别音频流中的一段话,所述音频特征向量包括以下几种音频特征中的一种或多种:能量特征、发音帧数特征、基音频率特征、共振峰特征、谐波噪比特征以及梅尔倒谱系数特征;将所述用户语音消息的音频特征向量与多个情绪特征模型进行匹配,其中所述多个情绪特征模型分别对应多个情绪分类中的一个;以及将匹配结果为相匹配的所述情绪特征模型所对应的情绪分类作为所述用户语音消息的情绪分类。

【技术特征摘要】
1.一种语音情绪交互方法,其特征在于,包括:根据所述用户语音消息的音频数据获取音频情绪识别结果,且根据所述用户语音消息的文本内容获取文本情绪识别结果,根据所述音频情绪识别结果以及所述文本情绪识别结果确定情绪识别结果;根据所述用户语音消息的文本内容进行意图分析,得到对应的基本意图信息;以及根据所述情绪识别结果和所述基本意图信息确定对应的交互指令;所述根据所述用户语音消息的音频数据获取情绪识别结果包括:提取所述用户语音消息的音频特征向量,其中所述用户语音消息对应所述待识别音频流中的一段话,所述音频特征向量包括以下几种音频特征中的一种或多种:能量特征、发音帧数特征、基音频率特征、共振峰特征、谐波噪比特征以及梅尔倒谱系数特征;将所述用户语音消息的音频特征向量与多个情绪特征模型进行匹配,其中所述多个情绪特征模型分别对应多个情绪分类中的一个;以及将匹配结果为相匹配的所述情绪特征模型所对应的情绪分类作为所述用户语音消息的情绪分类。2.根据权利要求1所述的语音情绪交互方法,其特征在于,所述根据所述情绪识别结果和所述基本意图信息确定对应的交互指令包括:根据所述情绪识别结果和所述基本意图信息确定对应的情绪意图信息;以及根据所述情绪意图信息确定对应的所述交互指令,或根据所述情绪意图信息和所述基本意图信息确定对应的所述交互指令;其中,所述情绪意图信息包括与所述情绪识别结果对应的情感需求信息;或,所述情绪意图信息包括与所述情绪识别结果对应的所述情感需求信息以及所述情绪识别结果与所述基本意图信息的关联关系。3.根据权利要求1所述的语音情绪交互方法,其特征在于,所述多个情绪特征模型通过对包括所述多个情绪分类对应的情绪分类标签的多个预设语音片段各自的音频特征向量集合进行预学习而建立。4.根据权利要求3所述的语音情绪交互方法,其特征在于,所述预学习过程包括:将包括所述多个情绪分类对应的情绪分类标签的多个预设语音片段各自的音频特征向量集合进行聚类处理,得到预设情绪分类的聚类结果;以及根据所述聚类结果,将每个聚类中的所述预设语音片段的音频特征向量集合训练为一个所述情绪特征模型。5.根据权利要求1所述的语音情绪交互方法,其特征在于,所述能量特征包括:短时能量一阶差分,和/或预设频率以下的能量大小;和/或,所述基音频率特征包括:基音频率和/或基音频率一阶差分;和/或,所述共振峰特征包括以下几项中的一种或多种:第一共振峰、第二共振峰、第三共振峰、第一共振峰一阶差分、第二共振峰一阶差分以及第三共振峰一阶差分;和/或,所...

【专利技术属性】
技术研发人员:王慧余世经朱频频
申请(专利权)人:上海智臻智能网络科技股份有限公司
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1