语音情绪交互方法、计算机设备和计算机可读存储介质技术

技术编号：21774610 阅读：31 留言：0更新日期：2019-08-03 22:23

本发明专利技术实施例提供了一种语音情绪交互方法、计算机设备和计算机可读存储介质，解决了现有技术中的语音交互方式无法分析出用户消息的深层次意图以及无法提供更人性化的交互体验的问题。该方法包括：根据用户语音消息的音频数据和文本内容获确定情绪识别结果；根据用户语音消息的文本内容进行意图分析，得到对应的基本意图信息；以及根据情绪识别结果和基本意图信息确定对应的交互指令；获取情绪识别结果包括：提取用户语音消息的音频特征向量；将用户语音消息的音频特征向量与多个情绪特征模型进行匹配；将相匹配的情绪特征模型所对应的情绪分类作为用户语音消息的情绪分类。

Speech Emotion Interaction Method, Computer Equipment and Computer Readable Storage Media

全部详细技术资料下载

【技术实现步骤摘要】
语音情绪交互方法、计算机设备和计算机可读存储介质
本专利技术涉及智能交互
，具体涉及一种语音情绪交互方法、计算机设备和计算机可读存储介质。
技术介绍
随着人工智能技术的不断发展以及人们对于交互体验要求的不断提高，智能交互方式已逐渐开始替代一些传统的人机交互方式，并且已成为一个研究热点。然而，现有智能交互方式仅能通过语音消息转文本并进行语义识别的方式大概分析出用户消息的语义内容，并无法识别用户当前的情绪状态，因而无法根据用户的情绪状态分析出用户消息所实际想要表达的深层次的情绪需求，也无法根据用户消息提供更人性化的交互体验。例如，对于一个正在赶时间的情绪状态为焦急的用户与一个刚开始做行程规划的情绪状态为平和的用户，在询问航班时间信息时所希望得到的回复方式肯定是有所不同的，而根据现有的基于语义的智能交互方式，不同的用户所得到的回复方式是相同的，例如只是把对应的航班时间信息程序给用户。
技术实现思路
有鉴于此，本专利技术实施例提供了一种语音情绪交互方法、计算机设备和计算机可读存储介质，解决了现有技术中的智能交互方式无法分析出用户消息的深层次意图以及无法提供更人性化的交互体验的问题。本专利技术一实施例提供的一种语音情绪交互方法包括：根据所述用户语音消息的音频数据获取音频情绪识别结果，且根据所述用户语音消息的文本内容获取文本情绪识别结果；根据所述用户语音消息的文本内容进行意图分析，得到对应的基本意图信息；以及根据所述情绪识别结果和所述基本意图信息确定对应的交互指令；所述根据所述用户语音消息的音频数据获取情绪识别结果包括：提取所述用户语音消息的音频特征向量，其中所述用...

【技术保护点】
1.一种语音情绪交互方法，其特征在于，包括：根据所述用户语音消息的音频数据获取音频情绪识别结果，且根据所述用户语音消息的文本内容获取文本情绪识别结果，根据所述音频情绪识别结果以及所述文本情绪识别结果确定情绪识别结果；根据所述用户语音消息的文本内容进行意图分析，得到对应的基本意图信息；以及根据所述情绪识别结果和所述基本意图信息确定对应的交互指令；所述根据所述用户语音消息的音频数据获取情绪识别结果包括：提取所述用户语音消息的音频特征向量，其中所述用户语音消息对应所述待识别音频流中的一段话，所述音频特征向量包括以下几种音频特征中的一种或多种：能量特征、发音帧数特征、基音频率特征、共振峰特征、谐波噪比特征以及梅尔倒谱系数特征；将所述用户语音消息的音频特征向量与多个情绪特征模型进行匹配，其中所述多个情绪特征模型分别对应多个情绪分类中的一个；以及将匹配结果为相匹配的所述情绪特征模型所对应的情绪分类作为所述用户语音消息的情绪分类。

【技术特征摘要】
1.一种语音情绪交互方法，其特征在于，包括：根据所述用户语音消息的音频数据获取音频情绪识别结果，且根据所述用户语音消息的文本内容获取文本情绪识别结果，根据所述音频情绪识别结果以及所述文本情绪识别结果确定情绪识别结果；根据所述用户语音消息的文本内容进行意图分析，得到对应的基本意图信息；以及根据所述情绪识别结果和所述基本意图信息确定对应的交互指令；所述根据所述用户语音消息的音频数据获取情绪识别结果包括：提取所述用户语音消息的音频特征向量，其中所述用户语音消息对应所述待识别音频流中的一段话，所述音频特征向量包括以下几种音频特征中的一种或多种：能量特征、发音帧数特征、基音频率特征、共振峰特征、谐波噪比特征以及梅尔倒谱系数特征；将所述用户语音消息的音频特征向量与多个情绪特征模型进行匹配，其中所述多个情绪特征模型分别对应多个情绪分类中的一个；以及将匹配结果为相匹配的所述情绪特征模型所对应的情绪分类作为所述用户语音消息的情绪分类。2.根据权利要求1所述的语音情绪交互方法，其特征在于，所述根据所述情绪识别结果和所述基本意图信息确定对应的交互指令包括：根据所述情绪识别结果和所述基本意图信息确定对应的情绪意图信息；以及根据所述情绪意图信息确定对应的所述交互指令，或根据所述情绪意图信息和所述基本意图信息确定对应的所述交互指令；其中，所述情绪意图信息包括与所述情绪识别结果对应的情感需求信息；或，所述情绪意图信息包括与所述情绪识别结果对应的所述情感需求信息以及所述情绪识别结果与所述基本意图信息的关联关系。3.根据权利要求1所述的语音情绪交互方法，其特征在于，所述多个情绪特征模型通过对包括所述多个情绪分类对应的情绪分类标签的多个预设语音片段各自的音频特征向量集合进行预学习而建立。4.根据权利要求3所述的语音情绪交互方法，其特征在于，所述预学习过程包括：将包括所述多个情绪分类对应的情绪分类标签的多个预设语音片段各自的音频特征向量集合进行聚类处理，得到预设情绪分类的聚类结果；以及根据所述聚类结果，将每个聚类中的所述预设语音片段的音频特征向量集合训练为一个所述情绪特征模型。5.根据权利要求1所述的语音情绪交互方法，其特征在于，所述能量特征包括：短时能量一阶差分，和/或预设频率以下的能量大小；和/或，所述基音频率特征包括：基音频率和/或基音频率一阶差分；和/或，所述共振峰特征包括以下几项中的一种或多种：第一共振峰、第二共振峰、第三共振峰、第一共振峰一阶差分、第二共振峰一阶差分以及第三共振峰一阶差分；和/或，所...

【专利技术属性】
技术研发人员：王慧，余世经，朱频频，
申请(专利权)人：上海智臻智能网络科技股份有限公司，
类型：发明
国别省市：上海,31

全部详细技术资料下载我是这个专利的主人