一种语音交互方法及装置制造方法及图纸

技术编号：44560898 阅读：3 留言：0更新日期：2025-03-11 14:20

本申请公开了一种语音交互方法及装置，涉及语音交互技术领域，主要目的在于在语音交互过程中给出匹配用户情感的应答，实现与用户的情感互动，以提升用户的语音交互体验。主要技术方案包括：获取当前对话过程中用户的语音数据，生成用于反馈所述语音数据的回复文本；对语音数据进行情感识别，确定用户的声学情感特征和语义情感特征；结合声学情感特征和语义情感特征，确定用户的真实情感特征；确定适配用于反馈真实情感特征的目标情感特征和目标音色特征；采用目标情感特征和目标音色特征，播放回复文本。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及语音交互，特别是涉及一种语音交互方法及装置。

技术介绍

1、随着人工智能技术的发展，智能语音交互产品被广泛应用在人们的生产生活中。智能语音交互产品能够对用户输入的语音进行识别和处理，并基于识别和处理结果输出相应的应答语音，以实现人机之间的语音交互。

2、然而，现有的智能语音交互产品进行语音交互时，只能按照固定音色机械化，且缺少情感的输出应答语音。这种语音交互方式，无法给出匹配用户情感的应答，较为生硬，与用户不能产生情感互动，从而造成用户的语音交互体验不佳。

3、因此，如何在语音交互过程中给出匹配用户情感的应答，实现与用户的情感互动成为目前亟需解决的问题。

技术实现思路

1、本申请提出了一种语音交互方法及装置，主要目的在于在语音交互过程中给出匹配用户情感的应答，实现与用户的情感互动，以提升用户的语音交互体验。

2、为了达到上述目的，本申请主要提供了如下技术方案：

3、第一方面，本申请提供了一种语音交互方法，本实施例提供的语音交互方法可以包括如下步骤：获取当前对话过程中用户的语音数据，生成用于反馈所述语音数据的回复文本；对所述语音数据进行情感识别，确定所述用户的声学情感特征和语义情感特征；结合所述声学情感特征和所述语义情感特征，确定所述用户的真实情感特征；确定适配用于反馈所述真实情感特征的目标情感特征和目标音色特征；采用所述目标情感特征和所述目标音色特征，播放所述回复文本。

4、在本申请一些实施例中，本实施例提供的语

5、则，生成用于反馈所述语音数据的回复文本，包括：基于用于将语音转换为文本的语音识别模型，将所述语音数据转换为相应的目标文本；采用意图识别模型，基于所述目标文本识别所述用户的意图；采用用于生成回复文本的第一大语言模型，基于所述目标文本、所述意图、所述业务信息以及所述属性，生成用于反馈所述语音数据的回复文本。

6、在本申请一些实施例中，所述语音识别模型包括一种或多种模型，则，基于用于将语音转换为文本的语音识别模型，将所述语音数据转换为相应的目标文本，包括：基于每种语音识别模型，分别将语音数据转换为相应的文本；基于每种语音识别模型对应的模型权重，整合每种语音识别模型转换得到的文本，得到所述目标文本，其中，所述模型权重用于指示语音识别模型对于所述业务信息和所述属性转换得到的文本的可信度。

7、在本申请一些实施例中，结合所述声学情感特征和所述语义情感特征，确定所述用户的真实情感特征，包括：获取所述声学情感特征和所述语义情感特征分别对应的情感权重，所述情感权重用于指示相应情感特征对所述用户真实情感特征的影响程度；基于所述声学情感特征和所述语义情感特征分别对应的情感权重，对所述声学情感特征和所述语义情感特征进行加权运算，得到所述用户的真实情感特征。

8、在本申请一些实施例中，采用所述目标情感特征和所述目标音色特征，播放所述回复文本，包括：以预设窗口长度，按照所述回复文本中字符的排列顺序，依次截取字符序列；每截取一个字符序列，采用所述目标情感特征和所述目标音色特征，合成相应的音频帧，并对所述音频帧进行流式播放。

9、在本申请一些实施例中，对所述语音数据进行情感识别，确定所述用户的声学情感特征，包括：采用适配于所述用户的声学情感表达习惯的多情感声学分类模型，对所述语音数据进行情感识别，得到所述用户的声学情感特征。

10、在本申请一些实施例中，对所述语音数据进行情感识别，确定所述用户的语义情感特征，包括：基于用于将语音转换为文本的语音识别模型，将所述语音数据转换为相应的目标文本；采用适配于所述用户的语义情感表达习惯的第二大语言模型，对所述目标文本进行情感识别，得到所述用户的语义情感特征。

11、在本申请一些实施例中，确定适配用于反馈所述真实情感特征的目标情感特征和目标音色特征，包括：采用第一情感音色模型，对所述真实情感特征进行处理，得到所述目标情感特征和所述目标音色特征，其中，所述第一情感音色模型基于多组第一数据训练得到，且每组第一数据包括真实情感特征以及用于反馈真实情感特征的情感特征和音色特征。

12、在本申请一些实施例中，确定适配用于反馈所述真实情感特征的目标情感特征和目标音特征色，包括：确定当前对话过程相关的业务信息，以及所述用户与所述业务信息相关的属性；采用适配于所述业务信息和所述属性的第二情感音色模型，对所述真实情感特征进行处理，得到所述目标情感特征和所述目标音色特征，其中，所述第二情感音色模型基于多组第二数据训练得到，且每组第二数据包括在所述业务信息和所述属性下的真实情感特征以及用于反馈真实情感特征的情感特征和音色特征。

13、第二方面，本申请提供了一种语音交互装置，本实施例提供的语音交互装置可以包括：

14、生成模块，用于获取当前对话过程中用户的语音数据，生成用于反馈所述语音数据的回复文本；

15、识别模块，用于对所述语音数据进行情感识别，确定所述用户的声学情感特征和语义情感特征；

16、第一确定模块，用于结合所述声学情感特征和所述语义情感特征，确定所述用户的真实情感特征；

17、第二确定模块，用于确定适配用于反馈所述真实情感特征的目标情感特征和目标音色特征；

18、播放模块，用于采用所述目标情感特征和所述目标音色特征，播放所述回复文本。

19、第三方面，本申请提供了一种计算机可读存储介质，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行第一方面的语音交互方法。

20、第四方面，本申请提供了一种电子设备，所述电子设备包括：存储器，用于存储程序；处理器，耦合至所述存储器，用于运行所述程序以执行第一方面的语音交互方法。

21、本申请提供的语音交互方法及装置，在进行语音交互时，获取当前对话过程中用户的语音数据，生成用于反馈语音数据的回复文本。然后对语音数据进行情感识别，确定用户的声学情感特征和语义情感特征，并结合声学情感特征和语义情感特征，确定用户的真实情感特征。最后确定适配用于反馈真实情感特征的目标情感特征和目标音色特征，并采用目标情感特征和目标音色特征，播放回复文本。可见，本申请提供的方案并没有按照固定音色机械化，且缺少情感的播放用于反馈语音数据的回复文本，而是在获取到对话过程中用户的语音数据之后，通过用户的声学情感特征和语义情感特征，准确的识别出用户的真实情感特征，然后通过适配于反馈真实情感特征的情感特征和音色特征，向用户播放用于反馈语音数据的回复文本，这样，在播放回复文本时能够给出匹配用户情感的应答，实现与用户的情感互动，从而使用户感知到情感反馈，提升用户的语音交互体验。

22、上述说明仅是本申请技术方案的概述，为了能够更清楚了解本申请的技术手段，而可依照说明书的内容予以实施，并且为了让本申请的上述和本文档来自技高网...

【技术保护点】

1.一种语音交互方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：确定当前对话过程相关的业务信息、以及所述用户与所述业务信息相关的属性；

3.根据权利要求2所述的方法，其特征在于，所述语音识别模型包括一种或多种模型，则，基于用于将语音转换为文本的语音识别模型，将所述语音数据转换为相应的目标文本，包括：

4.根据权利要求1所述的方法，其特征在于，结合所述声学情感特征和所述语义情感特征，确定所述用户的真实情感特征，包括：

5.根据权利要求1所述的方法，其特征在于，采用所述目标情感特征和所述目标音色特征，播放所述回复文本，包括：

6.根据权利要求1-5中任一项所述的方法，其特征在于，对所述语音数据进行情感识别，确定所述用户的声学情感特征，包括：采用适配于所述用户的声学情感表达习惯的多情感声学分类模型，对所述语音数据进行情感识别，得到所述用户的声学情感特征；

7.根据权利要求1-5中任一项所述的方法，其特征在于，确定适配用于反馈所述真实情感特征的目标情感特征和目标音色特征，包括：

8.一种语音交互装置，其特征在于，所述装置包括：

9.一种计算机可读存储介质，其特征在于，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行权利要求1至权利要求7中任意一项所述的语音交互方法。

10.一种电子设备，其特征在于，所述电子设备包括：

...

【技术特征摘要】

1.一种语音交互方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：确定当前对话过程相关的业务信息、以及所述用户与所述业务信息相关的属性；

4.根据权利要求1所述的方法，其特征在于，结合所述声学情感特征和所述语义情感特征，确定所述用户的真实情感特征，包括：

5.根据权利要求1所述的方法，其特征在于，采用所述目标情感特征和所述目标音色特征，播放所述回复文本，包括：

6.根据权利要求1-5...

【专利技术属性】
技术研发人员：李作强，程熙恺，
申请(专利权)人：百融至信北京科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人