基于重构梅尔频谱特征的个性化语音应答方法及系统技术方案

技术编号：42316103 阅读：26 留言：0更新日期：2024-08-14 15:58

本申请涉及一种基于重构梅尔频谱特征的个性化语音应答方法、系统、计算机设备、计算机可读存储介质及计算机程序产品。该方法包括：根据语音服务场景确定用户对应的内容音频；根据用户的细粒度画像特征确定音色音频；将所述内容音频和所述音色音频输入音色转换模型中；音色转换模型根据所述内容音频和音色音频分别生成内容特征和音色特征；音色转换模型利用所述内容特征和所述音色特征生成重构梅尔频谱特征；利用声码器模型，运用所述重构梅尔频谱特征合成个性化语音应答音频。本申请能够在不改变原有的智能客服机器人话术的情况下，实现智能客服机器人音色与用户的精细化匹配，从而为用户提供定制化语音服务。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及计算机信息处理领域，具体而言，涉及一种基于重构梅尔频谱特征的个性化语音应答方法、系统、计算机设备、计算机可读存储介质及计算机程序产品。

技术介绍

1、随着智能技术的不断发展，语音交互已经成为许多企业与其客户进行沟通的主要方式之一。然而，传统的语音客服系统往往忽视了用户个性化需求，使用有限数量的语音音色进行服务，导致用户体验的下降和交流效果的减弱。

2、个性化的语音音色服务可以有效提升用户体验。每个人对声音的偏好各不相同，有些用户可能更喜欢温柔的声音，而另一些用户则更喜欢干练的声音。因此，通过为每个用户提供符合其偏好的语音音色，能够增加用户对语音客服系统的好感度，使其更愿意与系统进行交互和沟通。

3、此外，个性化的语音音色服务也有助于提高业务效率。通过根据用户的偏好匹配语音音色，可以更好地引导用户进行交流，并提高信息传递的准确性和有效性。例如，在销售领域，选用与目标客户匹配的语音音色可能会增加销售转化率，提升客户满意度。

4、在所述
技术介绍
部分公开的上述信息仅用于加强对本申请的背景的理解，因此它可以包括不构成对本领域普通技术人员已知的现有技术的信息。

技术实现思路

1、有鉴于此，本申请提供一种基于重构梅尔频谱特征的个性化语音应答方法、系统、计算机设备、计算机可读存储介质及计算机程序产品，能够在不改变原有的智能客服机器人话术的情况下，实现智能客服机器人音色与用户的精细化匹配，从而为用户提供千人千音的定制化智能语音服务。

2、本申

3、根据本申请的一方面，提出一种基于重构梅尔频谱特征的个性化语音应答方法，该方法包括：根据语音服务场景确定用户对应的内容音频；根据用户的细粒度画像特征确定音色音频；将所述内容音频和所述音色音频输入音色转换模型中；音色转换模型根据所述内容音频和音色音频分别生成内容特征和音色特征；音色转换模型利用所述内容特征和所述音色特征生成重构梅尔频谱特征；利用声码器模型，运用所述重构梅尔频谱特征合成个性化语音应答音频。

4、可选地，还包括：获取原始训练音频的增广梅尔频谱特征；通过所述增广梅尔频谱特征对音色转换模型中的多个神经网络模型进行训练，在训练的过程中计算重构损失和音色损失；根据所述重构损失和所述音色损失更新所述多个神经网络模型的参数；在训练满足条件时，结束对音色转换模型的参数更新。

5、可选地，获取原始训练音频的增广梅尔频谱特征，包括：获取带有说话人标签的原始训练音频；提取所述原始训练音频的梅尔频谱特征；在频域维度上对所述梅尔频谱特征进行多次的随机拉伸和压缩；通过多次的随机拉伸和压缩生成所述增广梅尔频谱特征。

6、可选地，通过所述增广梅尔频谱特征对音色转换模型中的多个神经网络模型进行训练，在训练的过程中计算重构损失和音色损失，包括：通过第一神经网络模型提取所述增广梅尔频谱特征中的增广内容特征；通过第二神经网络模型提取所述增广梅尔频谱特征中的增广音色特征；通过第三神经网络模型和所述增广内容特征、所述增广音色特征生成增广重构梅尔频谱特征；根据所述增广重构梅尔频谱特征和所述增广音色特征生成重构原始训练音频和重构训练音色；通过所述重构原始训练音频、所述原始训练音频、所述重构训练音色、所述增广音色特征计算重构损失和音色损失。

7、可选地，根据所述增广重构梅尔频谱特征和所述增广音色特征生成重构原始训练音频和重构训练音色，包括：通过声码器模型和所述增广重构梅尔频谱特征生成所述重构原始训练音频；通过第二神经网络模型和所述增广重构梅尔频谱特征生成所述重构训练音色。

8、可选地，根据所述重构损失和所述音色损失更新所述多个神经网络模型的参数，包括：根据所述重构损失和所述音色损失生成整体损失函数；计算所述整体损失函数的梯度；通过所述梯度更新所述多个神经网络模型的参数，所述参数包括：权重参数和偏置参数。

9、可选地，在训练满足条件时，结束对音色转换模型的参数更新，包括：确定训练时长阈值；在满足训练时长阈值时，结束对音色转换模型的参数更新。

10、可选地，根据用户的细粒度画像特征确定音色音频，包括：对用户信息进行细粒度划分，以生成细粒度用户特征；将所述细粒度用户特征输入音色画像模型中，生成多个待选音色特征和其对应的评分；根据所述评分由所述多个待选音色特征中确定音色音频。

11、可选地，还包括：提取用户信息的细粒度用户特征；提取用户信息对应的语音回复音频；为所述语音回复音频确定样本标识；通过所述细粒度用户特征、所述语音回复音频，所述样本标识生成训练样本；通过所述训练样本对梯度提升决策树进行训练以生成音色画像模型。

12、可选地，通过所述细粒度用户特征、所述语音回复音频，所述样本标识生成训练样本，包括：提取所述语音回复音频的音色数值向量特征；通过所述细粒度用户特征、所述音色数值向量特征，所述样本标识生成所述训练样本。

13、根据本申请的一方面，提出一种基于重构梅尔频谱特征的个性化语音应答系统，该系统包括：音频模块，用于根据语音服务场景确定用户对应的内容音频；音色模块，用于根据用户的细粒度画像特征确定音色音频；输入模块，用于将所述内容音频和所述音色音频输入音色转换模型中；转换模块，用于音色转换模型根据所述内容音频和音色音频分别生成内容特征和音色特征；重构模块，用于音色转换模型利用所述内容特征和所述音色特征生成重构梅尔频谱特征；合成模块，用于利用声码器模型，运用所述重构梅尔频谱特征合成个性化语音应答音频。

14、根据本申请的一方面，提出一种计算机设备，包括：

15、处理器、存储器，所述存储器上存储有计算机可读指令，所述计算机可读指令被所述处理器执行时，实现如上文所述方法的步骤。

16、根据本申请的一方面，提出一种计算机可读存储介质，其上存储有计算机程序/指令，所述计算机程序/指令被处理器执行时实现上文所述方法的步骤。

17、根据本申请的一方面，提出一种计算机程序产品，包括计算机程序/指令，所述计算机程序/指令被处理器执行时，实现如上文所述方法的步骤。

18、根据本申请的一方面，提出一种计算机可读介质，其上存储有计算机程序，该程序被处理器执行时实现如上文中的方法。

19、根据本申请的基于重构梅尔频谱特征的个性化语音应答方法、系统、计算机设备、计算机可读存储介质及计算机程序产品，通过根据语音服务场景确定用户对应的内容音频；根据用户的细粒度画像特征确定音色音频；将所述内容音频和所述音色音频输入音色转换模型中；音色转换模型根据所述内容音频和音色音频分别生成内容特征和音色特征；音色转换模型利用所述内容特征和所述音色特征生成重构梅尔频谱特征；利用声码器模型，运用所述重构梅尔频谱特征合成个性化语音应答音频的方式，能够在不改变原有的智能客服机器人话术的情况下，实现智能客服机器人音色与用户的精细化匹配，从而为用户提本文档来自技高网...

【技术保护点】

1.一种基于重构梅尔频谱特征的个性化语音应答方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，所述音色转换模型根据所述内容音频和所述音色音频分别生成内容特征和音色特征，包括：

3.如权利要求1所述的方法，其特征在于，所述音色转换模型利用所述内容特征和所述音色特征生成重构梅尔频谱特征，包括：

4.如权利要求1所述的方法，其特征在于，利用声码器模型，运用所述重构梅尔频谱特征合成个性化语音应答音频，包括：

5.如权利要求1所述的方法，其特征在于，还包括：

6.如权利要求5所述的方法，其特征在于，获取原始训练音频的增广梅尔频谱特征，包括：

7.如权利要求5所述的方法，其特征在于，通过所述增广梅尔频谱特征对音色转换模型中的多个神经网络模型进行训练，在训练的过程中计算重构损失和音色损失，包括：

8.如权利要求7所述的方法，其特征在于，根据所述增广重构梅尔频谱特征和所述增广音色特征生成重构训练音频和重构训练音色，包括：

9.如权利要求5所述的方法，其特征在于，根据所述重构损失和所述音

10.如权利要求1所述的方法，其特征在于，根据用户的细粒度画像特征确定音色音频，包括：

11.如权利要求10所述的方法，其特征在于，还包括：

12.一种基于重构梅尔频谱特征的个性化语音应答系统，其特征在于，包括：

13.一种计算机设备，其特征在于，包括：

14.一种计算机可读存储介质，其上存储有计算机程序/指令，其特征在于，所述计算机程序/指令被处理器执行时实现如权利要求1至11中任一所述方法的步骤。

15.一种计算机程序产品，其特征在于，包括计算机程序/指令，所述计算机程序/指令被处理器执行时实现如权利要求1至11任意一项所述方法的步骤。

...

【技术特征摘要】

1.一种基于重构梅尔频谱特征的个性化语音应答方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，所述音色转换模型根据所述内容音频和所述音色音频分别生成内容特征和音色特征，包括：

3.如权利要求1所述的方法，其特征在于，所述音色转换模型利用所述内容特征和所述音色特征生成重构梅尔频谱特征，包括：

4.如权利要求1所述的方法，其特征在于，利用声码器模型，运用所述重构梅尔频谱特征合成个性化语音应答音频，包括：

5.如权利要求1所述的方法，其特征在于，还包括：

6.如权利要求5所述的方法，其特征在于，获取原始训练音频的增广梅尔频谱特征，包括：

8.如权利要求7所述的方法，其特征在于...

【专利技术属性】
技术研发人员：方静宜，田昊宇，林月冠，郑渊中，王耀宣，杨剑，费浩峻，
申请(专利权)人：上海淇玥信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人