一种语音合成方法、电子设备及计算机可读存储介质技术

技术编号：35573940 阅读：12 留言：0更新日期：2022-11-12 15:58

本申请公开了一种语音合成方法、电子设备及介质，获取待处理文本对应的多个音素序列；提取音素序列中各音素对应的音素特征。对每个音素对应的音素特征进行音色解耦，以得到解耦后的音素特征。依据解耦后的音素特征和目标人物的音色特征，得到符合目标人物音色的音频。对音素特征进行解耦，降低了原本存在的个人音色特征造成的干扰。在需要生成符合目标人物音色的音频时，无需再获取大量具有目标人物音色特征的音频数据进行训练，只需要从少量具有目标人物音色特征的音频数据中提取出目标人物的音色特征，依据解耦后的音素特征和目标人物的音色特征，便可以得到符合目标人物音色的音频，降低了音色迁移的成本。降低了音色迁移的成本。降低了音色迁移的成本。

全部详细技术资料下载

【技术实现步骤摘要】
一种语音合成方法、电子设备及计算机可读存储介质

[0001]本申请涉及音频处理
，特别涉及一种语音合成方法、电子设备及计算机可读存储介质。

技术介绍

[0002]语音合成是根据输入文本，生成出对应的语音音频。语音合成技术在语音助手、聊天机器人、有声书、虚拟人等场景有广泛的应用。而随着个性化语音需求的猛增，音色迁移技术越来越重要。音色迁移可以生成目标人物音色的语音音频，目标人物可以是特定主播、明星等。
[0003]传统的方案，需要录制大量目标人物的语音，在一个预训练好的基础模型上进行训练，令模型学习到目标人物的音调、韵律、口音等音色特征。每个人都有其独特的音色，当需要生成一位特定人物音色的音频时，一般需要录制几小时以上特定人物的语音，训练此模型。训练过程需要大量的训练样本，并且样本量越多模型训练的运算量也就越高，导致音色迁移的成本较高。
[0004]综上，在实现本申请过程中，专利技术人发现现有技术中至少存在音色迁移成本较高的问题。

技术实现思路

[0005]有鉴于此，本申请的目的在于提供一种语音合成方法、电子设备及计算机可读存储介质，能够基于少量的训练数据得到具有目标人物音色的音频，从而降低了音色迁移的成本。其具体方案如下：
[0006]第一方面，本申请公开了一种语音合成方法，包括：
[0007]获取待处理文本对应的多个音素序列；
[0008]对所述每个音素对应的音素特征进行音色解耦，以得到解耦后的音素特征；
[0009]依据解耦后的音素特征和目标人...

【技术保护点】

【技术特征摘要】
1.一种语音合成方法，其特征在于，包括：获取待处理文本对应的多个音素序列；提取所述音素序列中各音素对应的音素特征；对所述每个音素对应的音素特征进行音色解耦，以得到解耦后的音素特征；依据解耦后的音素特征和目标人物的音色特征，得到符合目标人物音色的音频。2.根据权利要求1所述的语音合成方法，其特征在于，所述对所述每个音素对应的音素特征进行音色解耦，以得到解耦后的音素特征包括：统计同一个音素在不同音素序列中对应的平均音素特征；基于各音素对应的平均音素特征，对各所述音素序列的音素特征进行调整，以得到解耦后的音素特征。3.根据权利要求2所述的语音合成方法，其特征在于，所述基于各音素对应的平均音素特征，对各所述音素序列的音素特征进行调整，以得到解耦后的音素特征包括：将目标音素对应的目标平均音素特征和目标音素序列中所述目标音素对应的目标音素特征进行均方差运算，得到解耦后的目标音素特征；其中，所述目标音素为所有音素中的任意一个音素；所述目标音素序列为所有音素序列中的任意一个音素序列。4.根据权利要求1所述的语音合成方法，其特征在于，所述对所述每个音素对应的音素特征进行音色解耦，以得到解耦后的音素特征包括：利用音色判别器识别所述音素特征包含的个人音色特征；基于所述待处理文本对应的实际音色特征与所述音色判别器识别的个人音色特征，确定出音色识别损失；将所述音色识别损失反向传播至用于梯度取反的合成器，以得到更新后的合成器；利用更新后的合成器提取所述音素序列中各音素对应的目标音素特征，将所述目标音素特征作为解耦后的音素特征。5.根据权利要求1所述的语音合成方法，其特征在于，在所述对所述每个音素对应...

【专利技术属性】
技术研发人员：谭志力，
申请(专利权)人：腾讯音乐娱乐科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人