一种语音合成方法、电子设备及计算机可读存储介质技术

技术编号:35573940 阅读:12 留言:0更新日期:2022-11-12 15:58
本申请公开了一种语音合成方法、电子设备及介质,获取待处理文本对应的多个音素序列;提取音素序列中各音素对应的音素特征。对每个音素对应的音素特征进行音色解耦,以得到解耦后的音素特征。依据解耦后的音素特征和目标人物的音色特征,得到符合目标人物音色的音频。对音素特征进行解耦,降低了原本存在的个人音色特征造成的干扰。在需要生成符合目标人物音色的音频时,无需再获取大量具有目标人物音色特征的音频数据进行训练,只需要从少量具有目标人物音色特征的音频数据中提取出目标人物的音色特征,依据解耦后的音素特征和目标人物的音色特征,便可以得到符合目标人物音色的音频,降低了音色迁移的成本。降低了音色迁移的成本。降低了音色迁移的成本。

【技术实现步骤摘要】
一种语音合成方法、电子设备及计算机可读存储介质


[0001]本申请涉及音频处理
,特别涉及一种语音合成方法、电子设备及计算机可读存储介质。

技术介绍

[0002]语音合成是根据输入文本,生成出对应的语音音频。语音合成技术在语音助手、聊天机器人、有声书、虚拟人等场景有广泛的应用。而随着个性化语音需求的猛增,音色迁移技术越来越重要。音色迁移可以生成目标人物音色的语音音频,目标人物可以是特定主播、明星等。
[0003]传统的方案,需要录制大量目标人物的语音,在一个预训练好的基础模型上进行训练,令模型学习到目标人物的音调、韵律、口音等音色特征。每个人都有其独特的音色,当需要生成一位特定人物音色的音频时,一般需要录制几小时以上特定人物的语音,训练此模型。训练过程需要大量的训练样本,并且样本量越多模型训练的运算量也就越高,导致音色迁移的成本较高。
[0004]综上,在实现本申请过程中,专利技术人发现现有技术中至少存在音色迁移成本较高的问题。

技术实现思路

[0005]有鉴于此,本申请的目的在于提供一种语音合成方法、电子设备及计算机可读存储介质,能够基于少量的训练数据得到具有目标人物音色的音频,从而降低了音色迁移的成本。其具体方案如下:
[0006]第一方面,本申请公开了一种语音合成方法,包括:
[0007]获取待处理文本对应的多个音素序列;
[0008]对所述每个音素对应的音素特征进行音色解耦,以得到解耦后的音素特征;
[0009]依据解耦后的音素特征和目标人物的音色特征,得到符合目标人物音色的音频。
[0010]可选地,所述对所述每个音素对应的音素特征进行音色解耦,以得到解耦后的音素特征包括:
[0011]统计同一个音素在不同音素序列中对应的平均音素特征;
[0012]基于各音素对应的平均音素特征,对各所述音素序列的音素特征进行调整,以得到解耦后的音素特征。
[0013]可选地,所述基于各音素对应的平均音素特征,对各所述音素序列的音素特征进行调整,以得到解耦后的音素特征包括:
[0014]将目标音素对应的目标平均音素特征和目标音素序列中所述目标音素对应的目标音素特征进行均方差运算,得到解耦后的目标音素特征;其中,所述目标音素为所有音素中的任意一个音素;所述目标音素序列为所有音素序列中的任意一个音素序列。
[0015]可选地,所述对所述每个音素对应的音素特征进行音色解耦,以得到解耦后的音
素特征包括:
[0016]利用音色判别器识别所述音素特征包含的个人音色特征;
[0017]基于所述待处理文本对应的实际音色特征与所述音色判别器识别的个人音色特征,确定出音色识别损失;
[0018]将所述音色识别损失反向传播至用于梯度取反的合成器,以得到更新后的合成器;
[0019]利用更新后的合成器提取所述音素序列中各音素对应的目标音素特征,将所述目标音素特征作为解耦后的音素特征。
[0020]可选地,在所述对所述每个音素对应的音素特征进行音色解耦,以得到解耦后的音素特征之后还包括:
[0021]将所述解耦后的音素特征存储至数据库;
[0022]在获取到音色调整指令的情况下,从所述数据库中调用所述解耦后的音素特征;其中,所述音色调整指令中携带有目标音色特征;
[0023]依据所述解耦后的音素特征和所述目标音色特征,得到符合目标音色的音频。
[0024]可选地,在所述对所述每个音素对应的音素特征进行音色解耦,以得到解耦后的音素特征之后还包括:
[0025]将所述解耦后的音素特征存储至云端;
[0026]在所述本地数据库中不存在所述解耦后的音素特征的情况下,从所述云端获取所述解耦后的音素特征。
[0027]可选地,所述依据解耦后的音素特征和目标人物的音色特征,得到符合目标人物音色的音频包括:
[0028]将所述解耦后的音素特征和所述目标人物的音色特征进行拼接,得到携带目标人物音色的音素特征;
[0029]利用解码器将所述携带目标人物音色的音素特征解码为帧序列;
[0030]利用声码器对所述帧序列进行处理,得到符合目标人物音色的音频。
[0031]可选地,所述依据解耦后的音素特征和目标人物的音色特征,得到符合目标人物音色的音频包括:
[0032]利用深度学习神经网络模型对所述解耦后的音素特征和所述目标人物的音色特征进行融合处理,以得到符合目标人物音色的音频。
[0033]第二方面,本申请公开了一种电子设备,包括:
[0034]存储器,用于保存计算机程序;
[0035]处理器,用于执行所述计算机程序,以实现前述公开的语音合成方法。
[0036]第四方面,本申请公开了一种计算机可读存储介质,用于保存计算机程序,所述计算机程序被处理器执行时实现前述公开的语音合成方法。
[0037]本申请中,获取待处理文本对应的多个音素序列;提取音素序列中各音素对应的音素特征;对于一个待处理文本而言,通过该待处理文本对应的多个音素序列可以充分挖掘出音素特征中包含的个人音色特征。为了降低个人音色特征对音素特征造成的干扰,可以对每个音素对应的音素特征进行音色解耦,以得到解耦后的音素特征。解耦后的音素特征有效的过滤掉了个人音色特征,依据解耦后的音素特征和目标人物的音色特征,可以得
到更加符合目标人物音色的音频。在该技术方案中,对音素特征进行解耦,降低了原本存在的个人音色特征造成的干扰。在需要生成符合目标人物音色的音频时,无需再获取大量具有目标人物音色特征的音频数据进行训练,只需要从少量具有目标人物音色特征的音频数据中提取出目标人物的音色特征,依据解耦后的音素特征和目标人物的音色特征,可以快速的得到符合目标人物音色的音频。基于少量的音频数据便可以得到符合目标人物音色的音频,有效的降低了音色迁移的成本。
附图说明
[0038]为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
[0039]图1为本申请提供的一种语音合成方法所适用的系统框架图;
[0040]图2为本申请实施例提供的一种语音合成方法流程图;
[0041]图3为本申请提供的一种神经网络模型的示意图;
[0042]图4为本申请提供的一种电子设备结构图。
具体实施方式
[0043]下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0044]传统方式中,要生成符合人物音色的音频,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音合成方法,其特征在于,包括:获取待处理文本对应的多个音素序列;提取所述音素序列中各音素对应的音素特征;对所述每个音素对应的音素特征进行音色解耦,以得到解耦后的音素特征;依据解耦后的音素特征和目标人物的音色特征,得到符合目标人物音色的音频。2.根据权利要求1所述的语音合成方法,其特征在于,所述对所述每个音素对应的音素特征进行音色解耦,以得到解耦后的音素特征包括:统计同一个音素在不同音素序列中对应的平均音素特征;基于各音素对应的平均音素特征,对各所述音素序列的音素特征进行调整,以得到解耦后的音素特征。3.根据权利要求2所述的语音合成方法,其特征在于,所述基于各音素对应的平均音素特征,对各所述音素序列的音素特征进行调整,以得到解耦后的音素特征包括:将目标音素对应的目标平均音素特征和目标音素序列中所述目标音素对应的目标音素特征进行均方差运算,得到解耦后的目标音素特征;其中,所述目标音素为所有音素中的任意一个音素;所述目标音素序列为所有音素序列中的任意一个音素序列。4.根据权利要求1所述的语音合成方法,其特征在于,所述对所述每个音素对应的音素特征进行音色解耦,以得到解耦后的音素特征包括:利用音色判别器识别所述音素特征包含的个人音色特征;基于所述待处理文本对应的实际音色特征与所述音色判别器识别的个人音色特征,确定出音色识别损失;将所述音色识别损失反向传播至用于梯度取反的合成器,以得到更新后的合成器;利用更新后的合成器提取所述音素序列中各音素对应的目标音素特征,将所述目标音素特征作为解耦后的音素特征。5.根据权利要求1所述的语音合成方法,其特征在于,在所述对所述每个音素对应...

【专利技术属性】
技术研发人员:谭志力
申请(专利权)人:腾讯音乐娱乐科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1