语音合成方法、语音合成系统、电子设备及存储介质技术方案

技术编号:38465550 阅读:12 留言:0更新日期:2023-08-11 14:42
本申请提供了一种语音合成方法、语音合成系统、电子设备及存储介质,属于金融科技技术领域。该方法包括:获取样本音素数据和样本语音,将样本音素数据输入至原始合成模型,通过音素编码子模型对样本音素数据进行音素编码得到音素隐藏数据;通过方差适配子模型对音素隐藏数据进行音素适配得到音素对齐数据和音素特征数据;通过降噪子模型对音素对齐数据和音素特征数据进行频谱预测得到预测梅尔频谱;根据样本语音和预测梅尔频谱对原始合成模型进行参数调整,得到语音合成模型;将目标文本数据输入至语音合成模型进行语音合成处理,得到目标合成语音。本申请实施例能够提高合成语音的生成质量和生成效率,且有效简化语音合成过程的计算量。过程的计算量。过程的计算量。

【技术实现步骤摘要】
语音合成方法、语音合成系统、电子设备及存储介质


[0001]本申请涉及金融科技
,尤其涉及一种语音合成方法、语音合成系统、电子设备及存储介质。

技术介绍

[0002]随着金融科技和社会经济的快速发展,人们对于银行服务水平的要求越来越高。在智能客服、多轮对话、机器人外呼等场景中,语音合成技术可以应用在日常业务办理、业务咨询、业务推荐、营销、催收方面等具体场景中。因此,能够更真实准确地通过语音向目标对象传递相关信息,是提升客户体验和服务水平最有效和最直接的方法之一。语音合成技术(Text To Speech,TTS)是一种将给定的文本合成为能够模拟目标对象发音的音频的技术。相关技术的TTS方法是通过自回归的方式将文本生成对应的梅尔谱图,并利用预训练的声码器对生成的梅尔谱图进行语音合成。然而,该方式虽然可以生成高保真的音频,但是其计算量较大且合成效率较低。因此,如何提供一种语音合成方法,能够提高合成语音的生成质量和生成效率,且有效简化语音合成过程的计算量,成为了亟待解决的技术问题。

技术实现思路

[0003]本申请实施例的主要目的在于提出了一种语音合成方法、语音合成系统、电子设备及存储介质,能够提高合成语音的生成质量和生成效率,且有效简化语音合成过程的计算量。
[0004]为实现上述目的,本申请实施例的第一方面提出了一种语音合成方法,所述方法包括:
[0005]获取样本数据,所述样本数据包括样本音素数据和样本语音,所述样本音素数据用于表征所述样本语音的文本内容;
[0006]将所述样本音素数据输入至预设的原始合成模型,所述原始合成模型包括音素编码子模型、方差适配子模型和降噪子模型;
[0007]通过所述音素编码子模型对所述样本音素数据进行音素编码处理,得到音素隐藏数据;
[0008]通过所述方差适配子模型对所述音素隐藏数据进行音素适配处理,得到音素对齐数据和音素特征数据;
[0009]通过所述降噪子模型对所述音素对齐数据和所述音素特征数据进行频谱预测处理,得到预测梅尔频谱;
[0010]根据所述样本语音和所述预测梅尔频谱对所述原始合成模型进行参数调整,得到语音合成模型;
[0011]将获取的目标文本数据输入至所述语音合成模型进行语音合成处理,得到目标合成语音。
[0012]在一些实施例中,所述通过所述降噪子模型对所述音素对齐数据和所述音素特征
数据进行频谱预测处理,得到预测梅尔频谱,包括:
[0013]将所述音素对齐数据输入所述降噪子模型,对所述音素对齐数据进行数据采样,得到候选适配数据和所述候选适配数据的位置信息;
[0014]根据预设时间步对所述候选适配数据进行频谱扩散处理,得到频谱扩散数据;
[0015]根据所述预设时间步、所述候选适配数据和所述音素特征数据对所述频谱扩散数据进行频谱逆采样处理,得到预测频谱数据;
[0016]根据所述位置信息对所述预测频谱数据进行频谱生成,得到所述预测梅尔频谱。
[0017]在一些实施例中,所述根据预设时间步对所述候选适配数据进行频谱扩散处理,得到频谱扩散数据,包括:
[0018]获取所述预设时间步的噪声调度参数;
[0019]对所述候选适配数据进行数据采样,得到第一适配数据;
[0020]根据所述预设时间步和所述噪声调度参数对所述第一适配数据进行加噪处理,得到第二适配数据;
[0021]根据所述第一适配数据和所述第二适配数据得到所述频谱扩散数据。
[0022]在一些实施例中,所述根据所述样本语音和所述预测梅尔频谱对所述原始合成模型进行参数调整,得到语音合成模型,包括:
[0023]根据所述噪声调度参数和所述预设时间步进行扩散参数计算,得到扩散过程参数;
[0024]获取噪声分布数据,并根据所述噪声分布数据、所述候选适配数据、所述预测频谱数据、所述预设时间步、所述扩散过程参数和所述音素特征数据进行预测损失计算,得到预测损失数据;
[0025]根据所述预测损失数据对所述原始合成模型进行参数调整,得到所述语音合成模型。
[0026]在一些实施例中,所述方差适配子模型包括持续时间预测器、音高预测器、能量预测器;
[0027]所述通过所述方差适配子模型对所述音素隐藏数据进行音素适配处理,得到音素对齐数据和音素特征数据,包括:
[0028]根据所述持续时间预测器对所述音素隐藏数据进行音素对齐处理,得到所述音素对齐数据;
[0029]根据所述音高预测器对所述音素对齐数据进行音高预测处理,得到第一条件数据;
[0030]根据所述能量预测器对所述音素对齐数据进行能量预测处理,得到第二条件数据;
[0031]对所述第一条件数据和所述第二条件数据进行数据组合,得到所述音素特征数据。
[0032]在一些实施例中,所述音高预测器包括音高激活层、归一化层和音高投影层;
[0033]所述根据所述音高预测器对所述音素对齐数据进行音高预测处理,得到第一条件数据,包括:
[0034]根据所述音高激活层对所述音素对齐数据进行非线性处理,得到音高激活数据;
[0035]根据所述归一化层对所述音高激活数据进行归一化处理,得到归一化隐藏数据;
[0036]根据所述音高投影层对所述归一化隐藏数据进行线性投影处理,得到所述第一条件数据。
[0037]在一些实施例中,所述音素编码子模型包括音素卷积层、音素自注意力层和音素投影层;
[0038]所述通过所述音素编码子模型对所述样本音素数据进行音素编码处理,得到音素隐藏数据,包括:
[0039]根据所述音素卷积层对所述样本音素数据进行音素卷积处理,得到音素编码数据;
[0040]根据所述音素自注意力层对所述音素编码数据进行自注意力处理,得到音素注意力数据;
[0041]根据所述音素投影层对所述音素注意力数据进行线性投影处理,得到所述音素隐藏数据。
[0042]为实现上述目的,本申请实施例的第二方面提出了一种语音合成系统,所述系统包括:
[0043]样本获取模块,用于获取样本数据,所述样本数据包括样本音素数据和样本语音,所述样本音素数据用于表征所述样本语音的文本内容;
[0044]模型输入模块,用于将所述样本音素数据输入至预设的原始合成模型,所述原始合成模型包括音素编码子模型、方差适配子模型和降噪子模型;
[0045]音素编码模块,用于通过所述音素编码子模型对所述样本音素数据进行音素编码处理,得到音素隐藏数据;
[0046]音素适配模块,用于通过所述方差适配子模型对所述音素隐藏数据进行音素适配处理,得到音素对齐数据和音素特征数据;
[0047]频谱预测模块,用于通过所述降噪子模型对所述音素对齐数据和所述音素特征数据进行频谱预测处理,得到预测梅尔频谱;
[0048]参数调整模块,用于根据所述样本语音和所述预测梅尔频谱对所述原始合成模型进行本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音合成方法,其特征在于,所述方法包括:获取样本数据,所述样本数据包括样本音素数据和样本语音,所述样本音素数据用于表征所述样本语音的文本内容;将所述样本音素数据输入至预设的原始合成模型,所述原始合成模型包括音素编码子模型、方差适配子模型和降噪子模型;通过所述音素编码子模型对所述样本音素数据进行音素编码处理,得到音素隐藏数据;通过所述方差适配子模型对所述音素隐藏数据进行音素适配处理,得到音素对齐数据和音素特征数据;通过所述降噪子模型对所述音素对齐数据和所述音素特征数据进行频谱预测处理,得到预测梅尔频谱;根据所述样本语音和所述预测梅尔频谱对所述原始合成模型进行参数调整,得到语音合成模型;将获取的目标文本数据输入至所述语音合成模型进行语音合成处理,得到目标合成语音。2.根据权利要求1所述的方法,其特征在于,所述通过所述降噪子模型对所述音素对齐数据和所述音素特征数据进行频谱预测处理,得到预测梅尔频谱,包括:将所述音素对齐数据输入所述降噪子模型,对所述音素对齐数据进行数据采样,得到候选适配数据和所述候选适配数据的位置信息;根据预设时间步对所述候选适配数据进行频谱扩散处理,得到频谱扩散数据;根据所述预设时间步、所述候选适配数据和所述音素特征数据对所述频谱扩散数据进行频谱逆采样处理,得到预测频谱数据;根据所述位置信息对所述预测频谱数据进行频谱生成,得到所述预测梅尔频谱。3.根据权利要求2所述的方法,其特征在于,所述根据预设时间步对所述候选适配数据进行频谱扩散处理,得到频谱扩散数据,包括:获取所述预设时间步的噪声调度参数;对所述候选适配数据进行数据采样,得到第一适配数据;根据所述预设时间步和所述噪声调度参数对所述第一适配数据进行加噪处理,得到第二适配数据;根据所述第一适配数据和所述第二适配数据得到所述频谱扩散数据。4.根据权利要求3所述的方法,其特征在于,所述根据所述样本语音和所述预测梅尔频谱对所述原始合成模型进行参数调整,得到语音合成模型,包括:根据所述噪声调度参数和所述预设时间步进行扩散参数计算,得到扩散过程参数;获取噪声分布数据,并根据所述噪声分布数据、所述候选适配数据、所述预测频谱数据、所述预设时间步、所述扩散过程参数和所述音素特征数据进行预测损失计算,得到预测损失数据;根据所述预测损失数据对所述原始合成模型进行参数调整,得到所述语音合成模型。5.根据权利要求1至4任一项所述的方法,其特征在于,所述方差适配子模型包括持续时间预测器、音高预测器、能量预测器;
所述通过所述方差适配子模型对所述音素隐藏数据进行音素适配处理,得到音素对齐数据和音素特征数据,包括:根据所述持续时间预测器对...

【专利技术属性】
技术研发人员:张旭龙王健宗程宁季圣鹏
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1