一种音频合成方法、装置、电子设备及存储介质制造方法及图纸

技术编号:33996523 阅读:23 留言:0更新日期:2022-07-02 11:01
本公开关于一种音频合成方法、装置、电子设备及存储介质,该方法包括:获取待合成基频和待合成文本;将所述待合成文本输入预先训练的谱预测模型,得到谱包络信息;将所述谱包络信息和所述待合成基频输入预先训练的梅尔频谱预测模型,得到预测梅尔频谱;根据所述预测梅尔频谱得到目标合成音频。本公开将待合成基频与谱包络相分离,从而在预测梅尔频谱时允许通过对待合成基频的精准控制来调整所预测的梅尔频谱,最终达到精准控制合成音频的目的,有利于确保合成音频的音高准确度,大大提高了音频合成的灵活性,非常适用于像歌唱合成这种对音高准确度有限制的音频合成场景。对音高准确度有限制的音频合成场景。对音高准确度有限制的音频合成场景。

【技术实现步骤摘要】
一种音频合成方法、装置、电子设备及存储介质


[0001]本公开涉及计算机
,尤其涉及一种音频合成方法、装置、电子设备及存储介质。

技术介绍

[0002]音频合成技术可以将文字信息转化为流畅的语音输出。相关技术在实现音频合成的过程中,以待合成文本直接映射到梅尔频谱的方式得到合成音频,使用这种音频合成方式,合成音频的音高准确度无法调整,音频合成的灵活性差,无法适用于像歌唱合成这种对音高准确度有限制的音频合成场景。

技术实现思路

[0003]本公开提供一种音频合成方法、装置、电子设备及存储介质,以至少解决相关技术中音频合成灵活性差,无法适用于对音高准确度有限制的音频合成场景的问题。本公开的技术方案如下:
[0004]根据本公开实施例的第一方面,提供一种音频方法,包括:
[0005]获取待合成基频和待合成文本;
[0006]将所述待合成文本输入预先训练的谱预测模型,得到谱包络信息;
[0007]将所述谱包络信息和所述待合成基频输入预先训练的梅尔频谱预测模型,得到预测梅尔频谱;
[0008]根据所述预测梅尔频谱得到目标合成音频。
[0009]在一示例性的实施方式中,所述获取待合成基频包括:
[0010]获取乐谱数据;
[0011]确定所述乐谱数据对应的原始基频;
[0012]对所述原始基频进行调整,得到所述乐谱数据对应的调整基频;
[0013]将所述调整基频作为所述待合成基频。
[0014]在一示例性的实施方式中,所述对所述原始基频进行调整,得到所述乐谱数据对应的调整基频包括:
[0015]将所述乐谱数据输入预先训练的基频残差预测模型,得到所述乐谱数据对应的基频残差;
[0016]对所述基频残差进行调整,得到调整基频残差;
[0017]计算所述原始基频与所述调整基频残差的和值,将所述和值作为所述乐谱数据对应的调整基频。
[0018]在一示例性的实施方式中,所述对所述基频残差进行调整,得到调整基频残差包括:
[0019]根据所述乐谱数据的原始基频,确定所述乐谱数据的半音基频;
[0020]判断所述基频残差是否超过所述半音基频;
[0021]若所述基频残差超过所述半音基频,则对所述基频残差进行调整得到调整基频残差;所述调整基频残差不超过所述半音基频。
[0022]在一示例性的实施方式中,所述获取待合成基频包括:
[0023]获取用户语音音频;
[0024]确定所述用户语音音频的语音基频;
[0025]将所述语音基频作为所述待合成基频。
[0026]在一示例性的实施方式中,所述方法还包括训练音频合成模型的步骤;所述训练音频合成模型包括:
[0027]构建待训练的音频合成模型,所述待训练的音频合成模型包括待训练的谱预测模型、待训练的基频残差预测模型和待训练的梅尔频谱预测模型;
[0028]获取训练数据,所述训练数据包括样本数据和参考数据,所述样本数据包括样本文本和样本乐谱数据,所述参考数据包括参考梅尔频谱和参考基频残差;
[0029]将所述样本文本和所述样本乐谱数据分别输入所述待训练的谱预测模型和待训练的基频残差预测模型,得到训练谱包络信息和训练基频残差;
[0030]将所述训练谱包络信息和所述训练基频残差输入所述待训练的梅尔频谱预测模型,得到训练梅尔频谱;
[0031]根据所述训练基频残差、所述训练梅尔频谱、所述参考基频残差和参考梅尔频谱对所述待训练的音频合成模型进行训练,得到训练结束时的音频合成模型;所述训练结束时的音频合成模型包括所述谱预测模型、所述基频残差预测模型和所述梅尔频谱预测模型。
[0032]在一示例性的实施方式中,所述根据所述训练基频残差、所述训练梅尔频谱、所述参考基频残差和参考梅尔频谱对所述待训练的音频合成模型进行训练,得到训练结束时的音频合成模型包括:
[0033]根据所述训练基频残差和所述参考基频残差,确定第一损失值;
[0034]根据所述训练梅尔频谱和所述参考梅尔频谱,确定第二损失值;
[0035]根据所述第一损失值和所述第二损失值,确定目标损失值;
[0036]根据所述目标损失值分别对所述待训练的谱预测模型、待训练的基频残差预测模型和待训练的梅尔频谱预测模型的模型参数进行调整,直至满足预设训练结束条件,得到所述音频合成模型。
[0037]根据本公开实施例的第二方面,提供一种音频合成装置,包括:
[0038]获取单元,被配置为执行获取待合成基频和待合成文本;
[0039]谱包络预测单元,被配置为执行将所述待合成文本输入预先训练的谱预测模型,得到谱包络信息;
[0040]梅尔频谱预测单元,被配置为执行将所述谱包络信息和所述待合成基频输入预先训练的梅尔频谱预测模型,得到预测梅尔频谱;
[0041]音频合成单元,被配置为执行根据所述预测梅尔频谱得到目标合成音频。
[0042]在一示例性的实施方式中,所述获取单元包括:
[0043]乐谱获取单元,被配置为执行获取乐谱数据;
[0044]第一确定单元,被配置为执行确定所述乐谱数据对应的原始基频;
[0045]第一调整单元,被配置为执行对所述原始基频进行调整,得到所述乐谱数据对应的调整基频;将所述调整基频作为所述待合成基频。
[0046]在一示例性的实施方式中,所述第一调整单元包括:
[0047]基频残差预测单元,被配置为执行将所述乐谱数据输入预先训练的基频残差预测模型,得到所述乐谱数据对应的基频残差;
[0048]第二调整单元,被配置为执行对所述基频残差进行调整,得到调整基频残差;
[0049]第一计算单元,被配置为执行计算所述原始基频与所述调整基频残差的和值,将所述和值作为所述乐谱数据对应的调整基频。
[0050]在一示例性的实施方式中,所述第二调整单元包括:
[0051]第二确定单元,被配置为执行根据所述乐谱数据的原始基频,确定所述乐谱数据的半音基频;
[0052]判断单元,被配置为执行判断所述基频残差是否超过所述半音基频;
[0053]调整子单元,被配置为执行在所述基频残差超过所述半音基频时,对所述基频残差进行调整得到调整基频残差;所述调整基频残差不超过所述半音基频。
[0054]在一示例性的实施方式中,所述获取单元包括:
[0055]用户语音音频获取单元,被配置为执行获取用户语音音频;
[0056]第三确定单元,被配置为执行确定所述用户语音音频的语音基频;将所述语音基频作为所述待合成基频。
[0057]在一示例性的实施方式中,所述装置还包括用于训练音频合成模型的训练单元,所述训练单元包括:
[0058]模型构建单元,被配置为执行构建待训练的音频合成模型,所述待训练的音频合成模型包括待训练的谱预测模型、待训练的基频残差预测模型和待训练的梅尔频本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种音频合成方法,其特征在于,包括:获取待合成基频和待合成文本;将所述待合成文本输入预先训练的谱预测模型,得到谱包络信息;将所述谱包络信息和所述待合成基频输入预先训练的梅尔频谱预测模型,得到预测梅尔频谱;根据所述预测梅尔频谱得到目标合成音频。2.根据权利要求1所述的音频合成方法,其特征在于,所述获取待合成基频包括:获取乐谱数据;确定所述乐谱数据对应的原始基频;对所述原始基频进行调整,得到所述乐谱数据对应的调整基频;将所述调整基频作为所述待合成基频。3.根据权利要求2所述的音频合成方法,其特征在于,所述对所述原始基频进行调整,得到所述乐谱数据对应的调整基频包括:将所述乐谱数据输入预先训练的基频残差预测模型,得到所述乐谱数据对应的基频残差;对所述基频残差进行调整,得到调整基频残差;计算所述原始基频与所述调整基频残差的和值,将所述和值作为所述乐谱数据对应的调整基频。4.根据权利要求3所述的音频合成方法,其特征在于,所述对所述基频残差进行调整,得到调整基频残差包括:根据所述乐谱数据的原始基频,确定所述乐谱数据的半音基频;判断所述基频残差是否超过所述半音基频;若所述基频残差超过所述半音基频,则对所述基频残差进行调整得到调整基频残差;所述调整基频残差不超过所述半音基频。5.根据权利要求1所述的音频合成方法,其特征在于,所述获取待合成基频包括:获取用户语音音频;确定所述用户语音音频的语音基频;将所述语音基频作为所述待合成基频。6.根据权利要求3所述的音频合成方法,其特征在于,所述方法还包括训练音频合成模型的步骤;所述训练音频合成模型包括:构建待训练的音频合成模型,所述待训练的音频合成模型包括待训练的谱预测模型、待训练的基频残差预测模型和待训练的梅尔频谱预测模型;获取训练数据,所述训练数据包括样本数据和参考数据,所述样本数据包括样本文本和样本乐谱数据,所述参考数据包括参考梅尔频谱和参考基频残差;将所述样本文本和所述样本...

【专利技术属性】
技术研发人员:肖金霸王晓瑞
申请(专利权)人:北京达佳互联信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1