语音合成模型的训练方法、装置、电子设备及存储介质制造方法及图纸

技术编号：37545975 阅读：18 留言：0更新日期：2023-05-12 16:18

本公开提供了一种语音合成模型的训练方法、装置、电子设备及存储介质，所述方法包括：将文本音素样本对应的文本样本特征输入至语音合成模型包括的生成器中，输出文本样本特征对应的多维预测语音子信号；其中，多维预测语音子信号中每一维度的预测语音子信号的子频带均不同；将多维预测语音子信号输入至子频带编码模块中，获得全部维度的预测语音子信号对应的预测语音信号；将预测语音信号输入至判别器中，确认判别器的输出为预测语音信号的预测属性标识；基于文本音素样本对应的全部维度的标注语音子信号、全部维度的预测语音子信号、预测语音信号的预测属性标识和标注语音标识，调整生成器和/或判别器的参数。调整生成器和/或判别器的参数。调整生成器和/或判别器的参数。

全部详细技术资料下载

【技术实现步骤摘要】
语音合成模型的训练方法、装置、电子设备及存储介质

[0001]本公开涉及语音合成
，尤其涉及一种语音合成模型的训练方法、装置、电子设备及存储介质。

技术介绍

[0002]相关技术中，通常是采用两阶段语音合成模型实现语音合成，但在声学模型和声码器之间存在不匹配(mismatch)导致合成语音的自然度或音质不足；此外，复杂度搞的模型合成时间久，实际应用中用户体验差。

技术实现思路

[0003]本公开提供了一种语音合成模型的训练方法、装置、电子设备及存储介质，以至少解决现有技术中存在的以上技术问题。
[0004]根据本公开的第一方面，提供了一种语音合成模型的训练方法，包括：
[0005]将文本音素样本对应的文本样本特征输入至语音合成模型包括的生成器中，输出所述文本样本特征对应的多维预测语音子信号；其中，所述多维预测语音子信号中每一维度的预测语音子信号的子频带均不同；
[0006]将所述多维预测语音子信号输入至子频带编码模块中，获得全部维度的预测语音子信号对应的预测语音信号；
[0007]将所述预测语音信号输入至判别器中，确认所述判别器的输出为所述预测语音信号的预测属性标识；
[0008]基于所述文本音素样本对应的全部维度的标注语音子信号、所述全部维度的预测语音子信号、所述预测语音信号的预测属性标识和标注语音标识，调整所述生成器和/或所述判别器的参数。
[0009]上述方案中，所述将文本音素样本对应的文本样本特征输入至语音合成模型包括的生成器之前，所述方法...

【技术保护点】

【技术特征摘要】
1.一种语音合成模型的训练方法，其特征在于，所述方法包括：将文本音素样本对应的文本样本特征输入至语音合成模型包括的生成器中，输出所述文本样本特征对应的多维预测语音子信号；其中，所述多维预测语音子信号中每一维度的预测语音子信号的子频带均不同；将所述多维预测语音子信号输入至子频带编码模块中，获得全部维度的预测语音子信号对应的预测语音信号；将所述预测语音信号输入至判别器中，确认所述判别器的输出为所述预测语音信号的预测属性标识；基于所述文本音素样本对应的全部维度的标注语音子信号、所述全部维度的预测语音子信号、所述预测语音信号的预测属性标识和标注语音标识，调整所述生成器和/或所述判别器的参数。2.根据权利要求1所述的方法，其特征在于，所述将文本音素样本对应的文本样本特征输入至语音合成模型包括的生成器之前，所述方法还包括：将文本音素样本输入至语音合成模型包括的编码模块中，确认所述编码模块的输出为文本样本特征。3.根据权利要求2所述的方法，其特征在于，所述方法还包括：基于所述样本文本音素对应的文本标注特征和所述文本样本特征调整所述编码模块的参数。4.根据权利要求1所述的方法，其特征在于，所述生成器包括多频带网络，所述多频带网络用于对所述文本样本特征，或者所述文本样本特征经所述生成器包括的生成网络处理后得到的语音信号进行多频带处理，生成所述文本样本特征对应的多维预测语音子信号。5.根据权利要求1所述的方法，其特征在于，所述将所述多维预测语音子信号输入至子频带编码模块中，获得全部维度的预测语音子信号对应的预测语音信号，包括：对所述每一维预测语音子信号进行傅里叶变换处理，获得每一维预测语音子信号对应的频域结果；在频域上，对所述每一维预测语音子信号对应的频域结果进行叠加处理，获得频域预测语音信号；对所述频域预测语音信号进行逆傅里叶变换处理，获得所述预测语音信号。6.根据权利要求1所述的方法，其特征在于，所述基于所述文本音素样本对应的全部维度的标注语音子信号、所述全部维度的预测语音子信号、所述预测语音信号的预测属性标识和...

【专利技术属性】
技术研发人员：殷昊，陈云琳，李媛媛，
申请(专利权)人：上海墨百意信息科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人