语音合成方法、装置、电子设备及存储介质制造方法及图纸

技术编号：37594646 阅读：9 留言：0更新日期：2023-05-18 11:39

本申请提供了一种语音合成方法、装置、电子设备及存储介质，该方法包括：获取待合成文本的音素序列和待合成说话者的语音特征；将音素序列输入语音合成模型的编码器进行编码处理，获取音素编码特征，以及分别将语音特征和待合成文本输入风格预测器，得到语音风格预测结果和文本风格预测结果；将语音风格预测结果与文本风格预测结果进行特征融合，获取风格特征向量；将风格特征向量和音素编码特征进行融合并根据融合后的特征向量进行韵律预测，以获取韵律表征向量；将韵律表征向量和音素编码特征进行融合并根据融合结果进行语音合成，得到待合成文本对应的具有待合成说话者的风格的合成语音。本申请能够生成更逼近待合成说话人风格的合成语音。风格的合成语音。风格的合成语音。

全部详细技术资料下载

【技术实现步骤摘要】
语音合成方法、装置、电子设备及存储介质

[0001]本申请涉及人工智能领域，具体涉及一种语音合成方法、装置、电子设备及存储介质。

技术介绍

[0002]语音合成是指将文本转化为语音音频的过程，目前通常采用语音合成模型来执行上述合成语音音频的操作。然而在训练语音合成模型的过程中，训练采用的样本数据一般是由专业的播音员在录音棚环境下进行录制的，即样本数据的风格一般都是朗读风格，进而导致了语音合成模型更偏向于生成朗读风格的合成语音。也就是说，利用语音合成模型生成的合成语音，缺乏对待合成说话人风格的体现。
[0003]鉴于此，如何生成更逼近待合成说话人风格的合成语音成为亟待解决的技术问题。

技术实现思路

[0004]有鉴于此，本申请实施例提供了一种语音合成方法、装置、电子设备及存储介质，能够生成更逼近待合成说话人风格的合成语音。
[0005]第一方面，本申请的实施例提供了一种语音合成方法，应用于语音合成模型，包括：
[0006]获取待合成文本的音素序列和待合成说话者的语音特征；将音素序列输入语音合成模型的编码器进行编码处理，获取音素编码特征，以及分别将语音特征和待合成文本输入风格预测器，得到语音风格预测结果和文本风格预测结果；将语音风格预测结果与文本风格预测结果进行特征融合，获取风格特征向量；将风格特征向量和音素编码特征进行融合并根据融合后的特征向量进行韵律预测，以获取韵律表征向量；将韵律表征向量和音素编码特征进行融合并根据融合结果进行语音合成，得到待合成文本对应的具有待合成说话者的风...

【技术保护点】

【技术特征摘要】
1.一种语音合成方法，其特征在于，应用于语音合成模型，包括：获取待合成文本的音素序列和待合成说话者的语音特征；将所述音素序列输入所述语音合成模型的编码器进行编码处理，获取音素编码特征，以及分别将所述语音特征和所述待合成文本输入风格预测器，得到语音风格预测结果和文本风格预测结果；将所述语音风格预测结果与所述文本风格预测结果进行特征融合，获取风格特征向量；将所述风格特征向量和所述音素编码特征进行融合并根据融合后的特征向量进行韵律预测，以获取韵律表征向量；将所述韵律表征向量和所述音素编码特征进行融合并根据融合结果进行语音合成，得到所述待合成文本对应的具有所述待合成说话者的风格的合成语音。2.根据权利要求1所述的方法，其特征在于，所述风格预测器包括语音风格预测模块和文本风格预测模块，所述语音风格预测结果是通过所述语音风格预测模块对所述语音特征进行风格预测得到的，所述文本风格预测结果是通过所述文本风格预测模块对所述待合成文本进行风格预测得到的。3.根据权利要求2所述的方法，其特征在于，所述语音风格预测模块包括依次连接的第一线性层、残差模块、注意机制模块和第二线性层，其中，通过所述语音风格预测模块对所述语音特征进行风格预测，得到所述语音风格预测结果，包括：将所述语音特征输入所述第一线性层进行特征提取和维度映射，得到第一语音特征，以及将所述第一语音特征输入所述残差模块进行下采样，得到第二语音特征；将所述第二语音特征输入所述注意机制模块进行特征处理，得到第三语音特征；将所述第三语音特征输入所述第二线性层进行特征处理和维度映射，以获取所述语音风格预测结果，其中所述语音风格预测结果的维度与所述风格特征向量的维度相同。4.根据权利要求2所述的方法，其特征在于，所述文本风格预测模块包括依次连接的语言表征模型和第三线性层，其中，通过所述文本风格预测模块对所述待合成文本进行风格预测，得到所述文本风格预测结果，包括：将所述待合成文本输入所述语言表征模型进行特征提取，得到所述待合成文本的句特征向量；将所述句特征向量输入所述第三线性层进行特征提取和维度映射，以获取所述文本风格预测结果，其中所述文本风格预测结果的维度与所述风格特征向量的维度相同。5.根据权利要求1所述的方法，其特征在于，所述语音合成模型包括第一韵律预测器和韵律编码器，其中，所述将所述风格特征向量和所述音素编码特征进行融合并根据融合后的特征向量进行韵律预测，以获取韵律表征向量，包括：将所述风格特...

【专利技术属性】
技术研发人员：刘鹏飞，蒋宁，吴海英，夏粉，刘敏，
申请(专利权)人：马上消费金融股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人