基于单说话人语音合成数据集的声音克隆方法及装置制造方法及图纸

技术编号：23894641 阅读：25 留言：0更新日期：2020-04-22 07:56

本发明专利技术公开了一种基于单说话人语音合成数据集的声音克隆方法、装置、电子设备和计算机存储介质，涉及声音克隆技术领域，该方法包括以下步骤：基于单说话人语音合成数据集，训练单说话人语音合成模型；基于多说话人语音数据集训练声纹模型；多说话人语音数据集通过训练完成的声纹模型计算，得到声纹特征数据集，并基于声纹特征数据集训练声音转换模型；目标文本和目标说话人语音通过训练完成的单说话人语音合成模型、声纹模型、声音转换模型计算，得到目标说话人文本语音。该方法只需一套单说话人的语音合成数据集，实现对目标说话人声音的克隆，对语音合成数据的处理简单方便，无需收集处理大量说话人的语音合成数据，极大地减少各种成本。

Voice cloning method and device based on single speaker speech synthesis data set

全部详细技术资料下载

【技术实现步骤摘要】
基于单说话人语音合成数据集的声音克隆方法及装置
本专利技术涉及声音克隆
，尤其涉及一种基于单说话人语音合成数据集的声音克隆方法、装置、电子设备及存储介质。
技术介绍
随着语音技术的发展，人们对输出音频提出了更高的要求，希望文本输入生成的音频，听起来像是特定说话人发出的声音。通过声音克隆技术，能够满足这种个性化语音输出的要求。声音克隆技术的最终目标就是可以完全地模拟某个人的声音。现有声音克隆技术已被证明能够基于大量说话人的语音合成数据生成高质量语音，但是一套语音合成数据集往往需要数量众多的说话人。而语音合成数据集要求声音干净，无明显背景噪声，一般从录音棚录制产生，目前无论是免费的还是商业化的语音合成数据集，都无法达到这样的要求。即使耗费资源去制作这样一套数据集，语音合成数据集的标注成本会非常大，成本极其高昂。
技术实现思路
为了克服现有技术的不足，本专利技术的目的之一在于提供一种基于单说话人语音合成数据集的声音克隆方法，其只需单说话人的语音合成数据集，训练获得单说话人语音合成模型，目标文本和目标说话人语音通过单说话人语音合成模型、声纹模型和声音转换模型计算，就能得到以目标说话人声音说出目标文本的语音，从而实现对目标说话人声音的克隆。本专利技术的目的之一采用以下技术方案实现：获取单说话人语音合成数据集，基于所述单说话人语音合成数据集，训练单说话人语音合成模型；获取多说话人语音数据集，基于所述多说话人语音数据集训练声纹模型；所述多说话人语音数据集通过训练完成...

【技术保护点】
1.一种基于单说话人语音合成数据集的声音克隆方法，其特征在于：包括以下步骤：/n获取单说话人语音合成数据集，基于所述单说话人语音合成数据集，训练单说话人语音合成模型；/n获取多说话人语音数据集，基于所述多说话人语音数据集训练声纹模型；/n所述多说话人语音数据集通过训练完成的所述声纹模型计算，得到声纹特征数据集，并基于所述声纹特征数据集，训练声音转换模型；/n获取目标文本和目标说话人语音，所述目标文本和所述目标说话人语音通过训练完成的所述单说话人语音合成模型、训练完成的所述声纹模型、训练完成的所述声音转换模型计算，得到目标说话人文本语音。/n

【技术特征摘要】
1.一种基于单说话人语音合成数据集的声音克隆方法，其特征在于：包括以下步骤：
获取单说话人语音合成数据集，基于所述单说话人语音合成数据集，训练单说话人语音合成模型；
获取多说话人语音数据集，基于所述多说话人语音数据集训练声纹模型；
所述多说话人语音数据集通过训练完成的所述声纹模型计算，得到声纹特征数据集，并基于所述声纹特征数据集，训练声音转换模型；
获取目标文本和目标说话人语音，所述目标文本和所述目标说话人语音通过训练完成的所述单说话人语音合成模型、训练完成的所述声纹模型、训练完成的所述声音转换模型计算，得到目标说话人文本语音。

2.如权利要求1所述的一种基于单说话人语音合成数据集的声音克隆方法，其特征在于：所述单说话人语音合成数据集包括单说话人的文本数据和语音数据。

3.如权利要求2所述的一种基于单说话人语音合成数据集的声音克隆方法，其特征在于：所述单说话人语音合成模型为Tacotron和声码器的集成模型，其中，所述声码器为WaveRNN声码器、Griffin-Lim声码器中的一种，基于所述单说话人语音合成数据集，训练单说话人语音合成模型，包括：
将所述文本数据转换为文本向量；
所述文本向量输入所述单说话人语音合成模型计算，得到音频预测值；
基于所述音频预测值和所述语音数据之间的损失误差，训练所述单说话人语音合成模型，得到训练完成的单说话人语音合成模型。

4.如权利要求1所述的一种基于单说话人语音合成数据集的声音克隆方法，其特征在于：所述声纹模型为三层LSTM模型，基于所述多说话人语音数据集训练声纹模型，包括：
所述多说话人语音数据集输入所述声纹模型计算，得到声纹预测值；
所述声纹预测值和预存声纹标签输入损失函数计算，得到声纹损失；
基于所述声纹损失训练所述声纹模型，得到训练完成的声纹模型。

5.如权利要求1所述的一种基于单说话人语音合成数据集的声音克隆方法，其特征在于：所述多说话人语音数据集通过训练完成的所述声纹模型计算，得到声纹特征数据集，包括：
所述多说话人语音数据集通过训练完成的所述声纹模型计算，得到声纹特征向量；
根据所述多说话人语音数据集和所述声纹特征向量，生成所述声纹...

【专利技术属性】
技术研发人员：房树明，朱鹏程，燕鹏举，王洪涛，顾王一，毕成，
申请(专利权)人：同盾控股有限公司，
类型：发明
国别省市：浙江;33

全部详细技术资料下载我是这个专利的主人