基于单说话人语音合成数据集的声音克隆方法及装置制造方法及图纸

技术编号:23894641 阅读:25 留言:0更新日期:2020-04-22 07:56
本发明专利技术公开了一种基于单说话人语音合成数据集的声音克隆方法、装置、电子设备和计算机存储介质,涉及声音克隆技术领域,该方法包括以下步骤:基于单说话人语音合成数据集,训练单说话人语音合成模型;基于多说话人语音数据集训练声纹模型;多说话人语音数据集通过训练完成的声纹模型计算,得到声纹特征数据集,并基于声纹特征数据集训练声音转换模型;目标文本和目标说话人语音通过训练完成的单说话人语音合成模型、声纹模型、声音转换模型计算,得到目标说话人文本语音。该方法只需一套单说话人的语音合成数据集,实现对目标说话人声音的克隆,对语音合成数据的处理简单方便,无需收集处理大量说话人的语音合成数据,极大地减少各种成本。

Voice cloning method and device based on single speaker speech synthesis data set

【技术实现步骤摘要】
基于单说话人语音合成数据集的声音克隆方法及装置
本专利技术涉及声音克隆
,尤其涉及一种基于单说话人语音合成数据集的声音克隆方法、装置、电子设备及存储介质。
技术介绍
随着语音技术的发展,人们对输出音频提出了更高的要求,希望文本输入生成的音频,听起来像是特定说话人发出的声音。通过声音克隆技术,能够满足这种个性化语音输出的要求。声音克隆技术的最终目标就是可以完全地模拟某个人的声音。现有声音克隆技术已被证明能够基于大量说话人的语音合成数据生成高质量语音,但是一套语音合成数据集往往需要数量众多的说话人。而语音合成数据集要求声音干净,无明显背景噪声,一般从录音棚录制产生,目前无论是免费的还是商业化的语音合成数据集,都无法达到这样的要求。即使耗费资源去制作这样一套数据集,语音合成数据集的标注成本会非常大,成本极其高昂。
技术实现思路
为了克服现有技术的不足,本专利技术的目的之一在于提供一种基于单说话人语音合成数据集的声音克隆方法,其只需单说话人的语音合成数据集,训练获得单说话人语音合成模型,目标文本和目标说话人语音通过单说话人语音合成模型、声纹模型和声音转换模型计算,就能得到以目标说话人声音说出目标文本的语音,从而实现对目标说话人声音的克隆。本专利技术的目的之一采用以下技术方案实现:获取单说话人语音合成数据集,基于所述单说话人语音合成数据集,训练单说话人语音合成模型;获取多说话人语音数据集,基于所述多说话人语音数据集训练声纹模型;所述多说话人语音数据集通过训练完成的所述声纹模型计算,得到声纹特征数据集,并基于所述声纹特征数据集,训练声音转换模型;获取目标文本和目标说话人语音,所述目标文本和所述目标说话人语音通过训练完成的所述单说话人语音合成模型、训练完成的所述声纹模型、训练完成的所述声音转换模型计算,得到目标说话人文本语音。进一步地,所述单说话人语音合成数据集包括单说话人的文本数据和语音数据。进一步地,所述单说话人语音合成模型为Tacotron和声码器的集成模型,其中,所述声码器为WaveRNN声码器、Griffin-Lim声码器中的一种,基于所述单说话人语音合成数据集,训练单说话人语音合成模型,包括:将所述文本数据转换为文本向量;所述文本向量输入所述单说话人语音合成模型计算,得到音频预测值;基于所述音频预测值和所述语音数据之间的损失误差,训练所述单说话人语音合成模型,得到训练完成的单说话人语音合成模型。进一步地,所述声纹模型为三层LSTM模型,基于所述多说话人语音数据集训练声纹模型,包括:所述多说话人语音数据集输入所述声纹模型计算,得到声纹预测值;所述声纹预测值和预存声纹标签输入损失函数计算,得到声纹损失;基于所述声纹损失训练所述声纹模型,得到训练完成的声纹模型。进一步地,所述多说话人语音数据集通过训练完成的所述声纹模型计算,得到声纹特征数据集,包括:所述多说话人语音数据集通过训练完成的所述声纹模型计算,得到声纹特征向量;根据所述多说话人语音数据集和所述声纹特征向量,生成所述声纹特征数据集。进一步地,所述声音转换模型为Blow模型,基于所述声纹特征数据集,训练声音转换模型,包括:所述声纹特征数据集输入所述声音转换模型计算,得到声音预测值;根据所述声音预测值计算似然估计函数,得到声音损失;基于所述声音损失训练所述声音转换模型,得到训练完成的声音转换模型。进一步地,所述目标文本和所述目标说话人语音通过训练完成的所述单说话人语音合成模型、训练完成的所述声纹模型、训练完成的所述声音转换模型计算,包括:所述目标文本输入训练完成的所述单说话人语音合成模型进行计算,得到单说话人语音;所述目标说话人语音输入训练完成的所述声纹模型计算,得到目标说话人声纹特征;所述单说话人语音和所述目标说话人声纹特征通过训练完成的所述声音转换模型进行计算,得到目标说话人文本语音。本专利技术的目的之二在于提供一种基于单说话人语音合成数据集的声音克隆装置,其只需单说话人的语音合成数据集,训练获得单说话人语音合成模型,目标文本和目标说话人语音通过单说话人语音合成模型、声纹模型和声音转换模型计算,就能得到以目标说话人声音说出目标文本的语音,从而实现对目标说话人声音的克隆。本专利技术的目的之二采用以下技术方案实现:一种基于单说话人语音合成数据集的声音克隆装置,其包括:语音合成模块,用于获取单说话人语音合成数据集,基于所述单说话人语音合成数据集,训练单说话人语音合成模型;声纹模块,用于获取多说话人语音数据集,基于所述多说话人语音数据集训练声纹模型;声音转换模块,用于所述多说话人语音数据集通过训练完成的所述声纹模型计算,得到声纹特征数据集,并基于所述声纹特征数据集,训练声音转换模型;声音克隆模块,用于获取目标文本和目标说话人语音,所述目标文本和所述目标说话人语音通过训练完成的所述单说话人语音合成模型、训练完成的所述声纹模型、训练完成的所述声音转换模型计算,得到目标说话人文本语音。本专利技术的目的之三在于提供执行专利技术目的之一的电子设备,其包括处理器、存储介质以及计算机程序,所述计算机程序存储于存储介质中,所述计算机程序被处理器执行时本专利技术目的之一的基于单说话人语音合成数据集的声音克隆方法。本专利技术的目的之四在于提供存储专利技术目的之一的计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现本专利技术目的之一的基于单说话人语音合成数据集的声音克隆方法。相比现有技术,本专利技术的有益效果在于:本专利技术只需一套单说话人的语音合成数据集,就可以实现对目标说话人声音的克隆,对单说话人语音合成数据的处理简单方便,无需收集、处理大量说话人的语音合成数据,极大地减少了人力、时间、资金成本。附图说明图1为本专利技术实施例一的基于单说话人语音合成数据集的声音克隆方法流程图;图2为本专利技术实施例二的基于单说话人语音合成数据集的声音克隆装置的结构框图;图3为本专利技术实施例三的电子设备的结构框图。具体实施方式以下将结合附图,对本专利技术进行更为详细的描述,需要说明的是,以下参照附图对本专利技术进行的描述仅是示意性的,而非限制性的。各个不同实施例之间可以进行相互组合,以构成未在以下描述中示出的其他实施例。实施例一实施例一提供了一种基于单说话人语音合成数据集的声音克隆方法,旨在通过说话人的语音合成数据集,训练获得单说话人语音合成模型,目标文本和目标说话人语音通过单说话人语音合成模型、声纹模型和声音转换模型计算,就能得到以目标说话人声音说出目标文本的语音。该方法只需一套单说话人的语音合成数据集,就可以实现对目标说话人声音的克隆,对单说话人语音合成数据的处理简单方便,无需收集、处理大量说话人的语音合成数据,极大地减少了人力、时间、资金成本。请参照图1所示,一种本文档来自技高网...

【技术保护点】
1.一种基于单说话人语音合成数据集的声音克隆方法,其特征在于:包括以下步骤:/n获取单说话人语音合成数据集,基于所述单说话人语音合成数据集,训练单说话人语音合成模型;/n获取多说话人语音数据集,基于所述多说话人语音数据集训练声纹模型;/n所述多说话人语音数据集通过训练完成的所述声纹模型计算,得到声纹特征数据集,并基于所述声纹特征数据集,训练声音转换模型;/n获取目标文本和目标说话人语音,所述目标文本和所述目标说话人语音通过训练完成的所述单说话人语音合成模型、训练完成的所述声纹模型、训练完成的所述声音转换模型计算,得到目标说话人文本语音。/n

【技术特征摘要】
1.一种基于单说话人语音合成数据集的声音克隆方法,其特征在于:包括以下步骤:
获取单说话人语音合成数据集,基于所述单说话人语音合成数据集,训练单说话人语音合成模型;
获取多说话人语音数据集,基于所述多说话人语音数据集训练声纹模型;
所述多说话人语音数据集通过训练完成的所述声纹模型计算,得到声纹特征数据集,并基于所述声纹特征数据集,训练声音转换模型;
获取目标文本和目标说话人语音,所述目标文本和所述目标说话人语音通过训练完成的所述单说话人语音合成模型、训练完成的所述声纹模型、训练完成的所述声音转换模型计算,得到目标说话人文本语音。


2.如权利要求1所述的一种基于单说话人语音合成数据集的声音克隆方法,其特征在于:所述单说话人语音合成数据集包括单说话人的文本数据和语音数据。


3.如权利要求2所述的一种基于单说话人语音合成数据集的声音克隆方法,其特征在于:所述单说话人语音合成模型为Tacotron和声码器的集成模型,其中,所述声码器为WaveRNN声码器、Griffin-Lim声码器中的一种,基于所述单说话人语音合成数据集,训练单说话人语音合成模型,包括:
将所述文本数据转换为文本向量;
所述文本向量输入所述单说话人语音合成模型计算,得到音频预测值;
基于所述音频预测值和所述语音数据之间的损失误差,训练所述单说话人语音合成模型,得到训练完成的单说话人语音合成模型。


4.如权利要求1所述的一种基于单说话人语音合成数据集的声音克隆方法,其特征在于:所述声纹模型为三层LSTM模型,基于所述多说话人语音数据集训练声纹模型,包括:
所述多说话人语音数据集输入所述声纹模型计算,得到声纹预测值;
所述声纹预测值和预存声纹标签输入损失函数计算,得到声纹损失;
基于所述声纹损失训练所述声纹模型,得到训练完成的声纹模型。


5.如权利要求1所述的一种基于单说话人语音合成数据集的声音克隆方法,其特征在于:所述多说话人语音数据集通过训练完成的所述声纹模型计算,得到声纹特征数据集,包括:
所述多说话人语音数据集通过训练完成的所述声纹模型计算,得到声纹特征向量;
根据所述多说话人语音数据集和所述声纹特征向量,生成所述声纹...

【专利技术属性】
技术研发人员:房树明朱鹏程燕鹏举王洪涛顾王一毕成
申请(专利权)人:同盾控股有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1