当前位置: 首页 > 专利查询>南京大学专利>正文

基于稠密连接时延神经网络的多说话人中文语音合成方法技术

技术编号:34478712 阅读:13 留言:0更新日期:2022-08-10 08:54
本发明专利技术公开一种基于稠密连接时延神经网络的多说话人中文语音合成方法,利用基于稠密连接时延神经网络的多说话人中文语音合成网络中说话人编码器模块从参考语音频谱中提取说话人嵌入,说话人编码器模块结构简单且参数量小,提取的说话人嵌入融合了多层次信息,因此可与多说话人中文语音合成网络中的其他模块一起优化,在简化训练流程的同时能够提取更适用于语音合成任务的说话人嵌入。其次将多说话人中文语音合成网络中文本编码器模块的输出作为键和值,说话人编码器模块的输出作为查询,输入到编码器的放缩点积注意力机制中生成条件文本表示作为解码器的输入,使说话人嵌入能够有效控制合成语音中的风格,提高合成语音的自然度和相似度。的自然度和相似度。的自然度和相似度。

【技术实现步骤摘要】
基于稠密连接时延神经网络的多说话人中文语音合成方法


[0001]本专利技术属于语音合成
,特别涉及一种基于稠密连接时延神经网络的多说话人语音合成方法。

技术介绍

[0002]语音合成是一种可以将任意输入文本转换成相应语音输出的技术,也是人机语音交互中不可或缺的技术之一,也在实际生活中得到了广泛的应用。随着科技的飞速发展,为了适用于更多应用,用户对于语音合成的需求正在不断增加。针对合成语音风格多样性的需求,最直观的方案是让每一个说话人录制数小时的高质量语料,然后为每一个说话人训练一个语音合成模型,在合成阶段根据用户指定的说话人选择相应的模型进行合成。但该方法的缺点也很突出,有几位说话人就要训练几个模型,这就增加了内存开销,同时合成语音的说话人风格只能局限在固定的已知说话人中,无法模仿训练中未知说话人的风格。
[0003]多说话人语音合成的主要目的是仅使用一个语音合成系统就能够合成出与不同说话人风格相似的任意语音,而不需要对于每一个说话人都训练一个单独的语音合成模型。此处的说话人风格具体指语音中说话人的音色、口音、情感等特征。多说话人语音合成技术能够有效地利用不同说话人对于相同音素的发音中的相似性,在训练阶段不需要训练集中包含每一个目标说话人的大规模的平行语料库,而是仅需要由多个不同说话人的小规模语料库组成的大规模语料库,就可以模仿不同说话人的风格特征。相比于多个单说话人语音合成模型,多说话人语音合成模型能够减少存储开销,且在数据规模相同的情况下能够有效提高合成语音的自然度和多样性。
[0004]目前,已有一些主流的多说话人中文语音合成方法能够合成出与目标说话人风格相似的语音。其中大部分已有模型都需要单独训练一个额外的声纹验证网络,之后将该网络从参考语音中提取出的隐变量作为说话人特征表示,即说话人嵌入。并将该说话人嵌入与语音合成模型中得到的文本内容表示拼接起来组成条件文本表示,最后将得到的条件文本表示输入到语音合成模型的后续模块中进行合成。这类方法中声纹验证网络需要额外训练,导致整个多说话人语音合成方法的训练过程复杂繁琐,且该网络提取出的说话人嵌入是基于说话人分类任务训练得到的,并不一定适用于语音合成任务。此外,直观而言,在多说话人语音合成任务中,文本内容对于合成结果应起到主要作用,控制合成语音中表达的具体语义,说话人特征则起到辅助作用,控制合成语音中的音色、口音和情感等特征。而大多数多说话人中文语音合成方法中使用拼接融合的方式生成条件文本表示,使得文本内容表示与说话人嵌入对语音合成结果起到了相似的作用,因此限制了合成语音的自然度和相似度。

技术实现思路

[0005]本申请的内容部分用于以简要的形式介绍构思,这些构思将在后面的具体实施方式部分被详细描述。本申请的内容部分并不旨在标识要求保护的技术方案的关键特征或必
要特征,也不旨在用于限制所要求的保护的技术方案的范围。
[0006]针对现有技术中存在的问题与不足,本专利技术目的在于提供一种基于稠密连接时延神经网络的多说话人中文语音合成方法,利用基于稠密连接时延神经网络的多说话人中文语音合成网络中的说话人编码器模块从参考语音频谱中提取出说话人嵌入,该说话人编码器模块结构简单且参数量小,提取出的说话人嵌入融合了多层次信息,因此可以与多说话人中文语音合成网络中的其他模块一起优化,并在简化训练流程的同时能够提取出更适用于语音合成任务的说话人嵌入。其次,将多说话人中文语音合成网络中文本编码器模块的输出作为键和值,说话人编码器模块的输出作为查询,输入到编码器的放缩点积注意力机制中生成条件文本表示,使得说话人嵌入能够有效控制合成语音中的风格,能够有效提高合成语音的自然度和相似度,以解决上述
技术介绍
中提出的问题。
[0007]为实现上述目的,本专利技术提供如下技术方案:
[0008]本专利技术公开一种基于稠密连接时延神经网络的多说话人中文语音合成方法,多说话人中文语音合成包括如下步骤:
[0009]步骤1,对输入的待合成中文文本进行预处理,将所述待合成中文文本的所有句子根据标点符号划分成多个子句,再将所述子句转换成子句拼音序列;
[0010]步骤2,对待合成的目标说话人语音进行预处理,将所述目标说话人语音转换为目标语音梅尔频谱,并从中截取出一段连续的频谱段作为合成参考语音频谱;
[0011]步骤3,训练一个基于稠密连接时延神经网络的多说话人中文语音合成系统,将所述子句拼音序列和合成参考语音频谱作为输入,得到所述子句合成输出的子句波形语音;
[0012]步骤4,根据原始所述子句的顺序将所有所述子句波形语音拼接起来得到最终生成的合成语音输出。
[0013]进一步的,步骤3中所述基于稠密连接时延神经网络的多说话人中文语音合成系统包括多说话人中文语音合成网络和声码器,所述多说话人中文语音合成系统的训练步骤包括有:
[0014]步骤3.1,对多说话人中文语音合成数据集中的训练数据进行预处理,将其中的训练中文文本转换为训练拼音序列,训练语音波形转换为训练梅尔频谱,所属同一说话人的所有训练梅尔频谱组成训练说话人频谱组;
[0015]步骤3.2,再根据所述训练拼音序列,从其所属说话人对应的所述训练说话人频谱组中随机选择一个梅尔频谱对其进行截取得到一段连续的频谱段,作为训练参考语音频谱;
[0016]步骤3.3,将所述训练拼音序列、训练梅尔频谱和训练参考语音频谱共同组成训练样本;
[0017]步骤3.4,定义基于稠密连接时延神经网络的多说话人中文语音合成网络,将所述训练样本作为输入进行训练输出预测梅尔频谱;
[0018]步骤3.5,使用所述多说话人中文语音合成数据集中所有所述训练梅尔频谱及其相应的训练语音波形训练声码器,将输入的所述预测梅尔频谱对应输出预测波形语音;
[0019]步骤3.6,组合训练完成的所述多说话人中文语音合成网络和声码器,得到训练完成的所述多说话人中文语音合成系统。
[0020]进一步的,步骤2和步骤3.2中所述截取一段连续的频谱段具体操作为:
[0021]若所述目标语音梅尔频谱或训练梅尔频谱的总长度小于所需的固定帧数,则对其进行复制使得所述目标语音梅尔频谱或训练梅尔频谱的总长度大于或等于固定帧数,之后再随机截取其中长度为固定帧数的连续频谱段;
[0022]若所述目标语音梅尔频谱或训练梅尔频谱的总长度大于或等于固定帧数,则直接随机截取其中长度为固定帧数的连续频谱段。
[0023]进一步的,当所述待合成中文文本和目标说话人语音进行合成相应语音输出时,其中目标说话人可以是在所述多说话人中文语音合成数据集中出现的已知说话人,也可以是未在所述多说话人中文语音合成数据集中出现的未知说话人。
[0024]进一步的,所述基于稠密连接时延神经网络的多说话人中文语音合成网络结构为:
[0025]e
text
=Encoder
text
(x),
[0026]e
spk
=Encoder
...

【技术保护点】

【技术特征摘要】
1.一种基于稠密连接时延神经网络的多说话人中文语音合成方法,其特征在于,多说话人中文语音合成包括如下步骤:步骤1,对输入的待合成中文文本进行预处理,将所述待合成中文文本的所有句子根据标点符号划分成多个子句,再将所述子句转换成子句拼音序列;步骤2,对待合成的目标说话人语音进行预处理,将所述目标说话人语音转换为目标语音梅尔频谱,并从中截取出一段连续的频谱段作为合成参考语音频谱;步骤3,训练一个基于稠密连接时延神经网络的多说话人中文语音合成系统,将所述子句拼音序列和合成参考语音频谱作为输入,得到所述子句合成输出的子句波形语音;步骤4,根据原始所述子句的顺序将所有所述子句波形语音拼接起来得到最终生成的合成语音输出。2.根据权利要求1所述的基于稠密连接时延神经网络的多说话人中文语音合成方法,其特征在于,步骤3中所述基于稠密连接时延神经网络的多说话人中文语音合成系统包括多说话人中文语音合成网络和声码器,所述多说话人中文语音合成系统的训练步骤包括有:步骤3.1,对多说话人中文语音合成数据集中的训练数据进行预处理,将其中的训练中文文本转换为训练拼音序列,训练语音波形转换为训练梅尔频谱,所属同一说话人的所有训练梅尔频谱组成训练说话人频谱组;步骤3.2,再根据所述训练拼音序列,从其所属说话人对应的所述训练说话人频谱组中随机选择一个梅尔频谱对其进行截取得到一段连续的频谱段,作为训练参考语音频谱;步骤3.3,将所述训练拼音序列、训练梅尔频谱和训练参考语音频谱共同组成训练样本;步骤3.4,定义基于稠密连接时延神经网络的多说话人中文语音合成网络,将所述训练样本作为输入进行训练输出预测梅尔频谱;步骤3.5,使用所述多说话人中文语音合成数据集中所有所述训练梅尔频谱及其相应的训练语音波形训练声码器,将输入的所述预测梅尔频谱对应输出预测波形语音;步骤3.6,组合训练完成的所述多说话人中文语音合成网络和声码器,得到训练完成的所述多说话人中文语音合成系统。3.根据权利要求2所述的基于稠密连接时延神经网络的多说话人中文语音合成方法,其特征在于,步骤2和步骤3.2中所述截取一段连续的频谱段具体操作为:若所述目标语音梅尔频谱或训练梅尔频谱的总长度小于所需的固定帧数,则对其进行复制使得所述目标语音梅尔频谱或训练梅尔频谱的总长度大于或等于固定帧数,之后再随机截取其中长度为固定帧数的连续频谱段;若所述目标语音梅尔频谱或训练梅尔频谱的总长度大于或等于固定帧数,则直接随机截取其中长度为固定帧数的连续频谱段。4.根据权利要求2所述的基于稠密连接时延神经网络的多说话人中文语音合成方法,其特征在于:当所述待合成中文文本和目标说话人语音进行合成相应语音输出时,其中目标说话人可以是在所述多说话人中文语音合成数据集中出现的已知说话人,也可以是未在所述多说话人中文语音合成数据集中出现的未知说话人。5.根据权利要求2所述的基于稠密连接时延神经网络的多说话人中文语音合成方法,
其特征在于,所述基于稠密连接时延神经网络的多说话人中文语音合成网络结构为:e
text
=Encoder
text
(x),e
spk
=Encoder
spk
(y
ref
),e
cond
=Attention
cond
(e
text
,e
spk
),e
attn
=Attention
dec
(e
cond
),e
dec
=Decoder
rnn
(e
attn
),其中,Encoder
text
表示编码器中的文本编码器模块,Encoder
spk
表示编码器中的说话人编码器模块,Attention
cond
表示编码器中的放缩点积注意力机制,Attention
dec
表示解码器中的位置敏感注意力机制,Decoder
rnn
表示解码器中的循环神经网络,Postnet表示解码器中的后处理网络;x表示输入的子句拼音序列,y
ref
表示截取的参考语音频谱,e
text
表示编码器中文本编码器模块Encoder...

【专利技术属性】
技术研发人员:李武军周佳依
申请(专利权)人:南京大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1