基于稠密连接时延神经网络的多说话人中文语音合成方法技术

技术编号：34478712 阅读：13 留言：0更新日期：2022-08-10 08:54

本发明专利技术公开一种基于稠密连接时延神经网络的多说话人中文语音合成方法，利用基于稠密连接时延神经网络的多说话人中文语音合成网络中说话人编码器模块从参考语音频谱中提取说话人嵌入，说话人编码器模块结构简单且参数量小，提取的说话人嵌入融合了多层次信息，因此可与多说话人中文语音合成网络中的其他模块一起优化，在简化训练流程的同时能够提取更适用于语音合成任务的说话人嵌入。其次将多说话人中文语音合成网络中文本编码器模块的输出作为键和值，说话人编码器模块的输出作为查询，输入到编码器的放缩点积注意力机制中生成条件文本表示作为解码器的输入，使说话人嵌入能够有效控制合成语音中的风格，提高合成语音的自然度和相似度。的自然度和相似度。的自然度和相似度。

全部详细技术资料下载

【技术实现步骤摘要】
基于稠密连接时延神经网络的多说话人中文语音合成方法

[0001]本专利技术属于语音合成
，特别涉及一种基于稠密连接时延神经网络的多说话人语音合成方法。

技术介绍

[0002]语音合成是一种可以将任意输入文本转换成相应语音输出的技术，也是人机语音交互中不可或缺的技术之一，也在实际生活中得到了广泛的应用。随着科技的飞速发展，为了适用于更多应用，用户对于语音合成的需求正在不断增加。针对合成语音风格多样性的需求，最直观的方案是让每一个说话人录制数小时的高质量语料，然后为每一个说话人训练一个语音合成模型，在合成阶段根据用户指定的说话人选择相应的模型进行合成。但该方法的缺点也很突出，有几位说话人就要训练几个模型，这就增加了内存开销，同时合成语音的说话人风格只能局限在固定的已知说话人中，无法模仿训练中未知说话人的风格。
[0003]多说话人语音合成的主要目的是仅使用一个语音合成系统就能够合成出与不同说话人风格相似的任意语音，而不需要对于每一个说话人都训练一个单独的语音合成模型。此处的说话人风格具体指语音中说话人的音色、口音、情感等特征。多说话人语音合成技术能够有效地利用不同说话人对于相同音素的发音中的相似性，在训练阶段不需要训练集中包含每一个目标说话人的大规模的平行语料库，而是仅需要由多个不同说话人的小规模语料库组成的大规模语料库，就可以模仿不同说话人的风格特征。相比于多个单说话人语音合成模型，多说话人语音合成模型能够减少存储开销，且在数据规模相同的情况下能够有效提高合成语音的自然度和多样性。
[0004]目

【技术保护点】

【技术特征摘要】
1.一种基于稠密连接时延神经网络的多说话人中文语音合成方法，其特征在于，多说话人中文语音合成包括如下步骤：步骤1，对输入的待合成中文文本进行预处理，将所述待合成中文文本的所有句子根据标点符号划分成多个子句，再将所述子句转换成子句拼音序列；步骤2，对待合成的目标说话人语音进行预处理，将所述目标说话人语音转换为目标语音梅尔频谱，并从中截取出一段连续的频谱段作为合成参考语音频谱；步骤3，训练一个基于稠密连接时延神经网络的多说话人中文语音合成系统，将所述子句拼音序列和合成参考语音频谱作为输入，得到所述子句合成输出的子句波形语音；步骤4，根据原始所述子句的顺序将所有所述子句波形语音拼接起来得到最终生成的合成语音输出。2.根据权利要求1所述的基于稠密连接时延神经网络的多说话人中文语音合成方法，其特征在于，步骤3中所述基于稠密连接时延神经网络的多说话人中文语音合成系统包括多说话人中文语音合成网络和声码器，所述多说话人中文语音合成系统的训练步骤包括有：步骤3.1，对多说话人中文语音合成数据集中的训练数据进行预处理，将其中的训练中文文本转换为训练拼音序列，训练语音波形转换为训练梅尔频谱，所属同一说话人的所有训练梅尔频谱组成训练说话人频谱组；步骤3.2，再根据所述训练拼音序列，从其所属说话人对应的所述训练说话人频谱组中随机选择一个梅尔频谱对其进行截取得到一段连续的频谱段，作为训练参考语音频谱；步骤3.3，将所述训练拼音序列、训练梅尔频谱和训练参考语音频谱共同组成训练样本；步骤3.4，定义基于稠密连接时延神经网络的多说话人中文语音合成网络，将所述训练样本作为输入进行训练输出预测梅尔频谱；步骤3.5，使用所述多说话人中文语音合成数据集中所有所述训练梅尔频谱及其相应的训练语音波形训练声码器，将输入的所述预测梅尔频谱对应输出预测波形语音；步骤3.6，组合训练完成的所述多说话人中文语音合成网络和声码器，得到训练完成的所述多说话人中文语音合成系统。3.根据权利要求2所述的基于稠密连接时延神经网络的多说话人中文语音合成方法，其特征在于，步骤2和步骤3.2中所述截取一段连续的频谱段具体操作为：若所述目标语音梅尔频谱或训练梅尔频谱的总长度小于所需的固定帧数，则对其进行复制使得所述目标语音梅尔频谱或训练梅尔频谱的总长度大于或等于固定帧数，之后再随机截取其中长度为固定帧数的连续频谱段；若所述目标语音梅尔频谱或训练梅尔频谱的总长度大于或等于固定帧数，则直接随机截取其中长度为固定帧数的连续频谱段。4.根据权利要求2所述的基于稠密连接时延神经网络的多说话人中文语音合成方法，其特征在于：当所述待合成中文文本和目标说话人语音进行合成相应语音输出时，其中目标说话人可以是在所述多说话人中文语音合成数据集中出现的已知说话人，也可以是未在所述多说话人中文语音合成数据集中出现的未知说话人。5.根据权利要求2所述的基于稠密连接时延神经网络的多说话人中文语音合成方法，
其特征在于，所述基于稠密连接时延神经网络的多说话人中文语音合成网络结构为：e
text
＝Encoder
text
(x),e
spk
＝Encoder
spk
(y
ref
),e
cond
＝Attention
cond
(e
text
,e
spk
),e
attn
＝Attention
dec
(e
cond
)，e
dec
＝Decoder
rnn
(e
attn
),其中，Encoder
text
表示编码器中的文本编码器模块，Encoder
spk
表示编码器中的说话人编码器模块，Attention
cond
表示编码器中的放缩点积注意力机制，Attention
dec
表示解码器中的位置敏感注意力机制，Decoder
rnn
表示解码器中的循环神经网络，Postnet表示解码器中的后处理网络；x表示输入的子句拼音序列，y
ref
表示截取的参考语音频谱，e
text
表示编码器中文本编码器模块Encoder...

【专利技术属性】
技术研发人员：李武军，周佳依，
申请(专利权)人：南京大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人