本发明专利技术提供一种基于融合语义信息的语音合成的方法,包括如下步骤:数据准备,收集语音数据以及对应文本,对数据进行预处理提取音素序列、时长、能量、基频数据;模型构建,构建融合语义信息的语音合成模型;模型训练,输入真实音频对应的音素序列、时长、能量、基频数据对模型进行训练得到训练好的模型;模型测试,对训练好的模型从合成语音质量以及与语音说话人相似度两个方面进行评价打分,若打分结果满足条件,则保留该模型。采用本发明专利技术的技术方案能减少显式韵律建模中韵律表征提取出现的误差,提升韵律自然度。提升韵律自然度。提升韵律自然度。
【技术实现步骤摘要】
一种融合语义信息的语音合成方法、系统
[0001]本申请涉及语音合成领域,尤其涉及一种融合语义信息的语音合成方法、系统。
技术介绍
[0002]语音合成技术也称为文本到语音(text
‑
to
‑
speech,TTS),目的是通过向设备输入文字,令其转化为人类可以听懂的流畅语音,这一技术是实现人机交互的重要部分,在语音助手、语音导航、智能机器人等方面已有广泛的应用。近几年,深度神经网络的发展使得端到端的语音合成方法成为了研究主流,许多优秀模型的合成语音已经非常接近人声。但是大多数的合成语音仍然存在声音机械、停顿不明确、表现力不足的问题。
[0003]为了合成出更贴近人生的语音,目前的主流方法中,韵律建模是一种比较有效的方法,韵律建模的目的是使模型学会预测韵律表征的能力,韵律建模有两种不同的方法,对于预测或提取的韵律表征,如果存在实际的物理意义且可以直接通过对数据的处理得到,例如,时长、能量、基频,称之为显式韵律建模;如果没有明显的物理意义,需要通过额外特征提取器得到,称之为隐式韵律建模。另一种是显式韵律建模,通过引入时长、能量、基频使合成语音的表现力得到了一定提升,但仍然存在显式的韵律表征提取容易出现误差,无法将不同的韵律表征进行联系的问题,韵律自然度仍有可以提升的空间。
技术实现思路
[0004]本申请实施例提供一种基于融合语义信息的语音合成的方法及装置的相关技术方案,用以解决现有技术中显式的韵律表征提取容易出现误差,无法将不同的韵律表征进行联系的问题,韵律自然度低的技术问题。
[0005]本申请实施例提供一种基于融合语义信息的语音合成的方法,包括如下步骤:
[0006]数据准备,收集语音数据以及对应文本,对数据进行预处理提取音素序列、时长、能量、基频数据;
[0007]模型构建,构建融合语义信息的语音合成模型;
[0008]模型训练,输入真实音频对应的音素序列、时长、能量、基频数据对模型进行训练得到训练好的模型;
[0009]模型测试,对训练好的模型从合成语音质量以及与语音说话人相似度两个方面进行评价打分,若打分结果满足条件,则使用该模型进行语音合成。
[0010]进一步的,所述合成模型包括音素编码器、词编码器、词
‑
音素注意力、编码器、变量适配器以及梅尔谱解码器;所述音素编码器连接到词编码器,所述音素编码器和词编码器分别连接词
‑
音素注意力,词
‑
音素注意力连接编码器,编码器连接变量适配器,变量适配器连接梅尔谱解码器。
[0011]进一步的,收集整理中文数据集AISHELL
‑
3以及英文数据集LibriTTS,对中文数据集AISHELL
‑
3以及英文数据集LibriTTS分别进行预处理,将AISHELL
‑
3音频对应的中文文本进行拼音化处理,得到文本为拼音的文本序列。
[0012]进一步的,所述模型训练中使用Adam优化器。
[0013]进一步的,所述打分包括得到10个不同说话人的合成音频得分,并将10个人的得分再次进行平均得到最终模型得分。
[0014]本申请实施例还提供一种基于融合语义信息的语音合成的装置,包括:
[0015]数据收集模块,收集语音数据以及对应文本,对数据进行预处理提取音素序列、时长、能量、基频数据;
[0016]模型构建模块,构建融合语义信息的语音合成模型;
[0017]模型训练模块,输入真实音频对应的音素序列、时长、能量、基频数据对模型进行训练得到训练好的模型;
[0018]模型测试模块,对训练好的模型从合成语音质量以及与语音说话人相似度两个方面进行评价打分,若打分结果满足条件,则使用该模型进行语音合成。
[0019]进一步的,其中,所述合成模型包括音素编码器、词编码器、词
‑
音素注意力、编码器、变量适配器以及梅尔谱解码器;所述音素编码器连接到词编码器,所述音素编码器和词编码器分别连接词
‑
音素注意力,词
‑
音素注意力连接编码器,编码器连接变量适配器,变量适配器连接梅尔谱解码器。
[0020]进一步的,所述打分包括得到10个不同说话人的合成音频得分,并将10个人的得分再次进行平均得到最终模型得分。
[0021]本申请实施例还提供一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现前述的方法的步骤。
[0022]本申请实施例还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现前述的方法的步骤。
[0023]本专利技术提供的实施例至少具有以下有益效果:
[0024]本专利技术提供一种基于融合语义信息的语音合成的方法,包括如下步骤:数据准备,收集语音数据以及对应文本,对数据进行预处理提取音素序列、时长、能量、基频数据;模型构建,构建融合语义信息的语音合成模型;模型训练,输入真实音频对应的音素序列、时长、能量、基频数据对模型进行训练得到训练好的模型;模型测试,对训练好的模型从合成语音质量以及与语音说话人相似度两个方面进行评价打分,若打分结果满足条件,则使用该模型进行语音合成。采用本申请的技术方案能减少显式韵律建模中韵律表征提取出现的误差,提升韵律自然度。
附图说明
[0025]此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
[0026]图1为本申请实施例提供的一种基于融合语义信息的语音合成的方法的示意图;
[0027]图2为本申请实施例提供的融合语义信息的语音合成模型的模块示意图;
[0028]图3为本申请实施例提供的融合语义信息的词
‑
音素注意力的模块示意图;
[0029]图4为本申请实施例提供的编码器中改进后的FFT结构的示意图。
具体实施方式
[0030]为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0031]如图1
‑
4所示,本申请实施例提供一种基于融合语义信息的语音合成的方法,包括如下步骤:
[0032]数据准备,收集语音数据以及对应文本,对数据进行预处理提取音素序列、时长、能量、基频数据;
[0033]收集整理中文数据集AISHELL
‑
3以及英文数据集LibriTTS,对两个数据集分别进行预处理,将AISHELL
‑
3音频对应的中文文本进行拼音化处理,得到文本为拼音本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种基于融合语义信息的语音合成的方法,其特征在于,包括如下步骤:数据准备,收集语音数据以及对应文本,对数据进行预处理提取音素序列、时长、能量、基频数据;模型构建,构建融合语义信息的语音合成模型;模型训练,输入真实音频对应的音素序列、时长、能量、基频数据对模型进行训练得到训练好的模型;模型测试,对训练好的模型从合成语音质量以及与语音说话人相似度两个方面进行评价打分,若打分结果满足条件,则使用该模型进行语音合成。2.根据权利要求1所述的基于融合语义信息的语音合成的方法,其特征在于,所述合成模型包括音素编码器、词编码器、词
‑
音素注意力、编码器、变量适配器以及梅尔谱解码器;所述音素编码器连接到词编码器,所述音素编码器和词编码器分别连接词
‑
音素注意力,词
‑
音素注意力连接编码器,编码器连接变量适配器,变量适配器连接梅尔谱解码器。3.根据权利要求1所述的基于融合语义信息的语音合成的方法,其特征在于,收集整理中文数据集AISHELL
‑
3以及英文数据集LibriTTS,对中文数据集AISHELL
‑
3以及英文数据集LibriTTS分别进行预处理,将AISHELL
‑
3音频对应的中文文本进行拼音化处理,得到文本为拼音的文本序列。4.根据权利要求1所述的基于融合语义信息的语音合成的方法,其特征在于,所述模型训练中使用Adam优化器。5.根据权利要求1所述的基于融合语义信息的语音合成的方法,其特征在于,所述打分包括得到10个不...
【专利技术属性】
技术研发人员:柯登峰,刘嗣平,张顺,杜宝乐,徐艳艳,
申请(专利权)人:广州九四智能科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。