一种语音合成方法以及语音合成系统技术方案

技术编号:28745218 阅读:17 留言:0更新日期:2021-06-06 18:12
本发明专利技术实施例提供了一种语音合成方法以及语音合成系统,该语音合成方法首先将待输入文本转换成文本编码向量,将待输入梅尔声谱转换成风格编码向量。然后基于当前时间周期的待输入梅尔声谱、上一时间周期的所述文本编码向量以及上一时间周期的所述风格编码向量,确定出目标梅尔声谱,之后将所述目标梅尔声谱转换成音频信号。可见,在本方案中,增加了风格编码器,通过风格编码器将待输入梅尔声谱转换成风格编码向量,进而实现了合成语音的朗读风格、音色的控制。并且,本方案中的语音合成系统在前期已经进行了大量的通用特征的训练学习,因此在新增朗读风格和音色时,风格编码器只需少量的音频样本,进而降低了合成成本。进而降低了合成成本。进而降低了合成成本。

【技术实现步骤摘要】
一种语音合成方法以及语音合成系统


[0001]本专利技术涉及合成
,具体涉及一种语音合成方法以及语音合成系统。

技术介绍

[0002]随着科技的不断发展,用户对语音合成质量的要求也越来越高。目前,语音合成根据其合成原理不同,通常分为两大类,一类为拼接型语音合成,另一类为神经网络型语音合成。
[0003]其中,拼接型语音合成是将语料库切碎,根据需要合成的文本,经过算法重新拼合,来实现机器朗读。神经网络型语音合成是目前较为常用的一种合成方法,其将预测的语音频谱特征输入到声码器中,进行语音信号的预测重建。
[0004]然而,专利技术人发现,采用拼接型语音合成方式合成的音频中,会存在明显的合成卡顿、不连贯,且无法控制合成的朗读风格、音色,并要求训练所需的语料库至少大于数十小时以上的目标发音人音频,制作成本高。而采用神经网络型语音合成方式合成的音频中,也无法控制合成的朗读风格以及朗读音色,且需要用参数量极大的深度网络作为声码器,进而导致语音合成无法实时、低成本的合成。
[0005]因此,如何提供一种语音合成方法,既能控制合成的朗读风格音色,又能降低合成成本,是本领域技术人员亟待解决的一大技术难题。

技术实现思路

[0006]有鉴于此,本专利技术实施例提供了一种语音合成方法,既能控制合成的朗读风格音色,又能降低合成成本。
[0007]为实现上述目的,本专利技术实施例提供如下技术方案:
[0008]一种语音合成方法,包括:
[0009]将待输入文本转换成文本编码向量;
[0010]将待输入梅尔声谱转换成风格编码向量;
[0011]基于当前时间周期的待输入梅尔声谱、上一时间周期的所述文本编码向量以及上一时间周期的所述风格编码向量,确定出目标梅尔声谱;
[0012]将所述目标梅尔声谱转换成音频信号。
[0013]可选的,所述将待输入文本转换成文本编码向量,包括:
[0014]对所述待输入文本进行嵌入处理,生成序列形式的文本向量;
[0015]将所述文本向量输入预设卷积神经网络,并将所述预设卷积神经网络的输出数据输入预设循环神经网络,由所述预设循环神经网络输出预设长度的文本编码向量。
[0016]可选的,所述将待输入梅尔声谱转换成风格编码向量,包括:
[0017]将所述待输入梅尔声谱经过预设卷积神经网络、预设循环神经网络以及预设全连接网络,转换成编码序列;
[0018]将所述编码序列经过多头注意力机制,生成相对于每个预设特征向量的加权系
数,所述预设特征向量表征朗读风格;
[0019]基于所述加权系数,对所述预设特征向量进行加权处理,生成预设长度的风格编码向量。
[0020]可选的,所述基于当前时间周期的待输入梅尔声谱、上一时间周期的所述文本编码向量以及上一时间周期的所述风格编码向量,确定出目标梅尔声谱,包括:
[0021]将所述当前时间周期的待输入梅尔声谱输入预处理网络,由所述预处理网络生成编码的梅尔声谱特征;
[0022]将所述上一时间周期的所述文本编码向量与所述上一时间周期的所述风格编码向量经过注意力机制,得到上一时间周期的上下文向量;
[0023]将所述编码的梅尔声谱特征与所述上一时间周期的上下文向量进行拼接,并将拼接后的向量输入预设循环神经网络,由所述预设循环神经网络生成解码输出;
[0024]将当前时间周期的文本编码向量与当前时间周期的风格编码向量经过注意力机制,得到当前时间周期的上下文向量;
[0025]将所述解码输出与所述当前时间周期的上下文向量进行拼接,并将拼接后的向量输入第一线性投影层以及第二线性投影层,由所述第一线性投影层生成结束标识,由所述第二线性投影层生成声谱残差向量以及信号值向量,将所述声谱残差向量与所述信号量向量进行拼接,生成所述目标梅尔声谱。
[0026]可选的,所述将所述目标梅尔声谱转换成音频信号,包括:
[0027]将所述目标梅尔声谱经过预设卷积神经网络、预设全连接网络,生成帧级别的特征条件向量;
[0028]基于所述目标梅尔声谱,计算出当前帧的线性预测参数;
[0029]基于所述线性预测参数,对所述目标梅尔声谱进行线性预测,得到当前时间周期的预测值向量;
[0030]将所述特征条件向量、所述当前时间周期的预测值向量、所述上一时间周期的声谱残差向量以及所述上一时间周期的信号量向量进行拼接,生成当前时间周期的特征向量;
[0031]将所述当前时间周期的特征向量经过预设卷积神经网络、预设全连接网络,预测出当前时间周期的残差值向量;
[0032]确定所述当前时间周期的预测值向量与所述当前时间周期的残差值向量的加和为所述音频信号。
[0033]一种语音合成系统,包括:文本编码器、风格编码器、解码器以及合成器;
[0034]所述文本编码器用于将待输入文本转换成文本编码向量;
[0035]所述风格编码器用于将待输入梅尔声谱转换成风格编码向量;
[0036]所述解码器与所述文本编码器以及所述风格编码器相连,用于基于当前时间周期的待输入梅尔声谱、上一时间周期的所述文本编码向量以及上一时间周期的所述风格编码向量,确定出目标梅尔声谱;
[0037]所述合成器与所述解码器相连,用于将所述目标梅尔声谱转换成音频信号。
[0038]可选的,所述文本编码器将待输入文本转换成文本编码向量,具体用于:
[0039]对所述待输入文本进行嵌入处理,生成序列形式的文本向量;
[0040]将所述文本向量输入预设卷积神经网络,并将所述预设卷积神经网络的输出数据输入预设循环神经网络,由所述预设循环神经网络输出预设长度的文本编码向量。
[0041]可选的,所述风格编码器将待输入梅尔声谱转换成风格编码向量,具体用于:
[0042]将所述待输入梅尔声谱经过预设卷积神经网络、预设循环神经网络以及预设全连接网络,转换成编码序列;
[0043]将所述编码序列经过多头注意力机制,生成相对于每个预设特征向量的加权系数,所述预设特征向量表征朗读风格;
[0044]基于所述加权系数,对所述预设特征向量进行加权处理,生成预设长度的风格编码向量。
[0045]可选的,所述解码器基于当前时间周期的待输入梅尔声谱、上一时间周期的所述文本编码向量以及上一时间周期的所述风格编码向量,确定出目标梅尔声谱,具体用于:
[0046]将所述当前时间周期的待输入梅尔声谱输入预处理网络,由所述预处理网络生成编码的梅尔声谱特征;
[0047]将所述上一时间周期的所述文本编码向量与所述上一时间周期的所述风格编码向量经过注意力机制,得到上一时间周期的上下文向量;
[0048]将所述编码的梅尔声谱特征与所述上一时间周期的上下文向量进行拼接,并将拼接后的向量输入预设循环神经网络,由所述预设循环神经网络生成解码输出;
[0049]将当前时间周期的文本编码向本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音合成方法,其特征在于,包括:将待输入文本转换成文本编码向量;将待输入梅尔声谱转换成风格编码向量;基于当前时间周期的待输入梅尔声谱、上一时间周期的所述文本编码向量以及上一时间周期的所述风格编码向量,确定出目标梅尔声谱;将所述目标梅尔声谱转换成音频信号。2.根据权利要求1所述的语音合成方法,其特征在于,所述将待输入文本转换成文本编码向量,包括:对所述待输入文本进行嵌入处理,生成序列形式的文本向量;将所述文本向量输入预设卷积神经网络,并将所述预设卷积神经网络的输出数据输入预设循环神经网络,由所述预设循环神经网络输出预设长度的文本编码向量。3.根据权利要求1所述的语音合成方法,其特征在于,所述将待输入梅尔声谱转换成风格编码向量,包括:将所述待输入梅尔声谱经过预设卷积神经网络、预设循环神经网络以及预设全连接网络,转换成编码序列;将所述编码序列经过多头注意力机制,生成相对于每个预设特征向量的加权系数,所述预设特征向量表征朗读风格;基于所述加权系数,对所述预设特征向量进行加权处理,生成预设长度的风格编码向量。4.根据权利要求1所述的语音合成方法,其特征在于,所述基于当前时间周期的待输入梅尔声谱、上一时间周期的所述文本编码向量以及上一时间周期的所述风格编码向量,确定出目标梅尔声谱,包括:将所述当前时间周期的待输入梅尔声谱输入预处理网络,由所述预处理网络生成编码的梅尔声谱特征;将所述上一时间周期的所述文本编码向量与所述上一时间周期的所述风格编码向量经过注意力机制,得到上一时间周期的上下文向量;将所述编码的梅尔声谱特征与所述上一时间周期的上下文向量进行拼接,并将拼接后的向量输入预设循环神经网络,由所述预设循环神经网络生成解码输出;将当前时间周期的文本编码向量与当前时间周期的风格编码向量经过注意力机制,得到当前时间周期的上下文向量;将所述解码输出与所述当前时间周期的上下文向量进行拼接,并将拼接后的向量输入第一线性投影层以及第二线性投影层,由所述第一线性投影层生成结束标识,由所述第二线性投影层生成声谱残差向量以及信号值向量,将所述声谱残差向量与所述信号量向量进行拼接,生成所述目标梅尔声谱。5.根据权利要求4所述的语音合成方法,其特征在于,所述将所述目标梅尔声谱转换成音频信号,包括:将所述目标梅尔声谱经过预设卷积神经网络、预设全连接网络,生成帧级别的特征条件向量;基于所述目标梅尔声谱,计算出当前帧的线性预测参数;
基于所述线性预测参数,对所述目标梅尔声谱进行线性预测,得到当前时间周期的预测值向量;将所述特征条件向量、所述当前时间周期的预测值向量、所述上一时间周期的声谱残差向量以及所述上一时间周期的信号量向量进行拼接,生成当前时间周期的特征向量;将所述当前时间周期的特征向量经过预设卷积神经网络、预设全连接网络,预测出当前时间周期的残差值向量;确定所述当前时间周期的预测值向量与所述当前时间周期的残差值向量的加和为所述音频信号。6.一种语音合成系统,其特征在于,包括:文本编码器、风格编码器、解码器以及合成器;所述文本编码器用于将待输入文本转...

【专利技术属性】
技术研发人员:肖朔
申请(专利权)人:杭州倒映有声科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1