当前位置: 首页 > 专利查询>厦门大学专利>正文

轻量级多说话人语音合成系统及电子设备技术方案

技术编号:26847542 阅读:22 留言:0更新日期:2020-12-25 13:12
一种轻量级多说话人语音合成系统及电子设备,该系统包括:文本特征提取和规整模块、说话人特征提取模块、特征融合模块和语音生成模块。文本特征提取和规整模块用于采用轻量级编码器将待处理的文本信息进行编码和特征提取,并采用轻量级时长预测网络对轻量级编码器输出的文本深层特征对应的每个词或音素进行时长预测,以及用于进行长度规整处理,以得到与目标梅尔频谱长度相等的规整的文本特征。说话人特征提取模块用于生成能够表征目标说话人的特征。特征融合模块用于将目标说话人的特征与规整的文本特征进行融合。语音生成模块用于将融合后的特征进行深层特征提取、维度映射、残差整合以及生成语音。该系统支持多说话人语音合成且合成速度快。

【技术实现步骤摘要】
轻量级多说话人语音合成系统及电子设备
本公开属于语音合成
,涉及一种轻量级多说话人语音合成系统及电子设备。
技术介绍
近年来,基于神经网络的端到端语音合成系统在系统架构和生成语音质量方面已经超越了传统的统计参数语音合成系统。端到端语音合成系统,如Tacotron2系统和Transformertext-to-speech系统(简称TransformerTTS系统)直接使用神经网络将文本转换为相对应的语音,不再需要大量复杂的文本前端处理工作、各种语言学特征的提取、以及复杂的领域专家知识。然而,目前主流的端到端语音合成系统大都采用注意力机制来隐式地学习文本到语音的对齐关系,这带来了巨大计算量,同时也使得语音合成速度较慢。同时,这类语音合成系统采用自回归的语音生成模式,这种模式要求后一语音帧的生成需要以前一语音帧作为输入,有较强的前后依赖关系和时序性,导致语音合成无法并行处理,极大地降低了语音合成速度。性能较好的神经网络模型通常具有较大的参数,这会带来巨大的计算量和内存消耗。目前主流的端到端语音合成系统都有较大的参数量,所以语音合成模型往往部署在云端,设备端需要通过网络与云端的语音合成系统进行通信,由于网络传输需要时间,网络传输直接影响了用户体验。同时,基于云端的语音合成系统无法对一些无法联网的低资源设备提供语音合成服务,导致语音合成系统不能够在各种设备上进行广泛应用。因此,有必要提出一种参数量小,计算复杂度低,同时还具有良好性能的语音合成模型,使其能够部署于嵌入式系统以及其他移动设备中,这能够促进语音合成系统在边缘人工智能(AI)领域的真正落地。此外,现有的文本转语音的系统大多只能实现一个说话人的单一风格语音合成,少数可以实现多个说话人合成的语音合成系统存在合成速度慢且需要较大的计算量以及内存消耗的问题。
技术实现思路
(一)要解决的技术问题本公开提供了一种轻量级多说话人语音合成系统及电子设备,以至少部分解决以上所提出的技术问题。(二)技术方案本公开的一个方面提供了一种轻量级多说话人语音合成系统。上述系统包括:文本特征提取和规整模块、说话人特征提取模块、特征融合模块以及语音生成模块。文本特征提取和规整模块用于采用轻量级编码器将待处理的文本信息进行编码和特征提取,并采用轻量级时长预测网络对轻量级编码器输出的文本深层特征对应的每个词或音素进行时长预测,以及用于进行长度规整处理,以得到与目标梅尔频谱长度相等的规整的文本特征,所述目标梅尔频谱为所述待处理的文本信息所要转化的语音的梅尔频谱。说话人特征提取模块用于基于时延神经网络从目标说话人的语音对应的梅尔频谱中提取出目标说话人的深度特征向量并进行归一化处理,以生成能够表征目标说话人的特征。特征融合模块用于将目标说话人的特征与规整的文本特征进行融合。语音生成模块用于采用轻量级解码器对融合后的特征进行深层特征提取,并用于将提取出的深层特征映射至与目标梅尔频谱相同的维度,基于预测的残差信息和映射后的深层特征生成待处理的文本对应的目标梅尔频谱,以及将生成的目标梅尔频谱转换为人耳能够听到的语音。根据本公开的实施例,轻量级编码器和轻量级解码器均包括:多层轻量级前馈网络。每层轻量级前馈网络包括:轻量级卷积或轻量级动态卷积。其中,轻量级卷积的卷积核权重在训练之后是固定的,轻量级动态卷积的卷积核权重根据当前输入的词或音素的嵌入特征动态生成。轻量级卷积或轻量级动态卷积沿着词向量通道维度划分为不同的组,每组都进行独立的计算,并且组内的卷积核参数是共享的;在每组的计算过程中使用深度可分离卷积,使得每组内词向量各个通道能够并行计算,以减少计算复杂度和卷积网络参数量。根据本公开的实施例,轻量级编码器和轻量级解码器均包括:多层轻量级前馈网络。每层轻量级前馈网络包括:轻量级卷积或轻量级动态卷积,每层轻量级前馈网络还包括:自注意力神经网络和信息融合模块。轻量级卷积的卷积核权重在训练之后是固定的,轻量级动态卷积的卷积核权重根据当前输入的词或音素的嵌入特征动态生成。其中,待处理的文本信息以词向量形式输入,基于特征通道掩码将输入的文本信息沿着词向量通道维度分割为两个部分,其中一个部分使用轻量级卷积或轻量级动态卷积提取局部上下文信息,其中另一个部分通过自注意力神经网络提取全局信息;信息融合模块用于将局部上下文信息和全局信息进行融合。根据本公开的实施例,每层轻量级前馈网络还包括:深度可分离卷积和分组卷积;其中,信息融合模块融合后的信息经过归一化处理后再经过所述深度可分离卷积和所述分组卷积进行深层文本特征的提取。根据本公开的实施例,每层轻量级前馈网络还包括:深度可分离卷积和分组卷积;轻量级卷积或轻量级动态卷积输出的信息经过归一化处理后再经过所述深度可分离卷积和所述分组卷积进行深层文本特征的提取。根据本公开的实施例,文本特征提取和规整模块包括:轻量级编码器、轻量级时长预测网络、特征长度规整模块以及绝对位置编码层。轻量级编码器用于输入待处理的文本信息,并基于多层轻量级前馈网络对待处理的文本信息进行编码和特征提取。轻量级时长预测网络用于接收轻量级编码器输出的文本深层特征,并基于多层深度可分离卷积网络预测出文本深层特征对应的中每个词或者音素的时长。特征长度规整模块用于根据预测的时长将轻量级编码器输出的文本深层特征的长度进行拓展,使得拓展后的文本深层特征的长度与目标梅尔频谱长度一致。绝对位置编码层用于为每个文本深度特征标注位置信息,使得多层轻量级前馈网络能够利用位置信息来提取更具表征能力的特征。根据本公开的实施例,语音生成模块包括:轻量级解码器、相对位置编码层、梅尔频谱映射模块、后处理网络、梅尔频谱生成模块以及声码器。轻量级解码器用于接收融合后的特征,并基于该轻量级解码器中的多层轻量级前馈网络进行深层特征提取。相对位置编码层用于对融合后的特征标注相对位置信息,使得轻量级解码器中的多层前馈网络能够利用相对位置信息来增强特征之间的关联性。梅尔频谱映射模块用于将提取出的深层特征映射至与目标梅尔频谱相同的维度。后处理网络用于预测梅尔频谱的残差信息。梅尔频谱生成模块用于基于预测的残差信息和映射后的深层特征生成待处理的文本对应的目标梅尔频谱。声码器用于将目标梅尔频谱转换为人耳能够听到的语音。根据本公开的实施例,轻量级多说话人语音合成系统中的参数通过以辅助模型的输出作为标签进行训练获得。其中,所述轻量级多说话人语音合成系统基于训练集进行训练,训练集包括:训练文本、训练文本在辅助模型中得到的训练输出音频对应的梅尔频谱和特定说话人的特征;训练的输入为训练文本和特定说话人的特征,输出为所述训练文本在辅助模型中得到的训练输出音频对应的梅尔频谱。其中,轻量级时长预测网络的参数是通过以辅助模型得到的训练文本中词或者音素对应的时长信息作为标签进行训练获得。辅助模型包括预先训练好的基于注意力机制的自回归语音合成模型,其中所述基于注意力机制的自回归语音合成模型的输入为文本和特定说话人的特征,输出为与输入的文本和特定说话人的特征对应的特定说话人的语音。根据本公开的实本文档来自技高网
...

【技术保护点】
1.一种轻量级多说话人语音合成系统,其特征在于,包括:/n文本特征提取和规整模块,用于采用轻量级编码器将待处理的文本信息进行编码和特征提取,并采用轻量级时长预测网络对轻量级编码器输出的文本深层特征对应的每个词或音素进行时长预测,以及用于进行长度规整处理,以得到与目标梅尔频谱长度相等的规整的文本特征,所述目标梅尔频谱为所述待处理的文本信息所要转化的语音的梅尔频谱;/n说话人特征提取模块,用于基于时延神经网络从目标说话人的语音对应的梅尔频谱中提取出目标说话人的深度特征向量并进行归一化处理,以生成能够表征目标说话人的特征;/n特征融合模块,用于将目标说话人的特征与规整的文本特征进行融合;以及/n语音生成模块,用于采用轻量级解码器对融合后的特征进行深层特征提取,并用于将提取出的深层特征映射至与目标梅尔频谱相同的维度,基于预测的残差信息和映射后的深层特征生成待处理的文本对应的目标梅尔频谱,以及将生成的目标梅尔频谱转换为人耳能够听到的语音。/n

【技术特征摘要】
1.一种轻量级多说话人语音合成系统,其特征在于,包括:
文本特征提取和规整模块,用于采用轻量级编码器将待处理的文本信息进行编码和特征提取,并采用轻量级时长预测网络对轻量级编码器输出的文本深层特征对应的每个词或音素进行时长预测,以及用于进行长度规整处理,以得到与目标梅尔频谱长度相等的规整的文本特征,所述目标梅尔频谱为所述待处理的文本信息所要转化的语音的梅尔频谱;
说话人特征提取模块,用于基于时延神经网络从目标说话人的语音对应的梅尔频谱中提取出目标说话人的深度特征向量并进行归一化处理,以生成能够表征目标说话人的特征;
特征融合模块,用于将目标说话人的特征与规整的文本特征进行融合;以及
语音生成模块,用于采用轻量级解码器对融合后的特征进行深层特征提取,并用于将提取出的深层特征映射至与目标梅尔频谱相同的维度,基于预测的残差信息和映射后的深层特征生成待处理的文本对应的目标梅尔频谱,以及将生成的目标梅尔频谱转换为人耳能够听到的语音。


2.根据权利要求1所述的轻量级多说话人语音合成系统,其特征在于,所述轻量级编码器和所述轻量级解码器包括:多层轻量级前馈网络,每层轻量级前馈网络包括:轻量级卷积或轻量级动态卷积,
其中,所述轻量级卷积的卷积核权重在训练之后是固定的,所述轻量级动态卷积的卷积核权重根据当前输入的词或音素的嵌入特征动态生成;
所述轻量级卷积或轻量级动态卷积沿着词向量通道维度划分为不同的组,每组都进行独立的计算,并且组内的卷积核参数是共享的;在每组的计算过程中使用深度可分离卷积,使得每组内词向量各个通道能够并行计算。


3.根据权利要求1所述的轻量级多说话人语音合成系统,其特征在于,所述轻量级编码器和所述轻量级解码器包括:多层轻量级前馈网络,每层轻量级前馈网络包括:轻量级卷积或轻量级动态卷积,所述轻量级卷积的卷积核权重在训练之后是固定的,所述轻量级动态卷积的卷积核权重根据当前输入的词或音素的嵌入特征动态生成;每层轻量级前馈网络还包括:自注意力神经网络和信息融合模块;
其中,待处理的文本信息以词向量形式输入,基于特征通道掩码将所述输入的文本信息沿着词向量通道维度分割为两个部分,其中一个部分使用轻量级卷积或轻量级动态卷积提取局部上下文信息,其中另一个部分通过自注意力神经网络提取全局信息;所述信息融合模块用于将所述局部上下文信息和所述全局信息进行融合。


4.根据权利要求3所述的轻量级多说话人语音合成系统,其特征在于,每层轻量级前馈网络还包括:深度可分离卷积和分组卷积;其中,信息融合模块融合后的信息经过归一化处理后再经过所述深度可分离卷积和所述分组卷积进行深层文本特征的提取。


5.根据权利要求2所述的轻量级多说话人语音合成系统,其特征在于,每层轻量级前馈网络还包括:深度可分离卷积和分组卷积;其中,轻量级卷积或轻量级动态卷积输出的信息经过归一化处理后再经过所述深度可分离卷积和所述分组卷积进行深层文本特征的提取。


6.根据权利要求2-5中任一项所述的轻量级多说话人语音合成系统,其特征在于,所述文本特征提取和规整模块包括:所述轻量级编码器、所述轻量级时长预测网络、特征长度规整模块以及绝对位置编码层;
其中,所述轻量级时长预测网络用于接收轻量级编码器输出的文本深层特征,并基于多...

【专利技术属性】
技术研发人员:李琳李松洪青阳
申请(专利权)人:厦门大学
类型:发明
国别省市:福建;35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1