轻量级多说话人语音合成系统及电子设备技术方案

技术编号：26847542 阅读：22 留言：0更新日期：2020-12-25 13:12

一种轻量级多说话人语音合成系统及电子设备，该系统包括：文本特征提取和规整模块、说话人特征提取模块、特征融合模块和语音生成模块。文本特征提取和规整模块用于采用轻量级编码器将待处理的文本信息进行编码和特征提取，并采用轻量级时长预测网络对轻量级编码器输出的文本深层特征对应的每个词或音素进行时长预测，以及用于进行长度规整处理，以得到与目标梅尔频谱长度相等的规整的文本特征。说话人特征提取模块用于生成能够表征目标说话人的特征。特征融合模块用于将目标说话人的特征与规整的文本特征进行融合。语音生成模块用于将融合后的特征进行深层特征提取、维度映射、残差整合以及生成语音。该系统支持多说话人语音合成且合成速度快。

全部详细技术资料下载

【技术实现步骤摘要】
轻量级多说话人语音合成系统及电子设备
本公开属于语音合成
，涉及一种轻量级多说话人语音合成系统及电子设备。
技术介绍
近年来，基于神经网络的端到端语音合成系统在系统架构和生成语音质量方面已经超越了传统的统计参数语音合成系统。端到端语音合成系统，如Tacotron2系统和Transformertext-to-speech系统(简称TransformerTTS系统)直接使用神经网络将文本转换为相对应的语音，不再需要大量复杂的文本前端处理工作、各种语言学特征的提取、以及复杂的领域专家知识。然而，目前主流的端到端语音合成系统大都采用注意力机制来隐式地学习文本到语音的对齐关系，这带来了巨大计算量，同时也使得语音合成速度较慢。同时，这类语音合成系统采用自回归的语音生成模式，这种模式要求后一语音帧的生成需要以前一语音帧作为输入，有较强的前后依赖关系和时序性，导致语音合成无法并行处理，极大地降低了语音合成速度。性能较好的神经网络模型通常具有较大的参数，这会带来巨大的计算量和内存消耗。目前主流的端到端语音合成系统都有较大的参数量，所以语音合成模型往往部署在云端，设备端需要通过网络与云端的语音合成系统进行通信，由于网络传输需要时间，网络传输直接影响了用户体验。同时，基于云端的语音合成系统无法对一些无法联网的低资源设备提供语音合成服务，导致语音合成系统不能够在各种设备上进行广泛应用。因此，有必要提出一种参数量小，计算复杂度低，同时还具有良好性能的语音合成模型，使其能够部署于嵌入式系统以及其他移动设备中，这能够促进语音...

【技术保护点】
1.一种轻量级多说话人语音合成系统，其特征在于，包括：/n文本特征提取和规整模块，用于采用轻量级编码器将待处理的文本信息进行编码和特征提取，并采用轻量级时长预测网络对轻量级编码器输出的文本深层特征对应的每个词或音素进行时长预测，以及用于进行长度规整处理，以得到与目标梅尔频谱长度相等的规整的文本特征，所述目标梅尔频谱为所述待处理的文本信息所要转化的语音的梅尔频谱；/n说话人特征提取模块，用于基于时延神经网络从目标说话人的语音对应的梅尔频谱中提取出目标说话人的深度特征向量并进行归一化处理，以生成能够表征目标说话人的特征；/n特征融合模块，用于将目标说话人的特征与规整的文本特征进行融合；以及/n语音生成模块，用于采用轻量级解码器对融合后的特征进行深层特征提取，并用于将提取出的深层特征映射至与目标梅尔频谱相同的维度，基于预测的残差信息和映射后的深层特征生成待处理的文本对应的目标梅尔频谱，以及将生成的目标梅尔频谱转换为人耳能够听到的语音。/n

【技术特征摘要】
1.一种轻量级多说话人语音合成系统，其特征在于，包括：
文本特征提取和规整模块，用于采用轻量级编码器将待处理的文本信息进行编码和特征提取，并采用轻量级时长预测网络对轻量级编码器输出的文本深层特征对应的每个词或音素进行时长预测，以及用于进行长度规整处理，以得到与目标梅尔频谱长度相等的规整的文本特征，所述目标梅尔频谱为所述待处理的文本信息所要转化的语音的梅尔频谱；
说话人特征提取模块，用于基于时延神经网络从目标说话人的语音对应的梅尔频谱中提取出目标说话人的深度特征向量并进行归一化处理，以生成能够表征目标说话人的特征；
特征融合模块，用于将目标说话人的特征与规整的文本特征进行融合；以及
语音生成模块，用于采用轻量级解码器对融合后的特征进行深层特征提取，并用于将提取出的深层特征映射至与目标梅尔频谱相同的维度，基于预测的残差信息和映射后的深层特征生成待处理的文本对应的目标梅尔频谱，以及将生成的目标梅尔频谱转换为人耳能够听到的语音。

2.根据权利要求1所述的轻量级多说话人语音合成系统，其特征在于，所述轻量级编码器和所述轻量级解码器包括：多层轻量级前馈网络，每层轻量级前馈网络包括：轻量级卷积或轻量级动态卷积，
其中，所述轻量级卷积的卷积核权重在训练之后是固定的，所述轻量级动态卷积的卷积核权重根据当前输入的词或音素的嵌入特征动态生成；
所述轻量级卷积或轻量级动态卷积沿着词向量通道维度划分为不同的组，每组都进行独立的计算，并且组内的卷积核参数是共享的；在每组的计算过程中使用深度可分离卷积，使得每组内词向量各个通道能够并行计算。

3.根据权利要求1所述的轻量级多说话人语音合成系统，其特征在于，所述轻量级编码器和所述轻量级解码器包括：多层轻量级前馈网络，每层轻量级前馈网络包括：轻量级卷积或轻量级动态卷积，所述轻量级卷积的卷积核权重在训练之后是固定的，所述轻量级动态卷积的卷积核权重根据当前输入的词或音素的嵌入特征动态生成；每层轻量级前馈网络还包括：自注意力神经网络和信息融合模块；
其中，待处理的文本信息以词向量形式输入，基于特征通道掩码将所述输入的文本信息沿着词向量通道维度分割为两个部分，其中一个部分使用轻量级卷积或轻量级动态卷积提取局部上下文信息，其中另一个部分通过自注意力神经网络提取全局信息；所述信息融合模块用于将所述局部上下文信息和所述全局信息进行融合。

4.根据权利要求3所述的轻量级多说话人语音合成系统，其特征在于，每层轻量级前馈网络还包括：深度可分离卷积和分组卷积；其中，信息融合模块融合后的信息经过归一化处理后再经过所述深度可分离卷积和所述分组卷积进行深层文本特征的提取。

5.根据权利要求2所述的轻量级多说话人语音合成系统，其特征在于，每层轻量级前馈网络还包括：深度可分离卷积和分组卷积；其中，轻量级卷积或轻量级动态卷积输出的信息经过归一化处理后再经过所述深度可分离卷积和所述分组卷积进行深层文本特征的提取。

6.根据权利要求2-5中任一项所述的轻量级多说话人语音合成系统，其特征在于，所述文本特征提取和规整模块包括：所述轻量级编码器、所述轻量级时长预测网络、特征长度规整模块以及绝对位置编码层；
其中，所述轻量级时长预测网络用于接收轻量级编码器输出的文本深层特征，并基于多...

【专利技术属性】
技术研发人员：李琳，李松，洪青阳，
申请(专利权)人：厦门大学，
类型：发明
国别省市：福建;35

全部详细技术资料下载我是这个专利的主人