基于多任务声学模型的语音合成方法及系统技术方案

技术编号：23162893 阅读：44 留言：0更新日期：2020-01-21 22:12

本发明专利技术涉及语音合成技术领域，公开了一种基于多任务声学模型的语音合成方法及系统，用以解决语音合成任务中难以进行语音属性控制的问题。本发明专利技术包括：多任务合成条件获取模块，用于获取多任务语音合成条件，其中所述多任务语音合成条件包括：待合成文本和待合成语音属性；多任务合成条件处理模块，用于待合成条件处理成待合成数据；多任务声学模型获取模块，用于获取预先生成的多任务声学模型，其中，所述多任务声学模型为单任务声学模型与嵌入技术和变分自编码技术组合而成的网络；生成模块，根据所述多任务声学模型和所述待合成数据进行声学参数生成；合成模块，根据生成的声学参数进行语音合成，得到多任务合成语音。本发明专利技术适用于语音合成。

Speech synthesis method and system based on Multitask acoustic model

全部详细技术资料下载

【技术实现步骤摘要】
基于多任务声学模型的语音合成方法及系统
本专利技术涉及语音合成
，特别涉及基于多任务声学模型的语音合成方法及系统。
技术介绍
语音合成技术在目前生活中应用广泛，该技术可以将文本信息实时转换成类似于播音员朗读的音频，给人以一种新奇的交互方式。目前主流的语音合成技术分为拼接法，参数法，混合法和基于深度学习的端到端方法。目前主流技术主要是解决单一说话人的单一语种下的无感情或单一感情语音合成任务，当搭建多说话人系统时，需要将同一套系统进行不同的训练并新搭建一套功能流程完全相同的系统，系统可拓展性差，占用资源多，效率低。此外还存在，当某说话人只有某一语种训练语音时，利用该语料数据搭建的语音合成系统往往只能对训练语料所含语种的文本进行语音合成，并且感情、语境、语气等语音属性不可控，造成系统表现力低。随着人们对于计算机系统的要求越来越高，以上问题越来越凸显成为亟需解决的问题。
技术实现思路
本专利技术要解决的技术问题是：提供一种基于多任务声学模型的语音合成方法及系统，用以解决语音合成任务中难以进行语音属性控制的问题。为解决上述问题，本专利技术采用的技术方案是：基于多任务声学模型的语音合成方法，包括以下步骤：获取多任务语音合成条件，其中，所述多任务语音合成条件包括：待合成文本和待合成语音属性，所述待合成语音属性可包括：待合成语种条件、待合成情感条件、待合成说话人音色条件、待合成语境条件和待合成语气条件。将所述多任务语音合成条件处理成待合成数据；获取预先生成的多任务声学...

【技术保护点】
1.基于多任务声学模型的语音合成方法，其特征在于，包括以下步骤：/n获取多任务语音合成条件，其中，所述多任务语音合成条件包括：待合成文本和待合成语音属性；/n将所述多任务语音合成条件处理成待合成数据；/n获取预先生成的多任务声学模型；/n将所述待合成数据输入到所述多任务声学模型进行声学参数生成；/n根据生成的声学参数进行语音合成，得到多任务合成语音。/n

【技术特征摘要】
1.基于多任务声学模型的语音合成方法，其特征在于，包括以下步骤：
获取多任务语音合成条件，其中，所述多任务语音合成条件包括：待合成文本和待合成语音属性；
将所述多任务语音合成条件处理成待合成数据；
获取预先生成的多任务声学模型；
将所述待合成数据输入到所述多任务声学模型进行声学参数生成；
根据生成的声学参数进行语音合成，得到多任务合成语音。

2.如权利要求1所述的基于多任务声学模型的语音合成方法，其特征在于，所述待合成语音属性包括：待合成语种条件、待合成情感条件、待合成说话人音色条件、待合成语境条件和待合成语气条件。

3.如权利要求1所述的基于多任务声学模型的语音合成方法，其特征在于，将所述多任务语音合成条件处理成待合成数据的步骤包括：
将待合成文本通过文本规范化、分词、词性标注、韵律预测、文本转拼音和向量化处理，从而处理成一个拼音序列向量；
将对待合成语音属性规范化、属性数值化和属性向量化处理，从而处理成一个属性向量；
将属性向量利用嵌入技术处理得到一个属性矩阵，并与拼音序列向量进行耦合得到待合成数据。

4.如权利要求1所述的基于多任务声学模型的语音合成方法，其特征在于，所述多任务声学模型为单任务声学模型与嵌入技术和变分自编码技术组合而成的网络，其组合方式为：利用嵌入技术和变分自编码技术生成的条件特征向量与数据输入特征向量在单任务声学模型网络过程中一处或多出进行连接耦合。

5.如权利要求4所述的基于多任务声学模型的语音合成方法，其特征在于，预先生成多任务声学模型的步骤包括：
获取多任务数据，所述多任务数据是根据多任务语音数据、多任务文本数据、多任务属性数据进行对应处理后得到的；
获取待训练的多任务声学模型；
根据所述多任务数据和待训练的多任务声学模型进行训练，生成训练好的多任务声学模型，其中，进行模型训练的方法包括：
将所述多任务属性数据作为模型的控制条件，利用嵌入技术、变分自编码技术将控制条件转换为条件特征向量；
以及，将所述多任务文本标注数据作为模型的数据输入，利用嵌入技术将数据输入转换为数据输入特征向量；
以及，将所述多任务语音数据作用于多任务声学模型训练时的输出端和中间层输入端，利用所述条件特征向量和所述数据输入特征向量同时作用于多任务声学模型的输入端，利用一种或多种损失函数，控制模型训练和参数收敛。

6.基于多任务声学模型的语音合成系统，其特征在于，包括以下模块：<...

【专利技术属性】
技术研发人员：罗浩源，
申请(专利权)人：四川长虹电器股份有限公司，
类型：发明
国别省市：四川;51

全部详细技术资料下载我是这个专利的主人