基于多任务声学模型的语音合成方法及系统技术方案

技术编号:23162893 阅读:44 留言:0更新日期:2020-01-21 22:12
本发明专利技术涉及语音合成技术领域,公开了一种基于多任务声学模型的语音合成方法及系统,用以解决语音合成任务中难以进行语音属性控制的问题。本发明专利技术包括:多任务合成条件获取模块,用于获取多任务语音合成条件,其中所述多任务语音合成条件包括:待合成文本和待合成语音属性;多任务合成条件处理模块,用于待合成条件处理成待合成数据;多任务声学模型获取模块,用于获取预先生成的多任务声学模型,其中,所述多任务声学模型为单任务声学模型与嵌入技术和变分自编码技术组合而成的网络;生成模块,根据所述多任务声学模型和所述待合成数据进行声学参数生成;合成模块,根据生成的声学参数进行语音合成,得到多任务合成语音。本发明专利技术适用于语音合成。

Speech synthesis method and system based on Multitask acoustic model

【技术实现步骤摘要】
基于多任务声学模型的语音合成方法及系统
本专利技术涉及语音合成
,特别涉及基于多任务声学模型的语音合成方法及系统。
技术介绍
语音合成技术在目前生活中应用广泛,该技术可以将文本信息实时转换成类似于播音员朗读的音频,给人以一种新奇的交互方式。目前主流的语音合成技术分为拼接法,参数法,混合法和基于深度学习的端到端方法。目前主流技术主要是解决单一说话人的单一语种下的无感情或单一感情语音合成任务,当搭建多说话人系统时,需要将同一套系统进行不同的训练并新搭建一套功能流程完全相同的系统,系统可拓展性差,占用资源多,效率低。此外还存在,当某说话人只有某一语种训练语音时,利用该语料数据搭建的语音合成系统往往只能对训练语料所含语种的文本进行语音合成,并且感情、语境、语气等语音属性不可控,造成系统表现力低。随着人们对于计算机系统的要求越来越高,以上问题越来越凸显成为亟需解决的问题。
技术实现思路
本专利技术要解决的技术问题是:提供一种基于多任务声学模型的语音合成方法及系统,用以解决语音合成任务中难以进行语音属性控制的问题。为解决上述问题,本专利技术采用的技术方案是:基于多任务声学模型的语音合成方法,包括以下步骤:获取多任务语音合成条件,其中,所述多任务语音合成条件包括:待合成文本和待合成语音属性,所述待合成语音属性可包括:待合成语种条件、待合成情感条件、待合成说话人音色条件、待合成语境条件和待合成语气条件。将所述多任务语音合成条件处理成待合成数据;获取预先生成的多任务声学模型,其中,所述多任务声学模型为单任务声学模型与嵌入技术和变分自编码技术组合而成的网络,其组合方式为:利用嵌入技术和变分自编码技术生成的条件特征向量与数据输入特征向量在单任务声学模型网络过程中一处或多出进行连接耦合;将所述待合成数据输入到所述多任务声学模型进行声学参数生成;根据生成的声学参数进行语音合成,得到多任务合成语音。上述方法通过采用多任务声学模型,可以实现单模型多任务的语音合成,甚至包括语种迁移、情感迁移、语境迁移、语气迁移。实现即使训练预料中某说话人只有单语种、单语气数据,仍然可以在基于多任务声学模型的语音合成方法下实现跨语种、跨语气的语音合成。具体的,本专利技术将所述多任务语音合成条件处理成待合成数据的步骤可包括:将待合成文本通过文本规范化、分词、词性标注、韵律预测和文本转拼音处理,从而处理成一个拼音序列向量;将待合成文本通过文本规范化、分词、词性标注、韵律预测、文本转拼音和向量化处理,从而处理成一个拼音序列向量;将属性向量利用嵌入技术处理得到一个属性矩阵,并与拼音序列向量进行耦合得到待合成数据。具体的,本专利技术预先生成多任务声学模型的可步骤包括:获取多任务数据,所述多任务数据是根据多任务语音数据、多任务文本数据、多任务属性数据进行对应处理后得到的;获取待训练的多任务声学模型;根据所述多任务数据和待训练的多任务声学模型进行训练,生成训练好的多任务声学模型,其中,进行模型训练的方法包括:将所述多任务属性数据作为模型的控制条件,利用嵌入技术(Embedding)、变分自编码技术(VariationalAutoencoder)将控制条件转换为条件特征向量;以及,将所述多任务文本标注数据作为模型的数据输入,利用嵌入技术(Embedding)将数据输入转换为数据输入特征向量;以及,将所述多任务语音数据作用于多任务声学模型训练时的输出端和中间层输入端,利用所述条件特征向量和所述数据输入特征向量同时作用于多任务声学模型的输入端,利用一种或多种损失函数,控制模型训练和参数收敛。上述模型训练方法,一方面通过根据多任务数据和多任务声学模型进行联合训练,可以减少单一说话人的数据采集,可以降低单一说话人多语种、多情感、多语境、多语气语料的数据采集,可以实现说话人空间的建立,从而大大减少数据准备的时间和经济开销,实现说话人情感迁移,语种迁移等功能,另一方面,本专利技术提出的方法还可以节约语音合成系统在部署时的计算资源开销和部署复杂度,节约系统部署的时间和经济开销。对应于以上方法,本专利技术提供的基于多任务声学模型的语音合成系统,包括以下模块:多任务合成条件获取模块,用于获取多任务语音合成条件,其中,所述多任务语音合成条件包括:待合成文本和待合成语音属性;多任务合成条件处理模块,用于待合成条件处理成待合成数据;多任务声学模型获取模块,用于获取预先生成的多任务声学模型,其中,所述多任务声学模型为单任务声学模型与嵌入技术和变分自编码技术组合而成的网络,其组合方式为:利用嵌入技术和变分自编码技术生成的条件特征向量与数据输入特征向量在单任务声学模型网络过程中一处或多出进行连接耦合;生成模块,根据所述多任务声学模型和所述待合成数据进行声学参数生成;合成模块,根据生成的声学参数进行语音合成,得到多任务合成语音。具体的,所述待合成语音属性包括:待合成语种条件、待合成情感条件、待合成说话人音色条件、待合成语境条件和待合成语气条件。具体的,多任务合成条件处理模块将所述多任务语音合成条件处理成待合成数据的步骤包括:将待合成文本通过文本规范化、分词、词性标注、韵律预测和文本转拼音处理,从而处理成一个拼音序列向量;将待合成文本通过文本规范化、分词、词性标注、韵律预测、文本转拼音和向量化处理,从而处理成一个拼音序列向量;将属性向量利用嵌入技术处理得到一个属性矩阵,并与拼音序列向量进行耦合得到待合成数据。具体的,多任务声学模型获取模块预先生成多任务声学模型的步骤包括:获取多任务数据,所述多任务数据是根据多任务语音数据、多任务文本数据、多任务属性数据进行对应处理后得到的;获取待训练的多任务声学模型;根据所述多任务数据和待训练的多任务声学模型进行训练,生成训练好的多任务声学模型,其中,进行模型训练的方法包括:将所述多任务属性数据作为模型的控制条件,利用嵌入技术、变分自编码技术将控制条件转换为条件特征向量;以及,将所述多任务文本标注数据作为模型的数据输入,利用嵌入技术将数据输入转换为数据输入特征向量;以及,将所述多任务语音数据作用于多任务声学模型训练时的输出端和中间层输入端,利用所述条件特征向量和所述数据输入特征向量同时作用于多任务声学模型的输入端,利用一种或多种损失函数,控制模型训练和参数收敛。本专利技术的有益效果:本专利技术可以实现语音合成系统在上线应用过程中部署不同音色、不同语种、不同情感、不同语境,同时解决语音合成时需要占用大量计算资源,部署过程复杂等问题,本专利技术能从技术上实现说话人语种迁移、情感迁移等问题,使得只有中文语音数据的说话人也能有机会说一口流利的英文。附图说明图1为实施例一的流程图。图2为实施例二的流程图。图3为实施例三的结构示意图。图4为实施例四的结构示意图。具体实施方式实施本文档来自技高网...

【技术保护点】
1.基于多任务声学模型的语音合成方法,其特征在于,包括以下步骤:/n获取多任务语音合成条件,其中,所述多任务语音合成条件包括:待合成文本和待合成语音属性;/n将所述多任务语音合成条件处理成待合成数据;/n获取预先生成的多任务声学模型;/n将所述待合成数据输入到所述多任务声学模型进行声学参数生成;/n根据生成的声学参数进行语音合成,得到多任务合成语音。/n

【技术特征摘要】
1.基于多任务声学模型的语音合成方法,其特征在于,包括以下步骤:
获取多任务语音合成条件,其中,所述多任务语音合成条件包括:待合成文本和待合成语音属性;
将所述多任务语音合成条件处理成待合成数据;
获取预先生成的多任务声学模型;
将所述待合成数据输入到所述多任务声学模型进行声学参数生成;
根据生成的声学参数进行语音合成,得到多任务合成语音。


2.如权利要求1所述的基于多任务声学模型的语音合成方法,其特征在于,所述待合成语音属性包括:待合成语种条件、待合成情感条件、待合成说话人音色条件、待合成语境条件和待合成语气条件。


3.如权利要求1所述的基于多任务声学模型的语音合成方法,其特征在于,将所述多任务语音合成条件处理成待合成数据的步骤包括:
将待合成文本通过文本规范化、分词、词性标注、韵律预测、文本转拼音和向量化处理,从而处理成一个拼音序列向量;
将对待合成语音属性规范化、属性数值化和属性向量化处理,从而处理成一个属性向量;
将属性向量利用嵌入技术处理得到一个属性矩阵,并与拼音序列向量进行耦合得到待合成数据。


4.如权利要求1所述的基于多任务声学模型的语音合成方法,其特征在于,所述多任务声学模型为单任务声学模型与嵌入技术和变分自编码技术组合而成的网络,其组合方式为:利用嵌入技术和变分自编码技术生成的条件特征向量与数据输入特征向量在单任务声学模型网络过程中一处或多出进行连接耦合。


5.如权利要求4所述的基于多任务声学模型的语音合成方法,其特征在于,预先生成多任务声学模型的步骤包括:
获取多任务数据,所述多任务数据是根据多任务语音数据、多任务文本数据、多任务属性数据进行对应处理后得到的;
获取待训练的多任务声学模型;
根据所述多任务数据和待训练的多任务声学模型进行训练,生成训练好的多任务声学模型,其中,进行模型训练的方法包括:
将所述多任务属性数据作为模型的控制条件,利用嵌入技术、变分自编码技术将控制条件转换为条件特征向量;
以及,将所述多任务文本标注数据作为模型的数据输入,利用嵌入技术将数据输入转换为数据输入特征向量;
以及,将所述多任务语音数据作用于多任务声学模型训练时的输出端和中间层输入端,利用所述条件特征向量和所述数据输入特征向量同时作用于多任务声学模型的输入端,利用一种或多种损失函数,控制模型训练和参数收敛。


6.基于多任务声学模型的语音合成系统,其特征在于,包括以下模块:<...

【专利技术属性】
技术研发人员:罗浩源
申请(专利权)人:四川长虹电器股份有限公司
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利