一种基于音向量文本特征的语音合成方法技术

技术编号:14951352 阅读:104 留言:0更新日期:2017-04-02 03:52
本发明专利技术公开了一种基于音向量文本特征的语音合成方法,文本分析模块接收输入文本,对文本特征进行规则化处理,将得到的文本数据输送至文本参数化模块,采用一位热码编码方法得到参数化的文本;音向量训练模块接收参数化的文本,训练基于音向量的语言模型,然后输送至语言参数训练模块训练从文本到语音参数的映射模型;音向量生成模块通过接收文本参数化模块和音向量训练模块的输出文本,生成文本数据的音向量;文本数据的音向量和文本到语音参数的映射模型输送至语言参数预测模块,得到音向量所对应的语音参数;最终由语音合成器模块合成语音。本发明专利技术提高了语音合成系统建模的准确性;大大降低了系统实现的复杂度和人工参与程度。

【技术实现步骤摘要】

本专利技术涉及一种语音合成方法,尤其涉及一种基于音向量文本特征的语音合成方法
技术介绍
语音合成技术能让计算机产生高清晰度、高自然度的连续语音,使人机交流更加和谐自然。在语音合成技术的发展过程中,早期的研究主要是采用基于单元波形拼接的语音合成方法,但该方法在拼接点处会出现语音失真和突变。近年来,基于统计参数的语音合成方法因为合成系统构建较快,语料库尺寸需求小,合成语音平滑流畅而得到了快速的发展,但该方法仍存在以下两点不足之处:1、文本特征的描述不够精确,需要很大的人力物力去标注文本,而且标注结果很大一部分依赖于标注人员的经验和背景知识,需要专业人员去完成,很大程序上影响了系统的构建速度;2、合成语音的音质跟真人还有很大的差距,特别是采用语音的参数化描述和统计建模的语音分析合成模型不够理想,对语音的建模不够精确;另外,采用统计参数建模,生成的谱参数轨迹和基频轨迹都过于平滑,合成语音在听感上显得过于平淡。
技术实现思路
为了解决上述技术所存在的不足之处,本专利技术提供了一种基于音向量文本特征的语音合成方法。为了解决以上技术问题,本专利技术采用的技术方案是:一种基于音向量文本特征的语音合成方法,包括以下模块:文本分析模块、文本参数化模块、音向量训练模块、语言参数训练模块、音向量生成模块、语言参数预测模块、语音合成器模块;具体步骤如下:文本分析模块接收待分析的输入文本,对文本特征进行规则化处理,去掉文本中多余的符号,标注出每个音节的声韵母和声调,纠正多音字发音错误,得到输入文本对应的发音单元序列;文本参数化模块接收上述输入文本对应的发音单元序列,采用一位热码编码表示方法得到每个音节的参数化表示的向量;S=Cv00CvV1Vf---I]]>公式I为一位热码编码表示方法;其中,S为音节的参数化向量,Cv为一个描述声韵母音向量的共享矩阵,维数为V×N,v为声韵母的个数,N为声韵母音向量的维数,Vi为声母音向量,Vf为韵母音向量;音向量训练模块接收上述参数化表示的向量,训练基于音向量的语言模型,得到文本的音向量表示;语言参数训练模块接收上述文本的音向量表示,训练从文本到语音参数的映射模型,建立音向量与语音参数、音向量与韵律特征参数的映射关系;音向量生成模块接收上述文本参数化模块得到的参数化的文本特征以及音向量训练模块得到的文本的音向量,生成分析完成的文本数据的音向量;语言参数预测模块接收上述分析完成的文本数据的音向量以及语言参数训练模块得到的映射模型,通过建立音向量与语音参数之间的映射关系,得到音向量所对应的语音参数;语音合成器模块接收上述音向量所对应的语音参数最终合成语音。音向量训练模块包括语言模型训练模块和音向量提取模块;文本参数化模块输出的参数化表示的向量首先由语言模型训练模块接收,采用基于递归神经网络的统计参数语言模型,训练基于音节的语言模型得到每个音节的音向量;再由音向量提取模块根据上述训练得到的每个音节的音向量,从中分离出声韵母的音向量;P(s1,s2,...,sK)=P(s1)×P(s2|s1)×P(s3|s1,s2)×...×P(sK|s1,s2,...,sK-1)II公式II为基于递归神经网络的统计参数语言模型;其中,P(s1,s2,...,sK)为生成s1,s2,...,sK这些音节的概率,sK为第K个音节,K为音节个数,P(s1)为生成音节s1的概率,P(s2|s1)为在存在音节s1条件下生成音节s2的概率,P(s3|s1,s2)为在存在音节s3条件下生成音节s1,s2的概率,P(sK|s1,s2,...,sK-1)为在存在音节sK条件下生成音节s1,s2,...,sK-1的概率。音向量生成模块包括矩阵运算模块和音向量生成提取模块;文本参数化模块得到的参数化的文本特征以及音向量训练模块得到的文本的音向量首先由矩阵运算模块接收,然后按照公式I进行矩阵运算,得到任意输入文本的音向量表示;音向量生成提取模块接收上述任意输入文本的音向量表示,从中分离出声韵母的音向量,生成分析完成的文本数据的音向量。语音合成器模块包括语音参数生成模块、语音参数合成器模块和语音单元挑选模块;语言参数预测模块得到的音向量所对应的语音参数首先由语音参数生成模块接收,在语音参数生成模块中调用语音参数生成算法,生成可以合成的语音参数;语音参数合成器模块和语音单元挑选模块分别接收上述生成的可以合成的语音参数,语音参数合成器模块通过调用声码器来合成语音,语音单元挑选模块采用单元挑选的方法来合成语音,最后输出语音。本专利技术跟现有语音合成技术相比,具有以下优势:(1)对文本特征进行参数化建模,使文本特征参数到语音参数的映射模型具有较高的准确性,从而提高了语音合成系统建模的准确性;(2)音向量训练模块中采用统计参数语言模型的训练方法来训练音向量,最大程度上保留了发音单元的连贯特性,不需要任何手工标注信息,从而大大降低了系统实现的复杂度和人工参与程度;(3)音向量生成模块采用构建的音向量来描述发音单元,使发音单元的描述更加简单直接,同时也更加准确;(4)语音参数预测模块采用统计模型生成的音向量来预测语音声学参数和韵律特征参数,更加符合语音声学参数和韵律特征参数的统计特性。附图说明图1为本专利技术的整体步骤流程图。图2为音向量训练模块的结构流程图。图3为音向量生成模块的结构流程图。图4为语音合成器模块的结构流程图。具体实施方式下面结合附图和具体实施方式对本专利技术作进一步详细的说明。如图1所示,本专利技术包括以下几个模块:文本分析模块1、文本参数化模块2、音向量训练模块3、语言参数训练模块4、音向量生成模块5、语言参数预测模块6、语音合成器模块7;本专利技术的具体实施步骤如下:文本分析模块1接收待分析的输入文本,对文本特征进行规则化处理,去掉文本中多余的符号,标注出每个音节的声韵母和声调,纠正多音字发音错误,得到输入文本对应的发音单元序列;文本参数化模块2接收上述输入文本对应的发音单元序列,采用一位热码编码表示方法(One-hotrepresentation)得到每个音节的参数化表示的向量,如公式I所示;s=Cv00CvViVf---I]]>其中,S为音节的参数化向量,Cv为一个描述声韵母音向量的共享矩阵,维数为V×N,v为声韵母的个数,N为声韵母音向量的维数,Vi为声母音向量,Vf为韵母音向量;音向量训练模块3接收上述参数化表示的向量,训练基于音向量的本文档来自技高网...

【技术保护点】
一种基于音向量文本特征的语音合成方法,其特征在于:所述语音合成方法包括以下模块:文本分析模块(1)、文本参数化模块(2)、音向量训练模块(3)、语言参数训练模块(4)、音向量生成模块(5)、语言参数预测模块(6)、语音合成器模块(7);所述语音合成方法的步骤如下:所述文本分析模块(1)接收待分析的输入文本,对文本特征进行规则化处理,去掉文本中多余的符号,标注出每个音节的声韵母和声调,纠正多音字发音错误,得到输入文本对应的发音单元序列;所述文本参数化模块(2)接收上述输入文本对应的发音单元序列,采用一位热码编码表示方法得到每个音节的参数化表示的向量;S=Cv00CvViVf---I]]>公式I为一位热码编码表示方法;其中,s为音节的参数化向量,Cv为一个描述声韵母音向量的共享矩阵,维数为V×N,v为声韵母的个数,N为声韵母音向量的维数,Vi为声母音向量,Vf为韵母音向量;所述音向量训练模块(3)接收上述参数化表示的向量,训练基于音向量的语言模型,得到文本的音向量表示;所述语言参数训练模块(4)接收上述文本的音向量表示,训练从文本到语音参数的映射模型,建立音向量与语音参数、音向量与韵律特征参数的映射关系;所述音向量生成模块(5)接收上述文本参数化模块(2)得到的参数化的文本特征以及音向量训练模块(3)得到的文本的音向量,生成分析完成的文本数据的音向量;所述语言参数预测模块(6)接收上述分析完成的文本数据的音向量以及语言参数训练模块(4)得到的映射模型,通过建立音向量与语音参数之间的映射关系,得到音向量所对应的语音参数;所述语音合成器模块(7)接收上述音向量所对应的语音参数最终合成语音。...

【技术特征摘要】
1.一种基于音向量文本特征的语音合成方法,其特征在于:所述语音合成方法包括以
下模块:
文本分析模块(1)、文本参数化模块(2)、音向量训练模块(3)、语言参数训练模块(4)、
音向量生成模块(5)、语言参数预测模块(6)、语音合成器模块(7);
所述语音合成方法的步骤如下:
所述文本分析模块(1)接收待分析的输入文本,对文本特征进行规则化处理,去掉文本
中多余的符号,标注出每个音节的声韵母和声调,纠正多音字发音错误,得到输入文本对应
的发音单元序列;
所述文本参数化模块(2)接收上述输入文本对应的发音单元序列,采用一位热码编码
表示方法得到每个音节的参数化表示的向量;
S=Cv00CvViVf---I]]>公式I为一位热码编码表示方法;其中,s为音节的参数化向量,Cv为一个描述声韵母音
向量的共享矩阵,维数为V×N,v为声韵母的个数,N为声韵母音向量的维数,Vi为声母音向
量,Vf为韵母音向量;
所述音向量训练模块(3)接收上述参数化表示的向量,训练基于音向量的语言模型,得
到文本的音向量表示;
所述语言参数训练模块(4)接收上述文本的音向量表示,训练从文本到语音参数的映
射模型,建立音向量与语音参数、音向量与韵律特征参数的映射关系;
所述音向量生成模块(5)接收上述文本参数化模块(2)得到的参数化的文本特征以及
音向量训练模块(3)得到的文本的音向量,生成分析完成的文本数据的音向量;
所述语言参数预测模块(6)接收上述分析完成的文本数据的音向量以及语言参数训练
模块(4)得到的映射模型,通过建立音向量与语音参数之间的映射关系,得到音向量所对应
的语音参数;
所述语音合成器模块(7)接收上述音向量所对应的语音参数最终合成语音。
2.根据权利要求1所述的基于音向量文本特征的语音合成方法,其特征在于:所述音向
量训练模块(3)包括语言模型训练模块(8)和音向量提取模块(9);所述文本参数化模块(2)
输出的参数化表示的向量首先由语言模型训练模块(8)接收,采用基于递归神经网络的统
计参...

【专利技术属性】
技术研发人员:徐明星车浩
申请(专利权)人:北京时代瑞朗科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1