一种基于深度神经网络音素信息的语音转换方法技术

技术编号:14828283 阅读:100 留言:0更新日期:2017-03-16 14:50
本发明专利技术公开一种基于深度神经网络音素信息的语音转换方法,包括:训练阶段:步骤101:获得一个目标说话人预料,分别提取PPP特征和频谱低维特征;步骤102:去除频谱低维特征0阶系数,直接拼接PPP特征和频谱低维特征;步骤103:将联合特征训练成一个JD‑GMM模型;步骤104:计算源说话人F0和目标说话人F0的均值和方差;转换阶段:步骤105:对源说话人新的语音提取同样配置的PPP特征;步骤106:输入到JD‑GMM模型,得到估算出来的目标低维特征;步骤107:计算目标说话人的F0,做一个向目标说话人靠近的线性变换;步骤108:利用估算的频谱,线性变换后的F0,该语音的原0阶系数,一起还原成语音。

【技术实现步骤摘要】

本专利技术涉及统计学实现的语音转换方法,更具体地,涉及一种基于深度神经网络音素信息的语音转换方法,主要在传统高斯混合模型GMM(GaussianMixtureModel,GMM)语音转换的基础上进行改进,利用深度神经网络(DeepNeuralNetwork,DNN)提取的音素信息和频谱低维特征实现非平行语料的转换。
技术介绍
语音转换是目前用来捕捉这些非语言特征并且利用它们合成特定人语音的一种有效方法。我们可以通过把语音分解成多个不同成分单独处理,能把一个人的声音变成另外一个人的声音。通常我们把前者称为源说话人,后者称为目标说话人。通过输入新的语音就可以达到合成特定人语音的目的,因此受到了各个领域的关注,并且被尝试运用到不同的方面去,例如医学辅助仪器,Text-To-Speech设备(TTS),敏感通信,保护关键证人和工作人员不被报复等等。学术界中早期的语音转换技术研究大概源于上世纪90年代初,线性参数统计的映射方法是相对主流的语音转换方法,最后不少研究为了提高音频质量等原因,逐渐也往非线性和非统计参数方法发展了分支,但是大部分方法依然是依赖于相同语义内容的平行语音数据,得到的模型也是一对一的。Kain等人提出了联合分布混合高斯模型(Joint-densityGaussianMixtureModel,JD-GMM)是统计学方法中比较经典和有效的方法。但是这个方法也是基于一个平行的语料数据库来实现语音转换(即要提供源说话人和目标说话人都说了语义内容完全一致的录音数据集),一方面这样的平行语料是非常难获得,实际应用中操作很不便利,数据量往往不足够,同时如果是跨语言的情况,则完全不可能获得平行数据。另一方面即使是一个平行的语料,也还是先通过对齐计算来保持时间上的一致,增加计算量。
技术实现思路
为了解决平行语料依赖和模型只能一对一的问题,本专利技术提出了一种基于深度神经网络音素信息的语音转换方法。为了解决上述技术问题,本专利技术的技术方案为:一种基于深度神经网络音素信息的语音转换方法,包括:训练阶段:步骤101:获得一个目标说话人预料,分别提取PPP特征和频谱低维特征;步骤102:去除频谱低维特征0阶系数,直接拼接PPP特征和频谱低维特征;步骤103:将联合特征训练成一个JD-GMM模型;步骤104:计算源说话人F0和目标说话人F0的均值和方差;转换阶段:步骤105:对源说话人新的语音提取同样配置的PPP特征;步骤106:输入到JD-GMM模型,得到估算出来的目标低维特征;步骤107:计算目标说话人的F0,做一个向目标说话人靠近的线性变换;步骤108:利用估算的频谱,线性变换后的F0,该语音的原0阶系数,一起还原成语音。优选地,PPP特征是基于深度神经网络DNN获取的,其获取过程为:深度神经网络DNN语音模型的训练:步骤201:获得一个语音数据集以及其对应的标注数据;步骤202:提取特征,根据标注信息训练给定配置的DNN模型;PPP特征的获取:步骤203:对输入的语音提取特征,提取配置跟训练DNN语音模型时使用的特征一致;步骤2:得到该特征后输入到DNN模型中解码,获得高维特征;步骤3:将该特征换算到log尺度上,对其使用主成分分析的方法降维到与频谱低维特征维度相近的级别,降维后的特征即为PPP特征;或直接在DNN语音模型中设置一层维度低的瓶颈层,将瓶颈层的结果输出作为PPP特征。优选地,步骤107中计算目标说话人的F0,做一个向目标说话人靠近的线性变换,具体过程为:对数尺度下,xt和分别是源说话人和变声结果的F0,σ(x)和μ(x)是源说话人F0的方差和均值,σ(y)和μ(y)分别是目标说话人F0的方差和均值;将转换后的基频F0,频谱向量和源说话人的非周期信息给到STRAIGHT工具合成最后的语音,就能得到变声的结果。与现有技术相比,本专利技术的有益效果为:结合语音识别中的技术,利用目标说话人的音素后验概率(PhonemePosteriorProbability,PPP)作为特征,结合联合分布混合高斯模型JD-GMM的映射模型,在音素信息和频谱低维特征之间训练一个可靠的映射模型PPP-JD-GMM。在转换时,先把源说话人的语音通过基于DNN实现的音素解码器提取出PPP特征,通过训练好的PPP-JD-GMM估计出了频谱低维特征,这样就能进一步频谱低维特征还原成频谱,并且复原成目标说话人的声音。最后通过客观和主观评估方法来检验转换结果的性能。附图说明图1是传统JD-GMM框架图。图2是基于音素的PPP-JD-GMM框架图。图3是PPP特征的提取流程图。图4是主观评测实验结果示意图。图5是XAB实验结果统计示意图。图6是MOS打分的结果示意图。具体实施方式下面结合附图对本专利技术做进一步的描述,但本专利技术的实施方式并不限于此。语音的分解和合成使用了STRAIGHT的方法。将一个语音分解以后,主要转换频谱SP和基频F0两部分,JD-GMM方法中频谱SP往往会进一步降维成低维特征后再处理,例如梅尔倒谱系数(Mel-cepstralcoefficient,MCC),而又由于0阶系数被认为只与能量相关,训练JD-GMM前往往去掉0阶系数,防止不良影响。在讲论述本申请的改进前,先简单补充一下传统JD-GMM的语音转换框架的实现。如图1所示。训练阶段:步骤1:获得一个含源说话人和目标说话人讲了内容一模一样的平行语料,对语音进行提取基频(F0),频谱低维特征例如MCC等。步骤2:去除频谱低维特征0阶系数,使用动态规整的方法进行对齐各帧;步骤3:拼接成联合特征训练一个JD-GMM模型;步骤4:计算源说话人F0和目标说话人F0的均值和方差。转换阶段:步骤1:对源说话人新的语音提取同样的频谱低维特征,去除0阶系数;步骤2:输入到JD-GMM模型,得到估算出来的目标低维特征;步骤3:计算目标说话人的F0,一般做一个向目标说话人靠近的线性变换;步骤4:利用估算的频谱,线性变换后的F0,该语音的原0阶系数,一起还原成语音。本专利技术实施语音转换时同样有两个阶段,训练阶段和转换阶段,训练阶段只需要目标说话人的语料的频谱低维特征和PPP特征。转换时会将语音分解成基频F0,频谱特征等成分后根据训练好的模型来获取转换频谱,最后将处理好的频谱和原来的其他成分合成还原语音。受到说话人识别技术中对音素特征PPP使用的启发,本专利技术考虑使用PPP特征来实现非平行语音转换的方法。音素被认为是发音的基本部分,假设两个不同说话人在发出同一个音素时,用语音模型解码出来的音素特征是具有相似性。因此,可以认为,可以通过建立音素和频谱特征的映射关系来达到语音转换的目的。因此可以提出的PPP-JD-GMM语音转换框架,如图2所示。训练阶段:步骤1:获得一个目标说话人预料,分别提取PPP特征和频谱低维特征;步骤2:去除频谱低维特征0阶系数,直接拼接PPP特征和频谱低维特征;步骤3:将联合特征训练成训练一个JD-GMM模型;步骤4:计算源说话人F0和目标说话人F0的均值和方差。转换阶段:步骤1:对源说话人新的语音提取同样的配置的PPP特征;步骤2:输入到JD-GMM模型,得到估算出来的目标低维特征;步骤3:计算目标说话人的F0,做一个向目标说话人靠近的线性变换;步骤4:利用估算的频谱,线本文档来自技高网
...
一种基于深度神经网络音素信息的语音转换方法

【技术保护点】
一种基于深度神经网络音素信息的语音转换方法,其特征在于,包括:训练阶段:步骤101:获得一个目标说话人预料,分别提取PPP特征和频谱低维特征;步骤102:去除频谱低维特征0阶系数,直接拼接PPP特征和频谱低维特征;步骤103:将联合特征训练成一个JD‑GMM模型;步骤104:计算源说话人F0和目标说话人F0的均值和方差;转换阶段:步骤105:对源说话人新的语音提取同样配置的PPP特征;步骤106:输入到JD‑GMM模型,得到估算出来的目标低维特征;步骤107:计算目标说话人的F0,做一个向目标说话人靠近的线性变换;步骤108:利用估算的频谱,线性变换后的F0,该语音的原0阶系数,一起还原成语音。

【技术特征摘要】
1.一种基于深度神经网络音素信息的语音转换方法,其特征在于,包括:训练阶段:步骤101:获得一个目标说话人预料,分别提取PPP特征和频谱低维特征;步骤102:去除频谱低维特征0阶系数,直接拼接PPP特征和频谱低维特征;步骤103:将联合特征训练成一个JD-GMM模型;步骤104:计算源说话人F0和目标说话人F0的均值和方差;转换阶段:步骤105:对源说话人新的语音提取同样配置的PPP特征;步骤106:输入到JD-GMM模型,得到估算出来的目标低维特征;步骤107:计算目标说话人的F0,做一个向目标说话人靠近的线性变换;步骤108:利用估算的频谱,线性变换后的F0,该语音的原0阶系数,一起还原成语音。2.根据权利要求1所述的语音转换方法,其特征在于,PPP特征是基于深度神经网络DNN获取的,其获取过程为:深度神经网络DNN语音模型的训练:步骤201:获得一个语音数据集以及其对应的标注数据;步骤202:提取特征,根据标注信息训练给定配置的DN...

【专利技术属性】
技术研发人员:李明郑桦迪蔡炜城
申请(专利权)人:广东顺德中山大学卡内基梅隆大学国际联合研究院中山大学
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1