本发明专利技术公开一种基于谐波加噪声模型的残差激励信号合成及语音转换方法,属于语音信号处理领域,包含以下步骤:预处理与清浊音判断;谐波参数的提取;声道谱参数的计算;建立声道谱转换规则;特征参数的转换;残差激励的预测;语音合成与残差补偿。本发明专利技术在建立激励信号时,在经HNM分析提取出的浊音帧谐波信号的残差信号的基础上线性叠加上适度的HNM分析同时产生的剩余信号作为预测的激励源信号,从而有效的增强激励源中含有的说话人超音段特征,同时避免传统方法人为修改激励信号引入的失真;在合成阶段,在合成出的语音中再次逐帧叠加上适度的HNM分析出的目标浊音帧谐波信号的残差,使转换出的语音更具目标说话人个性,改善语音质量。
【技术实现步骤摘要】
本专利技术涉及语音转换技术,特别涉及,属于语音信号处理
技术介绍
语音转换是语音信号处理领域近年来新兴的研究分支,是在说话人识别和语音合成的研究基础上进行的,同时也是这两个分支内涵的丰富和延拓,但是又不完全隶属于说话人识别和语音合成的范畴。语音转换的目标是在保证其中的语义信息保持不变的条件下,改变源说话人语音中的个性特征信息,使之具有目标说话人的个性特征,从而使转换后的语音听起来就像是目标说话人的声音。语音转换的实现可以分为训练阶段和转换阶段。在训练阶段,系统对源说话人和目标说话人进行训练,分析他们的參数,建立转换规则。在转换阶段,先对源语音进行分析并提取语音特征,再根据由训练阶段得到的语音转换规则进行转换得到目标语首特征。语音信号的特征分为音段信息和超音段信息两类。音段特征描述的是语音的音色特征,主要包括声道共振峰的位置、共振峰的带宽、频谱倾斜、基音频率等。超音段特征描述的是语音的韵律特征及激励源信息,特征參数主要包括音素的时长、能量、周期的变化轮廓以及谱包络的变化等动态特征等。语音转换的关键问题在于说话人个性特征的提取以及转换规则的建立,经过近二十年的发展,涌现出大量的研究成果。目前对语音特征參数的研究主要集中与语音信号的音段特征,而对语音信号激励源超音段特征涉及的不多。当前对语音信号激励源估计的主要方法有基于线性预测编码(Linear Prediction Coding, LPC)模型的残差预测法。但是线性预测技术得到的残差信号(Residual signal)作为激励时,含有的目标说话人个性较少,并且残差信号中能量较低,造成转换后语音质量较差;(I、Suendermann D,Bonafonte A, Ney H, Hoege H, “A Study on Residual Prediction Techniques forVoice Conversion,,, proceedings of IEEE International Conference on Acoustics,Speech, and Signal Processing, vol.I, pp. 13—16,2005. 2、Percybrooks ff. S, MooreE, “Voice conversion with linear prediction residual estimation,,, proceedingsof IEEE Internationa丄 Conference on Acoustics, Speech and Signa丄 Processing,pp. 4673 - 4676,March 2008.)此外,现有的语音转换系统中也有用通过求取基音频率的平均值来计算基音频率的压扩比,或者通过时长插入、剪切等方式人为地修改激励源信号。但是由于语音信号激励源超音段信号特征多于说话人当时的状态有关,受到说话人所处的环境的影响。因此,人为的修改激励信号必然不能准确描述语音的激励源超音段信息,并且引入失真。(3、Xuejing Sun, “Voice quality conversion in TD-PSOLA speechsynthesis,,,proceedings of IEEE International Conference on Acoustics, Speech, and Signal Processing, Vol.2, pp. II953 - 11956,2000. 4、Wang Yuan-yuan,Yang Shun, “Speech synthesis based on PSOLA algorithm and modified pitchparameters,,,International Conference on Computational Problem-Solving (ICCP),pp. 296 - 299, 2010.)。
技术实现思路
本专利技术的目的在于提供ー种结合语音信号特点和说话人个性特征在平行文本下的语音转换算法,重点研究语音信号在激励源超音段信息的提取与预测,通过对激励源信号的改善及转换后语音的补偿,增强合成语音中目标说话人的个性并且提高转换系统的性倉^:。 为了实现上述专利技术目的,本专利技术采用了如下技术方案 ー种,具体步骤如下第一歩,预处理与清浊音判断,即分别对源语音和目标语音进行预加重、分帧和加窗处理,计算每一帧的短时能量和平均过零率,完成清浊音的判决; 第二步,谐波參数的提取,即利用谐波加噪声模型(Harmonic plus Noise Model7HNM)模型分别对源语音和目标语音的浊语音帧进行分析,首先计算浊音帧信号的基音频率,然后HNM模型将浊音帧分解为谐波信号和宽带随机信号,计算谐波个数,提取谐波信号的幅值、相位和各次谐波频率,对于清音看作随机噪声保留不变; 第三步,声道谱參数的计算,即分别对源语音与目标语音的浊音信号提取出的各阶谐波的幅值进行变换,将幅值的平方作为离散功率的采样值,经快速傅立叶逆变换(InverseFast Fourier Transformation, IFFT)得到自相关系数,再经 Levinson-Durbin 算法进行LPC分析,得到源语音与目标语音的线性谱频率(Linear Spectral Frequency,LSF)參数和相对应的残差信号; 第四步,建立声道谱转换规则,将源语音与目标语音的LSF參数经过动态时间规整(Dynamic Time Warping, DTW)后,送入高斯混合模型(Gaussian Mixture Model, GMM)进行概率建模; 第五步特征參数的转换,即先对待转换语音经HNM分析,按照上述第二步与第三步的方法,提取待转换的LSF參数及残差信号,将待转换的LSF參数送入第四步建立的GMM转换规则进行转换; 第六歩,残差激励的预测,即首先逐帧找出与转换后的LSF參数最接近的目标LSF參数,然后利用该目标LSF參数对应的残差信号与该帧经HNM分析后剰余的随机信号线性叠カロ,作为残差激励信号; 第七步,语音合成与残差补偿,即首先由上述第五步和第六步得到的转换后的LSF參数和残差激励信号,基于LPC合成模型得到转换出的每帧语音信号,然后将转换出的每帧语音信号再次叠加上对应的适度目标残差信号,经重叠相加后最終得到合成出的语音。本专利技术与现有技术相比,其显著优点(I)建立激励信号时,在经HNM分析提取出的浊音帧谐波信号的残差信号的基础上,线性叠加上适度的该HNM分析同时产生的剰余信号(宽带随机信号)作为预测的激励源信号,这样能有效的增强激励源中含有的说话人超音段特征,同时避免传统方法人为修改激励信号引入的失真;(2)合成阶段,在合成出的语音中再次逐帧叠加上适度的HNM分析出的目标浊音帧谐波信号的残差,使得转换出的语音更具有目标说话人个性,改善语音质量。下面结合附图对本专利技术作进ー步详细描述。附图说明图I是本专利技术示意图; 图2是特征參数的提取与转换规则建立的示意 图3是特征參数的转换与基于HNM模型的残差激励信号预测的示意 图4是第 帧浊语音參数转换及语音合成的示意图。具体实施例方式结本文档来自技高网...
【技术保护点】
【技术特征摘要】
【专利技术属性】
技术研发人员:解伟超,张玲华,吴丽芳,
申请(专利权)人:南京邮电大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。