一种语音编码装置,包括:感知线性预测(plp)分析缓冲器,它配置成输出有关原输入语音信号的音调周期并用plp处理分析输入语音信号,以输出plp系数;激励信号发生器,它配置成产生并输出激励信号;音调合成滤波器,它配置成合成从所述plp分析缓冲器输出的所述音调周期和从所述激励信号发生器输出的所述激励信号;频谱包络滤波器,它配置成将从所述plp分析缓冲器输出的所述plp系数应用到所述音调合成滤波器的输出,以输出合成的语音信号;加法器,它配置成从所述plp分析缓冲器输出的所述原输入语音信号中减去从所述频谱包络滤波器输出的所述合成信号,并输出差异信号;感知权重滤波器,它配置成通过将对应于人的听觉效果因素的权重值提供给从所述加法器输出的所述差异信号来计算误差;以及最小误差计算器,它配置成发现具有对应于从所述感知权重滤波器输出的所述误差的最小误差的激励信号。
【技术实现步骤摘要】
本专利技术涉及使用感知线性预测(PLP)和综合分析法以编码和解码语音数据的语音编码方法和装置。
技术介绍
语音处理系统包括在其中处理语音数据并在不同用户之间传送语音数据的通信系统。语音处理系统还包括诸如数字录音带记录仪的装置,在该装置中处理语音数据并将语音数据储存在记录仪内。用各种方法对语音数据进行压缩(编码)和解压(解码)。在相关技术中已为话音通信设计了各种语音编码器。特别地,基于线性感知(LP)方法的线性感知综合分析(LPAS)编码器被用在数字通信系统中。综合分析处理涉及到从语音信号中提取语音的特性系数并从所提取的特性系数中重新产生该语音。此外,LPAS编码器使用一种依据码激励线性感知(CELP)处理的技术。例如,ITU-T(国际电信同盟-通信标准部(international Telecommunication Union-Telecommunication Standardization Sector))已经定义了几个诸如G.723.1、G.728、G.729等的CELP规范。其他组织也定义了各种CELP规范,这样存在几种可用的规范。CELP使用一种含有互不相同的M编号的(通常,M=1024)码矢量的代码本。然后将相应于最佳码矢量的码字索引发送给另外的实体,所述最佳码矢量含有原声音和成合声音之间的最少的识别误差。其他实体还包括相同的代码本,并使用该传送索引,重新产生原声音。这样,因为传送该索引而不是整个语音段,语音数据被压缩。CELP语音编码器的传送速度一般在4~8kbps的范围内。这样,难以对1kbps以下的时间变化系数进行量化或编码。此外,该系数量化误差会使重新产生的音质降低。因此,不是使用标量量化器,而是将矢量量化器用于对低传送速度下的系数进行编码。因而,能使量化误差减少到最少,从而还原更优美的音调。此外,由于为了求得最佳系数搜索整本代码本,一种有效的代码本搜索算法被用于实时处理。例如,由摩托罗拉公司(Motorola)开发的矢量和激励线性感知(VSELP)语音编码器使用一种含有图解代码本的搜索算法,该图解代码本是将数个基本矢量进行线性组合构成的。与用随机数代码本的典型CELP进行相比,这算法能减少通道误差。VSELP方法还可减少用于储存代码本所需的存储器容量。然而,当LPAS编码器使用诸如CELP和VSELP的相关技术综合分析方法时,在提取输入语音信号的系数时未考虑人的听觉效果或听力。更正确地,该综合分析方法仅考虑到提取语音系数时的语音特性。此外,因为仅在计算原声音误差时考虑到人的听觉效果,将不利地降低了复原的音质和传输速度。
技术实现思路
因此,本专利技术的一个目的是解决上面提到的问题和其他问题。本专利技术的另一个目的是通过使用感知线性预测和综合分析方法提供考虑众听觉效果的一种语音编码装置和一种方法。为了实现这些和其他优点并且与本专利技术的目的相一致,如这儿实施的及广泛描述的,本专利技术提供一种新颖的语音编码装置。依据本专利技术一个方面的装置包括含有感知线性预测分析缓冲器的一种语音编码装置,该感知线性预测分析缓冲器配置成输出有关原输入语音信号的音调周期,并使用plp处理分析该输入语音信号,以输出plp系数;激励信号发生器,配置成能产生并输出激励信号;基音综合滤波器,配置成合成从plp分析缓冲器输出的音调周期和从激励信号发生器输出的激励信号;频谱包络滤波器,配置成将从plp分析缓冲器输出的plp系数应用到音调合成滤波器的输出,以输出合成语音信号;加法器,配置成从plp分析缓冲器输出的原输入语音信号中减去从频谱包络滤波器输出的合成信号,并输出差异信号;感知权重滤波器,配置成通过将对应于人的听觉效果因素的权重值提供给从加法器输出的差异信号来计算误差;及最小误差计算器,配置成发现具有对应于从感知权重滤波器输出的误差的最小误差的激励信号。依据本专利技术的另一方面,本专利技术提供一种语音编码方法,该语音编码方法包括输出有关原输入语音信号的音调周期并用感知线性预测(plp)处理分析该输入语音信号以输出plp系数;产生并输出激励信号;对输出音调周期和激励信号进行合成并输出第一合成信号;将输出的plp系数应用到第一合成信号,以输出第二合成信号;从原输入语音信号中减去第二合成信号并输出差异信号;通过将对应于人的听觉效果因素(consideration)的权重值提供给输出差异信号来计算误差;以及发现具有对应于计算误差的最小误差的激励信号。此外,从下文给出的详细描述中将更能明白本专利技术应用范围。然而应当理解在指出本专利技术的较佳实施例时,仅示例性地给出详细描述和特殊例子,因为本领域人员从此详细描述中将更明白本专利技术精神和范围内的各种改变和修改。附图说明从下文中给出的详细描述和附图中将变得更完全地理解本专利技术,附图仅是示意性地给出,并因此不是本专利技术的限制,其中图1是流程图,示出依据本专利技术一个实施例用于获取感知线性预测(PLP)系数的一种方法; 图2是根据使用树形结构非均匀子频带(sub-band)滤波器组的通道示出频带宽度对采样率的示意图;图3是依据本专利技术一个实施例的语音编码装置的方框图;以及图4是示出依据本专利技术一个实施例的语音编码方法的流程图。具体实施例方式现在将详细地参照本专利技术的较佳实施例,在附图中示出了这些较佳实施例的例子。在本专利技术中,使用感知线性预测(PLP)方法考虑了听觉效果,这改善了编码装置的重现音质和传输速率。更详细地,图1描述了依据本专利技术一个实施例的PLP方法。如图1所示,对输入语音信号进行快速傅里叶变换(FFT)处理,由此分散了输入信号(步骤S110)。FFT处理是用于通过在计算离散傅里叶变换中使用三角函数的周期性来增加计算速度效率的一种算法,这通过简单地分散该傅里叶变换进行计算。换句话说,快速傅里叶变换使用项e(-j2πnk/N)(k=0~N-1),当离散傅里叶变换未能完全执行时能产生该项,并省略具有与通过使用周期性预计算的项相同值的项的计算,从而减少所需的计算量。在完成快速傅里叶处理后,进行临界带宽(critical-band)积分及再采样处理(步骤S120)。该处理用于依据信号的频带将人的识别效果应用到离散信号。更详细地,临界边带积分处理例如用吠声等级(bark scale)将来自赫兹频域的输入语音信号的功率谱转换成吠声(bark)频域。该吠声等级是由下列公式定义的Ω(ω)=6ln{ω/1200π+[(ω/1200π)2+1]0.5}此外,用于临界频带积分处理的滤波器组较佳地是用于完全重现原声音信号的树形结构的非均匀子频带滤波器组。更详细地,图2是示出频带的形状的示意图,在该频带中,依据使用树形结构的非均匀子频带滤波器的通道不同地分离采样速率。如图2所示,人能听见或识别声音的低频域比在人不能听见的高频域被分离得更精细。此外,对低频域进行采样从而考虑人的听觉特性。依据临界频带积分和再采样,能获得一个信号,对于该信号,能加强低频的频率变化,并能减少高频的频率变化。然后,如图1所示,将等响度曲线乘以已经过临界频带积分和再采样处理的频率元素(frequency element)(步骤S130)。该等响度曲线是显示频率和在相同音量下听到的纯音调声压级之间的关系。即,依据人们怎样估计每种频带内的音量的听觉特性,等响度曲线描本文档来自技高网...
【技术保护点】
一种语音编码装置,包括:感知线性预测(plp)分析缓冲器,它配置成输出有关原输入语音信号的音调周期并用plp处理分析输入语音信号,以输出plp系数;激励信号发生器,它配置成产生并输出激励信号;音调合成滤波器,它配置成 合成从所述plp分析缓冲器输出的所述音调周期和从所述激励信号发生器输出的所述激励信号;频谱包络滤波器,它配置成将从所述plp分析缓冲器输出的所述plp系数应用到所述音调合成滤波器的输出,使得输出合成语音信号;加法器,它配置成 从所述plp分析缓冲器输出的所述原输入语音信号中减去从所述频谱包络滤波器输出的所述合成信号,并输出差异信号;感知权重滤波器,它配置成通过将对应于人的听觉效果因素的权重值提供给从所述加法器输出的所述差异信号,计算误差;以及最小 误差计算器,它配置成发现具有对应于从所述感知权重滤波器输出的所述误差的最小误差的激励信号。
【技术特征摘要】
KR 2004-12-14 10-2004-01057771.一种语音编码装置,包括感知线性预测(plp)分析缓冲器,它配置成输出有关原输入语音信号的音调周期并用plp处理分析输入语音信号,以输出plp系数;激励信号发生器,它配置成产生并输出激励信号;音调合成滤波器,它配置成合成从所述plp分析缓冲器输出的所述音调周期和从所述激励信号发生器输出的所述激励信号;频谱包络滤波器,它配置成将从所述plp分析缓冲器输出的所述plp系数应用到所述音调合成滤波器的输出,使得输出合成语音信号;加法器,它配置成从所述plp分析缓冲器输出的所述原输入语音信号中减去从所述频谱包络滤波器输出的所述合成信号,并输出差异信号;感知权重滤波器,它配置成通过将对应于人的听觉效果因素的权重值提供给从所述加法器输出的所述差异信号,计算误差;以及最小误差计算器,它配置成发现具有对应于从所述感知权重滤波器输出的所述误差的最小误差的激励信号。2.按照权利要求1所述装置,其特征在于,还包括快速傅里叶变换单元,它配置成分散所述原输入语音信号;临界频带积分和再采样单元,它配置成依据频带将人的识别效果应用到所述分散信号;乘法器,它配置成将通过所述临界频带积分和再采样单元的频率元素乘以等响度曲线;听力幂次律单元,它配置成依据音量的变化,将所述人的识别效果应用到施加有信号的所述等响度曲线,并输出所述施加的信号。逆离散傅里叶变换单元,它配置成从所述听力幂次律单元输出的所述信号的时间域内获取线性方程;以及Cepstral系数单元,它配置成求解所述线性方程并将所述求解结果应用到cepstral递归处理,以获取cepstral系数。3.按照权利要求1所述装置,其特征在于,所述激励信号发生器包括代码本的代码本索引和代码本增益,且所述装置还包括搜索单元,所述搜索单元配置成从所述代码本中搜索具有所述最小误差的所述激励信号。4.按照权利要求3所述装置,其特征在于,还包括发送器,它配置成将所述代码本索引、所述代码本增益、所述音调周期和所述plp系数发送给预期用户。5.一种语音编码方法,包括输出有关原输入语音信号的音调周期并用感知线性预测(plp)处理分析输入语音信号,以输出plp系数;产生并输出激励信号;合成所述输出音调周期和所述激励信号并输出第一合成信号;将所述输出plp系数应用到所述第一合成信号,以输出第二合成信号;从所述原输入语音信号中减去所述第二合成信号,并输出差异信号;通过给所述输出差异信号提供对应于人的听觉效果因素的权重值,计算误差;以及发现具有对应于所述计算误差的最小误差的激励信号。6.按照权利要求5所述的方法,其特征在于,获取所述plp系数包括使用快速傅里叶变换分散所述输入语音信号;使用临界频带积分和再采样处理,依据频带将人的识别效果应用到所述离散信号;使经过所述临界频带积分和再采样处理的频率元素乘以等响度曲线;使用听力幂次律处理,依据音量变化将所述人的识别效果应用到施加有信号的所述等响度曲线,...
【专利技术属性】
技术研发人员:金燦佑,
申请(专利权)人:LG电子株式会社,
类型:发明
国别省市:KR[韩国]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。