当前位置: 首页 > 专利查询>清华大学专利>正文

用于低比特率音频编码的语音/音乐检测器制造技术

技术编号:3045461 阅读:451 留言:0更新日期:2012-04-11 18:40
本发明专利技术属于音频信号识别技术领域,其特征在于,在提取短时特征向量利用短时决策树进行语音信号和音乐信号判别后,还利用一个FIFO来进行长时特征向量的特征提取和长时决策树的判断。其中,短时特征向量包括短时能量函数和短时频谱分布函数;长时特征向量包括能量方差、能量过中值率、低能量比率、频谱分布变化率和低频谱分布比率;所述短时频谱分布参数是经过设定的多分辨率小波分析滤波器结合降采样来进行子带分解的。实验证明,本发明专利技术测试得到的平均误检率为0.8%。

【技术实现步骤摘要】

本专利技术涉及音频信号的处理和分类算法,及其计算机实现。本专利技术属于音频信号处理和模式识别领域。
技术介绍
传统的高质量音频编码通过时频变换,将音频信号变换到频域进行量化编码,并结合心理声学理论,实现信号冗余度的去除。这种方法对于所有的音频信号均使用类似的信号处理方法,没有对不同类型的信号区分对待。虽然在这些编码器中引入窗切换,用于改善瞬态信号的编码质量,但也没有更多地利用不同音频信号本身的特点。在移动通信的音频编码中,为了节省传输带宽和嵌入式实现,音频编码向低比特率、低复杂度方向发展。在这种情况下,已经不是高质量音频编码,使用传统高质量音频编码方案的问题逐渐凸现。对所有音频信号采用同样的信号处理方法,将导致在低比特率下音质的大大下降。因此,有必要对于不同类型的音频信号,充分挖掘它们的特殊性,分别构建适于各种类型音频信号的低比特率编码器,并把它们封装在一起。在实际编码过程中,首先对信号类型进行识别,然后调用对应的编码函数对其进行编码。从理论上讲,对于各种不同类型的音频信号,分别定制特殊的编码器,编码的效果必定很好。随着音频信号分类的细化,编码效果也将相应提高。然而,如果将音频类型设定得过多,在实现上也是不经济的。这必将导致类型的识别过于复杂,同时也增大了整个编码器的复杂度和存储空间占用。所以,通常将音频信号分为语音和音乐两类,使用低比特率的语音编码器(如CELP)对语音信号进行编码,使用通用音频编码器(如MPEG-AAC)对音乐信号进行编码。由于前者通过建立语音发声模型,充分利用了语音的特点,对于语音信号的编码效率很高,加之其技术已经相当成熟,故可以通过在通用音频编码器上扩展语音编码器使其语音编码质量得到很大提高。类似地,也可以通过在低比特率的语音编码器上扩展通用音频编码器使其宽带音乐的编码质量得到提高。必须同时客观地看到,这种类型识别的加入,势必增加编码器的复杂度。首先,类型识别算法将消耗CPU时间。同时,不同类型编码器的结合还引入了不同编码器之间的音频数据连接问题而引起处理上的麻烦。2005年3GPP组织提出的超宽带自适应多速率音频编码器(AMR-WB+)正是基于低比特率的语音编码器上扩展通用音频编码器的思想提出的。它是AMR-WB的宽带版本,其主要应用领域定位在第三代移动通讯设备。它的主要特点是工作在中低码率,并且有低的复杂度和延时。AMR-WB+是从语音编码器发展过来的。它结合参数编码和变换编码,支持16/24/32/48kHz的采样率,码率设定在7.75kbps到54kbps之间的范围,可以满足移动音频通讯的不同的质量要求。该编码器的重要特征,是它根据输入音频信号是语音还是音乐,用不同的方式进行编码,以在最大程度上减小码率,保证编码质量。AMR-WB+内部有两种编码模式,即基于代数码本激励线性预测语音编码器ACELP(Algebraic Code Excited LinearPrediction)和变换激励编码TCX(Transform Coded Excitation)。两者有不同的适用范围。由于是时域预测编码器,ACELP适合于语音和瞬态信号的编码。而TCX是变换编码,因而更适合于典型音乐信号的编码。在该编码器方案中,根据输入信号的特点,合理地在两个编码模式之间进行选择,对于最终编码的效果具有重要的影响。AMR-WB+标准设计了复杂的编码模式切换方案。其中包括闭环(close-loop)选择和开环(open-loop)选择。闭环选择通过试验的方法,选取最好的一种编码模式。它会分别调用ACELP和TCX编码函数对音频信号进行编码,并比较编码结果的平均信噪比,选取信噪比较高者作为最终的编码模式。显然,这样的选择方法是很准确的,但它运算量非常大。相反,开环选择直接通过分析音频信号的特征来选择编码模式,虽然精度低,但运算量减小了很多。所以,相比而言,开环模式选择在运算量上更有优势,更适用于移动通信的场合。而且通过合理选择特征和参数,开环模式选择同样也能达到较高的精度。遗憾的是,AMR-WB+语音/音乐检测器主要是基于单帧(256样点)频谱的分布来进行的,准确度较低。这主要原因是它用到的单帧频谱分布特征等参数缺乏对语音/音乐足够的区分度。事实上,这种短时音频特征本身对于音频类型识别不具有足够的信息量。例如,给出一个20ms的信号波形,很难通过信号分析确定它是语音还是音乐。事实上,我们可以从人耳的听觉特性上获得新的方法。Balabko(1999)指出,人耳识别出语音的关键是探测到信号频谱的缓慢变化,而不是瞬时的频谱值。通过频谱分析,可以发现,如果音频信号子带能量有低于16Hz的低频调制,人耳就有很大可能会把这种信号识别为语音。最早的证据在上世纪30年代就已经出现了(Dudley,1939)。有趣的是,人耳的听觉系统对于4Hz左右,也就是平均音节速率的调制频率最为敏感。人耳可以很容易地将该信号识别为语音,尽管可能这是一种听不懂的语言。基于以上分析,可以知道,通过对一段较长时间的音频信号低频调制频率的分析,可以实现较高精度的语音/音乐识别。而在这方面,短时音频特征无能为力,必须借助于长时特征。AMR-WB+标准中的特征除了单帧频谱的分布特征外,也有少量长时特征,但充其量也只用到了12个子带4帧和16帧(100~300ms)能量标准差,根本无法覆盖语音所特有的低频调制频率这一重要信息。所以引入长时音频特征,也就是处理音频数据对象长度大于1秒的音频特征,是提高开环模式选择的必要手段。然而,长时特征的最大弱点在于它的计算延时。通常需要等待1秒以上缓冲足够的音频数据后才能得到长时特征的值。在音频编码中,实时性要求高,因而长时特征的使用受到很大限制。事实上,诸多长时特征已经广泛用于音频信息检索(Audio InformationRetrieval)中。由于音频信息检索对于实时性要求不高,所以长时特征不仅未受限制反而倍受欢迎。所以,本专利技术提出把长时特征和短时特征结合起来,进行音频类型的识别,解决了长时特征的计算延时问题。本专利技术设置了一段5秒长的FIFO进行数据缓冲,通过包含当前帧在内的前5秒的音频数据来计算长时特征。只要FIFO是满的,就几乎没有计算延时。这时,检测器主要根据长时特征来进行音频类型识别。而当刚开始编码,FIFO未满的时候,长时特征是无法计算,检测器就根据短时特征来进行音频类型识别,也没有延时。如上所述,检测器的精度由长时特征来保证。依据FIFO的操作原理,每编码一帧PCM音频数据,FIFO中只压入一个新数据,并推出一个旧数据,而不是更新所有数据。所以,当FIFO中既有语音又有音乐的数据时,长时特征并不单纯地针对语音或音乐信号进行计算,不一定能提供有关当前帧是语音还是音乐的准确信息,可能会引起一些误判。这会出现在语音和音乐切换的过程中。但通常,音频信号不可能在语音和音乐之间以很高频率频繁切换,所以由于上述原因导致的检测误差是很低的。这表明,本专利技术可以对一般的音频信号保持较高的分类精度。
技术实现思路
本专利技术的目的在于,提出一种适合低码率音频实时编码的语音/音乐检测器。本专利技术的特征在于,采用短时音频特征和长时音频特征相结合的方法,在维持低计算复杂度的基础上,获得较高的语音/音乐检测准确率。1、本本文档来自技高网
...

【技术保护点】
用于低比特率音频编码的语音/音乐检测器其特征在于,所述检测器是在一个数字集成电路上实现的,其中包含:短时特征提取部分:输入信号是当前帧缓冲区输出的以帧长为单位的音频流,经过计算,得到短时音频特征向量,其中包括以下分量:(a),短时能量函数E[n]:E[n]=log↓[10](*(x[n])↑[2]),x[n]是离散化的输入音频信号,N是计算包含的音频信号样点数,N=F↓[s]×帧长,F↓[s]为音频采样率,单位是kHz,帧长的单位是时间ms;(b),短时频谱分布参数SP:在设定的采样率下,先把每帧音频信号按设定的技术进行多分辨率子带分解,得到频带由低到高的,级子带,用1,2,…,l表示,所述l级子带是通过阶数与设定级数相对应的Daubechies小波构建的分析滤波器组对原信号进行滤波后得到的。其次,按下式计算短时频谱分布参数SP:SP↓[21][n]=E↓[2][n]-E↓[1][n],SP↓[31][n]=E↓[3][n]-E↓[1][n],…SP↓[l1][n]=E↓[l][n]-E↓[1][n].E↓[1][n],E↓[2][n],…,E↓[l][n]分别为各子带的短时能量函数;从而,得到短时特征向量F↓[s][n]:F↓[S][n]=(E[n],SP↓[21][n],SP↓[31][n],…,SP↓[l1][n])↑[T];先进先出存储单元部分:是一个存储单元序列,序列的长度单元是秒,存储单元数=秒长/帧长×1000,该序列以帧为单位接收从短时特征提取输出的每帧的E↓[1][n],E↓[2][n],…,E↓[l][n];比较器输入是所述序列中的判断计数器输出的先进先出存储单元部分FIFO是否满的标志,与预设的FIFO长度比较后,若FIFO未满,该比较器便向所述短时特征提取部分输出允许短时特征输出的信号;长时特征提取部分:设有一个控制信号输入端,接收允许输出长时特征的信号,还有一个数据输入端,从FIF0输入E↓[n][n-i],i=0,1,…,N-1,i是用FIF0内采样点序号表示的帧长序号,所述长时特征提取部分在接收到所述比较器输出的FIF0已满的信号后,计算长时特征向量,其中包括:(c),能量方差Var↓[E][n]:****[n]为短时能量函数的平均值,*[n]=1/N*E[n-i].(d),能量过中值率CR↓[Emed]:CR↓[Emed][n]=1/2*(|sgn(E[n-i]-E↓[med])...

【技术特征摘要】
1.用于低比特率音频编码的语音/音乐检测器其特征在于,所述检测器是在一个数字集成电路上实现的,其中包含短时特征提取部分输入信号是当前帧缓冲区输出的以帧长为单位的音频流,经过计算,得到短时音频特征向量,其中包括以下分量(a),短时能量函数E[n]E[n]=log10(Σn=1N(x[n])2),]]>x[n]是离散化的输入音频信号,N是计算包含的音频信号样点数,N=Fs×帧长,Fs为音频采样率,单位是kHz,帧长的单位是时间ms;(b),短时频谱分布参数SP在设定的采样率下,先把每帧音频信号按设定的技术进行多分辨率子带分解,得到频带由低到高的l级子带,用1,2,...,l表示,所述l级子带是通过阶数与设定级数相对应的Daubechies小波构建的分析滤波器组对原信号进行滤波后得到的。其次,按下式计算短时频谱分布参数SPSP21[n]=E2[n]-E1[n],SP31[n]=E3[n]-E1[n],…SPl1[n]=El[n]-E1[n].E1[n],E2[n],…,El[n]分别为各子带的短时能量函数;从而,得到短时特征向量Fs[n]Fs[n]=(E[n],SP21[n],SP31[n],…,SPl1[n])T;先进先出存储单元部分是一个存储单元序列,序列的长度单元是秒, 该序列以帧为单位接收从短时特征提取输出的每帧的E1[n],E2[n],…,El[n];比较器输入是所述序列中的判断计数器输出的先进先出存储单元部分FIFO是否满的标志,与预设的FIFO长度比较后,若FIFO未满,该比较器便向所述短时特征提取部分输出允许短时特征输出的信号;长时特征提取部分设有一个控制信号输入端,接收允许输出长时特征的信号,还有一个数据输入端,从FIFO输入En[n-i],i=0,1,...,N-1,i是用FIFO内采样点序号表示的帧长序号,所述长时特征提取部分在接收到所述比较器输出的FIFO已满的信号后,计算长时特征向量,其中包括(c),能量方差VarE[n]VarE[n]=1N-1Σi=0N-1(E[n-i]-E‾[n])2,...

【专利技术属性】
技术研发人员:张斌窦维蓓
申请(专利权)人:清华大学
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利