一种音频信号分类方法和装置制造方法及图纸

技术编号:14773978 阅读:122 留言:0更新日期:2017-03-09 11:47
本发明专利技术实施例公开了一种音频信号分类方法和装置,用于对输入的音频信号进行分类,该方法包括:根据当前音频帧的声音活动性,确定是否获得当前音频帧的频谱波动并存储于频谱波动存储器中,其中,所述频谱波动表示音频信号的频谱的能量波动;根据音频帧是否为敲击音乐或历史音频帧的活动性,更新频谱波动存储器中存储的频谱波动;根据频谱波动存储器中存储的频谱波动的部分或全部有效数据的统计量,将所述当前音频帧分类为语音帧或者音乐帧。

【技术实现步骤摘要】

本专利技术涉及数字信号处理
,尤其是一种音频信号分类方法和装置
技术介绍
为了降低视频信号存储或者传输过程中占用的资源,音频信号在发送端进行压缩处理后传输到接收端,接收端通过解压缩处理恢复音频信号。在音频处理应用中,音频信号分类是一种应用广泛而重要的技术。例如,在音频编解码应用中,目前比较流行的编解码器是一种混合编解码。这种编解码器通常包含了一个基于语音产生模型的编码器(如CELP)和一个基于变换的编码器(如基于MDCT的编码器)。在中低码率下,基于语音产生模型的编码器可以获得较好的语音编码质量,但对音乐的编码质量比较差,而基于变换的编码器能够获得较好的音乐编码质量,对语音的编码质量又比较差。因此,混合编解码器通过对语音信号采用基于语音产生模型的编码器进行编码,对音乐信号采用基于变换的编码器进行编码,从而获得整体最佳的编码效果。这里,一个核心的技术就是音频信号分类,或具体到这个应用,就是编码模式选择。混合编解码器需要获得准确的信号类型信息,才能获得最优的编码模式选择。这里的音频信号分类器也可以被大致认为是一种语音/音乐分类器。语音识别率和音乐识别率是衡量语音/音乐分类器性能的重要指标。尤其对于音乐信号,由于其信号特征的多样/复杂性,对音乐信号的识别通常较语音困难。此外,识别延时也是非常重要的指标之一。由于语音/音乐特征在短时上的模糊性,通常需要在一段相对长的时间区间内才能够较准确的识别出语音/音乐来。一般来说,在同一类信号中段时,识别延时越长,识别越准确。但在两类信号的过渡段时,识别延时越长,识别准确率反而降低。这在输入是混合信号(如有背景音乐的语音)的情况下尤为严重。因此,同时兼具高识别率和低识别延时是一个高性能语音/音乐识别器的必要属性。此外,分类的稳定性也是影响到混合编码器编码质量的重要属性。一般来说,混合编码器在不同类型编码器之间切换时会产生质量下降。如果分类器在同一类信号中发生频繁的类型切换,对编码质量的影响是比较大的,这就要求分类器的输出分类结果要准确而平滑。另外,在一些应用中,如通信系统中的分类算法,也要求其计算复杂度和存储开销要尽可能的低,以满足商业需求。ITU-T标准G.720.1包含有一个语音/音乐分类器。这个分类器以一个主参数,频谱波动方差var_flux,做为信号分类的主要依据,并结合两个不同的频谱峰度参数p1,p2,做为辅助依据。根据var_flux对输入信号的分类,是通过在一个FIFO的var_fluxbuffer中,根据var_flux的局部统计量来完成的。具体过程概述如下。首先对每一输入音频帧提取频谱波动flux,并缓存在一个第一buffer中,这里的flux是在包括当前输入帧在内的最新的4帧中计算的,也可以有其它的计算方法。然后,计算包括当前输入帧在内的N个最新帧的flux的方差,得到当前输入帧的var_flux,并缓存在第二buffer中。然后,统计第二buffer中包括当前输入帧在内的M个最新帧的var_flux中大于第一门限值的帧的个数K。如果K与M的比值大于一个第二门限值,则判断当前输入帧为语音帧,否则为音乐帧。辅助参数p1,p2主要用于对分类的修正,也是对每一输入音频帧计算的。当p1和/或p2大于某第三门限和/或第四门限时,则直接判断当前输入音频帧为音乐帧。这个语音/音乐分类器的缺点一方面对音乐的绝对识别率仍然有待提高,另一方面,由于该分类器的目标应用没有针对混合信号的应用场景,所以对混合信号的识别性能也还有一定的提升空间。现有的语音/音乐分类器有很多都是基于模式识别原理设计的。这类分类器通常都是对输入音频帧提取多个特征参数(十几到几十不等),并将这些参数馈入一个或者基于高斯混合模型,或者基于神经网络,或者基于其它经典分类方法的分类器来进行分类的。这类分类器虽然有较高的理论基础,但通常具有较高的计算或存储复杂度,实现成本较高。
技术实现思路
本专利技术实施例的目的在于提供一种音频信号分类方法和装置,在保证混合音频信号分类识别率的情况下,降低信号分类的复杂度。第一方面,提供了一种音频信号分类方法,包括:根据当前音频帧的声音活动性,确定是否获得当前音频帧的频谱波动并存储于频谱波动存储器中,其中,所述频谱波动表示音频信号的频谱的能量波动;根据音频帧是否为敲击音乐或历史音频帧的活动性,更新频谱波动存储器中存储的频谱波动;根据频谱波动存储器中存储的频谱波动的部分或全部有效数据的统计量,将所述当前音频帧分类为语音帧或者音乐帧。在第一种可能的实现方式中,根据当前音频帧的声音活动性,确定是否获得当前音频帧的频谱波动并存储于频谱波动存储器中包括:若当前音频帧为活动帧,则将当前音频帧的频谱波动存储于频谱波动存储器中。在第二种可能的实现方式中,根据当前音频帧的声音活动性,确定是否获得当前音频帧的频谱波动并存储于频谱波动存储器中包括:若当前音频帧为活动帧,且当前音频帧不属于能量冲击,则将当前音频帧的频谱波动存储于频谱波动存储器中。在第三种可能的实现方式中,根据当前音频帧的声音活动性,确定是否获得当前音频帧的频谱波动并存储于频谱波动存储器中包括:若当前音频帧为活动帧,且包含当前音频帧与其历史帧在内的多个连续帧都不属于能量冲击,则将音频帧的频谱波动存储于频谱波动存储器中。结合第一方面或第一方面的第一种可能的实现方式或第一方面的第二种可能的实现方式或第一方面的第三种可能的实现方式,在第四种可能的实现方式中,根据所述当前音频帧是否为敲击音乐,更新频谱波动存储器中存储的频谱波动包括:若当前音频帧属于敲击音乐,则修改频谱波动存储器中已存储的频谱波动的值。结合第一方面或第一方面的第一种可能的实现方式或第一方面的第二种可能的实现方式或第一方面的第三种可能的实现方式,在第五种可能的实现方式中,根据所述历史音频帧的活动性,更新频谱波动存储器中存储的频谱波动包括:如果确定当前音频帧的频谱波动存储于频谱波动存储器中,且前一帧音频帧为非活动帧,则将频谱波动存储器中已存储的除当前音频帧的频谱波动之外的其他频谱波动的数据修改为无效数据;如果确定当前音频帧的频谱波动存储于频谱波动存储器中,且当前音频帧之前连续三帧历史帧不全都为活动帧,则将当前音频帧的频谱波动修正为第一值;如果确定当前音频帧的频谱波动存储于频谱波动存储器中,且历史分类结果为音乐信号且当前音频帧的频谱波动大于第二值,则将当前音频帧的频谱波动修正为第二值,其中,第二值大于第一值。结合第一方面或第一方面的第一种可能的实现方式或第一方面的第二种可能的实现方式或第一方面的第三种可能的实现方式或第一方面的第四种可能的实现方式或第一方面的第五种可能的实现方式,在第六种可能的实现方式中,根据频谱波动存储器中存储的频谱波动的部分或全部有效数据的统计量,将所述当前音频帧分类为语音帧或者音乐帧包括:获得频谱波动存储器中存储的频谱波动的部分或全部有效数据的均值;当所获得的频谱波动的有效数据的均值满足音乐分类条件时,将所述当前音频帧分类为音乐帧;否则将所述当前音频帧分类为语音帧。结合第一方面或第一方面的第一种可能的实现方式或第一方面的第二种可能的实现方式或第一方面的第三种可能的实现方式或第一方面的第四种可能的实现方式或第一方面的第五种可能的本文档来自技高网
...
一种音频信号分类方法和装置

【技术保护点】
一种音频信号分类方法,其特征在于,包括:将输入音频信号进行分帧处理;获得当前音频帧的线性预测残差能量倾斜度;所述线性预测残差能量倾斜度表示音频信号的线性预测残差能量随线性预测阶数的升高而变化的程度;将线性预测残差能量倾斜度存储到存储器中;根据存储器中预测残差能量倾斜度部分数据的统计量,对所述音频帧进行分类。

【技术特征摘要】
1.一种音频信号分类方法,其特征在于,包括:将输入音频信号进行分帧处理;获得当前音频帧的线性预测残差能量倾斜度;所述线性预测残差能量倾斜度表示音频信号的线性预测残差能量随线性预测阶数的升高而变化的程度;将线性预测残差能量倾斜度存储到存储器中;根据存储器中预测残差能量倾斜度部分数据的统计量,对所述音频帧进行分类。2.根据权利要求1所述的方法,其特征在于,将线性预测残差能量倾斜度存储到存储器中之前还包括:根据所述当前音频帧的声音活动性,确定是否将所述线性预测残差能量倾斜度存储于存储器中;并在确定需要存储时将将所述线性预测残差能量倾斜度存储于存储器中。3.根据权利要求1或2所述的方法,其特征在于,预测残差能量倾斜度部分数据的统计量为预测残差能量倾斜度部分数据的方差;所述根据存储器中预测残差能量倾斜度部分数据的统计量,对所述音频帧进行分类包括:将预测残差能量倾斜度部分数据的方差与音乐分类阈值相比较,当所述预测残差能量倾斜度部分数据的方差小于音乐分类阈值时,将所述当前音频帧分类为音乐帧;否则将所述当前音频帧分类为语音帧。4.根据权利要求1或2所述的方法,其特征在于,还包括:获得当前音频帧的频谱波动、频谱高频带峰度和频谱相关度,并存储于对应的存储器中;其中,所述根据存储器中预测残差能量倾斜度部分数据的统计量,对所述音频帧进行分类包括:分别获得存储的频谱波动、频谱高频带峰度、频谱相关度和线性预测残差能量倾斜度中有效数据的统计量,根据所述有效数据的统计量将所述音频帧分类为语音帧或者音乐帧;所述有效数据的统计量指对存储器中存储的有效数据运算操作后获得的数据值。5.根据权利要求4所述的方法,其特征在于,分别获得存储的频谱波动、频谱高频带峰度、频谱相关度和线性预测残差能量倾斜度中有效数据的统计量,根据所述有效数据的统计量将所述音频帧分类为语音帧或者音乐帧包括:分别获得存储的频谱波动有效数据的均值,频谱高频带峰度有效数据的均值,频谱相关度有效数据的均值和线性预测残差能量倾斜度有效数据的方差;当下列条件之一满足时,将所述当前音频帧分类为音乐帧,否则将所述当前音频帧分类为语音帧:所述频谱波动有效数据的均值小于第一阈值;或者频谱高频带峰度有效数据的均值大于第二阈值;或者所述频谱相关度有效数据的均值大于第三阈值;或者线性预测残差能量倾斜度有效数据的方差小于第四阈值。6.根据权利要求1或2所述的方法,其特征在于,还包括:获得当前音频帧的频谱音调个数和频谱音调个数在低频带上的比率,并存储于对应的存储器;其中,所述根据存储器中预测残差能量倾斜度部分数据的统计量,对所述音频帧进行分类包括:分别获得存储的线性预测残差能量倾斜度的统计量、频谱音调个数的统计量;根据所述线性预测残差能量倾斜度的统计量、频谱音调个数的统计量和频谱音调个数在低频带上的比率,将所述音频帧分类为语音帧或者音乐帧;所述统计量指对存储器中存储的数据运算操作后获得的数据值。7.根据权利要求6所述的方法,其特征在于,分别获得存储的线性预测残差能量倾斜度的统计量、频谱音调个数的统计量包括:获得存储的线性预测残差能量倾斜度的方差;获得存储的频谱音调个数的均值;根据所述线性预测残差能量倾斜度的统计量、频谱音调个数的统计量和频谱音调个数在低频带上的比率,将所述音频帧分类为语音帧或者音乐帧包括:当当前音频帧为活动帧,且满足下列条件之一,则将所述当前音频帧分类为音乐帧,否则将所述当前音频帧分类为语音帧:线性预测残差能量倾斜度的方差小于第五阈值;或频谱音调个数的均值大于第六阈值;或频谱音调个数在低频带上的比率小于第七阈值。8.根据权利要求1-7所述的任一方法,其特征在于,获得当前音频帧的线性预测残差能量倾斜度包括:根据下列公式计算当前音频帧的线性预测残差能量倾斜度:epsP_tilt=Σi=1nepsP(i)·epsP(i+1)Σi=1nepsP(i)·epsP(i)]]>其中,epsP(i)表示当前音频帧第i阶线性预测的预测残差能量;n为正整数,表示线性预测的阶数,其小于等于线性预测的最大阶数。9.根据权利要求6-7所述的任一方法,其特征在于,获得当前音频帧的频谱音调个数和频谱音调个数在低频带上的比率包括:统计当前音频帧在0~8kHz频带上频点峰值大于预定值的频点数量...

【专利技术属性】
技术研发人员:王喆
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1