一种音频信号分类方法和装置制造方法及图纸

技术编号:14773976 阅读:105 留言:0更新日期:2017-03-09 11:47
本发明专利技术实施例公开了一种音频信号分类方法和装置,用于对输入的音频信号进行分类,该方法包括:根据当前音频帧的声音活动性,确定是否获得当前音频帧的频谱波动并存储于频谱波动存储器中,其中,所述频谱波动表示音频信号的频谱的能量波动;根据音频帧是否为敲击音乐或历史音频帧的活动性,更新频谱波动存储器中存储的频谱波动;根据频谱波动存储器中存储的频谱波动的部分或全部有效数据的统计量,将所述当前音频帧分类为语音帧或者音乐帧。

【技术实现步骤摘要】

本专利技术涉及数字信号处理
,尤其是一种音频信号分类方法和装置
技术介绍
为了降低视频信号存储或者传输过程中占用的资源,音频信号在发送端进行压缩处理后传输到接收端,接收端通过解压缩处理恢复音频信号。在音频处理应用中,音频信号分类是一种应用广泛而重要的技术。例如,在音频编解码应用中,目前比较流行的编解码器是一种混合编解码。这种编解码器通常包含了一个基于语音产生模型的编码器(如CELP)和一个基于变换的编码器(如基于MDCT的编码器)。在中低码率下,基于语音产生模型的编码器可以获得较好的语音编码质量,但对音乐的编码质量比较差,而基于变换的编码器能够获得较好的音乐编码质量,对语音的编码质量又比较差。因此,混合编解码器通过对语音信号采用基于语音产生模型的编码器进行编码,对音乐信号采用基于变换的编码器进行编码,从而获得整体最佳的编码效果。这里,一个核心的技术就是音频信号分类,或具体到这个应用,就是编码模式选择。混合编解码器需要获得准确的信号类型信息,才能获得最优的编码模式选择。这里的音频信号分类器也可以被大致认为是一种语音/音乐分类器。语音识别率和音乐识别率是衡量语音/音乐分类器性能的重要指标。尤其对于音乐信号,由于其信号特征的多样/复杂性,对音乐信号的识别通常较语音困难。此外,识别延时也是非常重要的指标之一。由于语音/音乐特征在短时上的模糊性,通常需要在一段相对长的时间区间内才能够较准确的识别出语音/音乐来。一般来说,在同一类信号中段时,识别延时越长,识别越准确。但在两类信号的过渡段时,识别延时越长,识别准确率反而降低。这在输入是混合信号(如有背景音乐的语音)的情况下尤为严重。因此,同时兼具高识别率和低识别延时是一个高性能语音/音乐识别器的必要属性。此外,分类的稳定性也是影响到混合编码器编码质量的重要属性。一般来说,混合编码器在不同类型编码器之间切换时会产生质量下降。如果分类器在同一类信号中发生频繁的类型切换,对编码质量的影响是比较大的,这就要求分类器的输出分类结果要准确而平滑。另外,在一些应用中,如通信系统中的分类算法,也要求其计算复杂度和存储开销要尽可能的低,以满足商业需求。ITU-T标准G.720.1包含有一个语音/音乐分类器。这个分类器以一个主参数,频谱波动方差var_flux,做为信号分类的主要依据,并结合两个不同的频谱峰度参数p1,p2,做为辅助依据。根据var_flux对输入信号的分类,是通过在一个FIFO的var_fluxbuffer中,根据var_flux的局部统计量来完成的。具体过程概述如下。首先对每一输入音频帧提取频谱波动flux,并缓存在一个第一buffer中,这里的flux是在包括当前输入帧在内的最新的4帧中计算的,也可以有其它的计算方法。然后,计算包括当前输入帧在内的N个最新帧的flux的方差,得到当前输入帧的var_flux,并缓存在第二buffer中。然后,统计第二buffer中包括当前输入帧在内的M个最新帧的var_flux中大于第一门限值的帧的个数K。如果K与M的比值大于一个第二门限值,则判断当前输入帧为语音帧,否则为音乐帧。辅助参数p1,p2主要用于对分类的修正,也是对每一输入音频帧计算的。当p1和/或p2大于某第三门限和/或第四门限时,则直接判断当前输入音频帧为音乐帧。这个语音/音乐分类器的缺点一方面对音乐的绝对识别率仍然有待提高,另一方面,由于该分类器的目标应用没有针对混合信号的应用场景,所以对混合信号的识别性能也还有一定的提升空间。现有的语音/音乐分类器有很多都是基于模式识别原理设计的。这类分类器通常都是对输入音频帧提取多个特征参数(十几到几十不等),并将这些参数馈入一个或者基于高斯混合模型,或者基于神经网络,或者基于其它经典分类方法的分类器来进行分类的。这类分类器虽然有较高的理论基础,但通常具有较高的计算或存储复杂度,实现成本较高。
技术实现思路
本专利技术实施例的目的在于提供一种音频信号分类方法和装置,在保证混合音频信号分类识别率的情况下,降低信号分类的复杂度。第一方面,提供了一种音频信号分类方法,包括:根据当前音频帧的声音活动性,确定是否获得当前音频帧的频谱波动并存储于频谱波动存储器中,其中,所述频谱波动表示音频信号的频谱的能量波动;根据音频帧是否为敲击音乐或历史音频帧的活动性,更新频谱波动存储器中存储的频谱波动;根据频谱波动存储器中存储的频谱波动的部分或全部有效数据的统计量,将所述当前音频帧分类为语音帧或者音乐帧。在第一种可能的实现方式中,根据当前音频帧的声音活动性,确定是否获得当前音频帧的频谱波动并存储于频谱波动存储器中包括:若当前音频帧为活动帧,则将当前音频帧的频谱波动存储于频谱波动存储器中。在第二种可能的实现方式中,根据当前音频帧的声音活动性,确定是否获得当前音频帧的频谱波动并存储于频谱波动存储器中包括:若当前音频帧为活动帧,且当前音频帧不属于能量冲击,则将当前音频帧的频谱波动存储于频谱波动存储器中。在第三种可能的实现方式中,根据当前音频帧的声音活动性,确定是否获得当前音频帧的频谱波动并存储于频谱波动存储器中包括:若当前音频帧为活动帧,且包含当前音频帧与其历史帧在内的多个连续帧都不属于能量冲击,则将音频帧的频谱波动存储于频谱波动存储器中。结合第一方面或第一方面的第一种可能的实现方式或第一方面的第二种可能的实现方式或第一方面的第三种可能的实现方式,在第四种可能的实现方式中,根据所述当前音频帧是否为敲击音乐,更新频谱波动存储器中存储的频谱波动包括:若当前音频帧属于敲击音乐,则修改频谱波动存储器中已存储的频谱波动的值。结合第一方面或第一方面的第一种可能的实现方式或第一方面的第二种可能的实现方式或第一方面的第三种可能的实现方式,在第五种可能的实现方式中,根据所述历史音频帧的活动性,更新频谱波动存储器中存储的频谱波动包括:如果确定当前音频帧的频谱波动存储于频谱波动存储器中,且前一帧音频帧为非活动帧,则将频谱波动存储器中已存储的除当前音频帧的频谱波动之外的其他频谱波动的数据修改为无效数据;如果确定当前音频帧的频谱波动存储于频谱波动存储器中,且当前音频帧之前连续三帧历史帧不全都为活动帧,则将当前音频帧的频谱波动修正为第一值;如果确定当前音频帧的频谱波动存储于频谱波动存储器中,且历史分类结果为音乐信号且当前音频帧的频谱波动大于第二值,则将当前音频帧的频谱波动修正为第二值,其中,第二值大于第一值。结合第一方面或第一方面的第一种可能的实现方式或第一方面的第二种可能的实现方式或第一方面的第三种可能的实现方式或第一方面的第四种可能的实现方式或第一方面的第五种可能的实现方式,在第六种可能的实现方式中,根据频谱波动存储器中存储的频谱波动的部分或全部有效数据的统计量,将所述当前音频帧分类为语音帧或者音乐帧包括:获得频谱波动存储器中存储的频谱波动的部分或全部有效数据的均值;当所获得的频谱波动的有效数据的均值满足音乐分类条件时,将所述当前音频帧分类为音乐帧;否则将所述当前音频帧分类为语音帧。结合第一方面或第一方面的第一种可能的实现方式或第一方面的第二种可能的实现方式或第一方面的第三种可能的实现方式或第一方面的第四种可能的实现方式或第一方面的第五种可能的本文档来自技高网
...
一种音频信号分类方法和装置

【技术保护点】
一种音频信号分类方法,其特征在于,包括:根据当前音频帧的声音活动性,确定是否获得当前音频帧的频谱波动并存储于频谱波动存储器中,其中,所述频谱波动表示音频信号的频谱的能量波动;根据音频帧是否为敲击音乐或历史音频帧的活动性,更新频谱波动存储器中存储的频谱波动;根据频谱波动存储器中存储的频谱波动的部分或全部有效数据的统计量,将所述当前音频帧分类为语音帧或者音乐帧。

【技术特征摘要】
1.一种音频信号分类方法,其特征在于,包括:根据当前音频帧的声音活动性,确定是否获得当前音频帧的频谱波动并存储于频谱波动存储器中,其中,所述频谱波动表示音频信号的频谱的能量波动;根据音频帧是否为敲击音乐或历史音频帧的活动性,更新频谱波动存储器中存储的频谱波动;根据频谱波动存储器中存储的频谱波动的部分或全部有效数据的统计量,将所述当前音频帧分类为语音帧或者音乐帧。2.根据权利要求1所述的方法,其特征在于,根据当前音频帧的声音活动性,确定是否获得当前音频帧的频谱波动并存储于频谱波动存储器中包括:若当前音频帧为活动帧,则将当前音频帧的频谱波动存储于频谱波动存储器中。3.根据权利要求1所述的方法,其特征在于,根据当前音频帧的声音活动性,确定是否获得当前音频帧的频谱波动并存储于频谱波动存储器中包括:若当前音频帧为活动帧,且当前音频帧不属于能量冲击,则将当前音频帧的频谱波动存储于频谱波动存储器中。4.根据权利要求1所述的方法,其特征在于,根据当前音频帧的声音活动性,确定是否获得当前音频帧的频谱波动并存储于频谱波动存储器中包括:若当前音频帧为活动帧,且包含当前音频帧与其历史帧在内的多个连续帧都不属于能量冲击,则将音频帧的频谱波动存储于频谱波动存储器中。5.根据权利要求1至4所述的任一方法,其特征在于,根据所述当前音频帧是否为敲击音乐,更新频谱波动存储器中存储的频谱波动包括:若当前音频帧属于敲击音乐,则修改频谱波动存储器中已存储的频谱波动的值。6.根据权利要求1至4所述的任一方法,其特征在于,根据所述历史音频帧的活动性,更新频谱波动存储器中存储的频谱波动包括:如果确定当前音频帧的频谱波动存储于频谱波动存储器中,且前一帧音频帧为非活动帧,则将频谱波动存储器中已存储的除当前音频帧的频谱波动之外的其他频谱波动的数据修改为无效数据;或者如果确定当前音频帧的频谱波动存储于频谱波动存储器中,且当前音频帧之前连续三帧历史帧不全都为活动帧,则将当前音频帧的频谱波动修正为第一值;或者如果确定当前音频帧的频谱波动存储于频谱波动存储器中,且历史分类结果为音乐信号且当前音频帧的频谱波动大于第二值,则将当前音频帧的频谱波动修正为第二值。7.根据权利要求1-6所述的任一方法,其特征在于,根据频谱波动存储器中存储的频谱波动的部分或全部有效数据的统计量,将所述当前音频帧分类为语音帧或者音乐帧包括:获得频谱波动存储器中存储的频谱波动的部分或全部有效数据的均值;当所获得的频谱波动的有效数据的均值满足音乐分类条件时,将所述当前音频帧分类为音乐帧;否则将所述当前音频帧分类为语音帧。8.根据权利要求1-6所述的任一方法,其特征在于,还包括:获得当前音频帧的频谱高频带峰度、频谱相关度和线性预测残差能量倾斜度;其中,频谱高频带峰度表示当前音频帧的频谱在高频带上的峰度或能量锐度;频谱相关度表示当前音频帧的信号谐波结构在相邻帧间的稳定度;线性预测残差能量倾斜度表示音频信号的线性预测残差能量随线性预测阶数的升高而变化的程度;根据所述当前音频帧的声音活动性,确定是否将所述频谱高频带峰度、频谱相关度和线性预测残差能量倾斜度存储于存储器中;其中,所述根据频谱波动存储器中存储的频谱波动的部分或全部数据的统计量,对所述音频帧进行分类包括:分别获得存储的频谱波动有效数据的均值,频谱高频带峰度有效数据的均值,频谱相关度有效数据的均值和线性预测残差能量倾斜度有效数据的方差;当下列条件之一满足时,将所述当前音频帧分类为音乐帧,否则将所述当前音频帧分类为语音帧:所述频谱波动有效数据的均值小于第一阈值;或者频谱高频带峰度有效数据的均值大于第二阈值;或者所述频谱相关度有效数据的均值大于第三阈值;或者线性预测残差能量倾斜度有效数据的方差小于第四阈值。9.一种音频信号的分类装置,用于对输入的音频信号进行分类,...

【专利技术属性】
技术研发人员:王喆
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1