【技术实现步骤摘要】
本专利技术涉及数字信号处理
,尤其是一种音频信号分类方法和装置。
技术介绍
为了降低视频信号存储或者传输过程中占用的资源,音频信号在发送端进行压缩处理后传输到接收端,接收端通过解压缩处理恢复音频信号。在音频处理应用中,音频信号分类是一种应用广泛而重要的技术。例如,在音频编解码应用中,目前比较流行的编解码器是一种混合编解码。这种编解码器通常包含了一个基于语音产生模型的编码器(如CELP)和一个基于变换的编码器(如基于MDCT的编码器)。在中低码率下,基于语音产生模型的编码器可以获得较好的语音编码质量,但对音乐的编码质量比较差,而基于变换的编码器能够获得较好的音乐编码质量,对语音的编码质量又比较差。因此,混合编解码器通过对语音信号采用基于语音产生模型的编码器进行编码,对音乐信号采用基于变换的编码器进行编码,从而获得整体最佳的编码效果。这里,一个核心的技术就是音频信号分类,或具体到这个应用,就是编码模式选择。混合编解码器需要获得准确的信号类型信息,才能获得最优的编码模式选择。这里的音频信号分类器也可以被大致认为是一种语音/音乐分类器。语音识别率和音乐识别率是衡量语音/音乐分类器性能的重要指标。尤其对于音乐信号,由于其信号特征的多样/复杂性,对音乐信号的识别通常较语音困难。此外,识别延时也是非常重要的指标之一。由于语音/音乐特征在短时上的模糊性,通常需要在一段相对长的时间区间内才能够较准确的识别出语音/音乐来。一般来说,在同一类信号中段时,识别延时越长,识别越准确。但在两类信号的过渡段时,识别延时越长,识别准确率反而降低。这在输入是混合信号(如有背景音乐的 ...
【技术保护点】
一种音频信号分类方法,其特征在于,包括:将输入音频信号进行分帧处理;获得当前音频帧的线性预测残差能量倾斜度;所述线性预测残差能量倾斜度表示音频信号的线性预测残差能量随线性预测阶数的升高而变化的程度;将线性预测残差能量倾斜度存储到存储器中;根据存储器中预测残差能量倾斜度部分数据的统计量,对所述音频帧进行分类。
【技术特征摘要】
1.一种音频信号分类方法,其特征在于,包括:将输入音频信号进行分帧处理;获得当前音频帧的线性预测残差能量倾斜度;所述线性预测残差能量倾斜度表示音频信号的线性预测残差能量随线性预测阶数的升高而变化的程度;将线性预测残差能量倾斜度存储到存储器中;根据存储器中预测残差能量倾斜度部分数据的统计量,对所述音频帧进行分类。2.根据权利要求1所述的方法,其特征在于,将线性预测残差能量倾斜度存储到存储器中之前还包括:根据所述当前音频帧的声音活动性,确定是否将所述线性预测残差能量倾斜度存储于存储器中;并在确定需要存储时将将所述线性预测残差能量倾斜度存储于存储器中。3.根据权利要求1或2所述的方法,其特征在于,预测残差能量倾斜度部分数据的统计量为预测残差能量倾斜度部分数据的方差;所述根据存储器中预测残差能量倾斜度部分数据的统计量,对所述音频帧进行分类包括:将预测残差能量倾斜度部分数据的方差与音乐分类阈值相比较,当所述预测残差能量倾斜度部分数据的方差小于音乐分类阈值时,将所述当前音频帧分类为音乐帧;否则将所述当前音频帧分类为语音帧。4.根据权利要求1或2所述的方法,其特征在于,还包括:获得当前音频帧的频谱波动、频谱高频带峰度和频谱相关度,并存储于对应的存储器中;其中,所述根据存储器中预测残差能量倾斜度部分数据的统计量,对所述音频帧进行分类包括:分别获得存储的频谱波动、频谱高频带峰度、频谱相关度和线性预测残差能量倾斜度中有效数据的统计量,根据所述有效数据的统计量将所述音频帧分类为语音帧或者音乐帧;所述有效数据的统计量指对存储器中存储的有效数据运算操作后获得的数据值。5.根据权利要求4所述的方法,其特征在于,分别获得存储的频谱波动、频谱高频带峰度、频谱相关度和线性预测残差能量倾斜度中有效数据的统计量,根据所述有效数据的统计量将所述音频帧分类为语音帧或者音乐帧包括:分别获得存储的频谱波动有效数据的均值,频谱高频带峰度有效数据的均值,频谱相关度有效数据的均值和线性预测残差能量倾斜度有效数据的方差;当下列条件之一满足时,将所述当前音频帧分类为音乐帧,否则将所述当前音频帧分类为语音帧:所述频谱波动有效数据的均值小于第一阈值;或者频谱高频带峰度有效数据的均值大于第二阈值;或者所述频谱相关度有效数据的均值大于第三阈值;或者线性预测残差能量倾斜度有效数据的方差小于第四阈值。6.根据权利要求1或2所述的方法,其特征在于,还包括:获得当前音频帧的频谱音调个数和频谱音调个数在低频带上的比率,并存储于对应的存储器;其中,所述根据存储器中预测残差能量倾斜度部分数据的统计量,对所述音频帧进行分类包括:分别获得存储的线性预测残差能量倾斜度的统计量、频谱音调个数的统计量;根据所述线性预测残差能量倾斜度的统计量、频谱音调个数的统计量和频谱音调个数在低频带上的比率,将所述音频帧分类为语音帧或者音乐帧;所述统计量指对存储器中存储的数据运算操作后获得的数据值。7.根据权利要求6所述的方法,其特征在于,分别获得存储的线性预测残差能量倾斜度的统计量、频谱音调个数的统计量包括:获得存储的线性预测残差能量倾斜度的方差;获得存储的频谱音调个数的均值;根据所述线性预测残差能量倾斜度的统计量、频谱音调个数的统计量和频谱音调个数在低频带上的比率,将所述音频帧分类为语音帧或者音乐帧包括:当当前音频帧为活动帧,且满足下列条件之一,则将所述当前音频帧分类为音乐帧,否则将所述当前音频帧分类为语音帧:线性预测残差能量倾斜度的方差小于第五阈值;或频谱音调个数的均值大于第六阈值;或频谱音调个数在低频带上的比率小于第七阈值。8.根据权利要求1-7所述的任一方法,其特征在于,获得当前音频帧的线性预测残差能量倾斜度包括:根据下列公式计算当前音频帧的线性预测残差能量倾斜度:epsP_tilt=Σi=1nepsP(i)·epsP(i+1)Σi=1nepsP(i)·epsP(i)]]>其中,epsP(i)表示当前音频帧第i阶线性预测的预测残差能量;n为正整数,表示线性预测的阶数,其小于等于线性预测的最大阶数。9.根据权利要求6-7所述的任一方法,其特征在于,获得当前音频帧的频谱音调个数和频谱音调个数在低频带上的比率包括:统计当前音频帧在0~8kHz频带上频点峰值大于预定值的频点数量...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。