【技术实现步骤摘要】
本专利技术涉及数字信号处理
,尤其是一种音频信号分类方法和装置。
技术介绍
为了降低视频信号存储或者传输过程中占用的资源,音频信号在发送端进行压缩处理后传输到接收端,接收端通过解压缩处理恢复音频信号。在音频处理应用中,音频信号分类是一种应用广泛而重要的技术。例如,在音频编解码应用中,目前比较流行的编解码器是一种混合编解码。这种编解码器通常包含了一个基于语音产生模型的编码器(如CELP)和一个基于变换的编码器(如基于MDCT的编码器)。在中低码率下,基于语音产生模型的编码器可以获得较好的语音编码质量,但对音乐的编码质量比较差,而基于变换的编码器能够获得较好的音乐编码质量,对语音的编码质量又比较差。因此,混合编解码器通过对语音信号采用基于语音产生模型的编码器进行编码,对音乐信号采用基于变换的编码器进行编码,从而获得整体最佳的编码效果。这里,一个核心的技术就是音频信号分类,或具体到这个应用,就是编码模式选择。混合编解码器需要获得准确的信号类型信息,才能获得最优的编码模式选择。这里的音频信号分类器也可以被大致认为是一种语音/音乐分类器。语音识别率和音乐识别率是衡量语音/音乐分类器性能的重要指标。尤其对于音乐信号,由于其信号特征的多样/复杂性,对音乐信号的识别通常较语音困难。此外,识别延时也是非常重要的指标之一。由于语音/音乐特征在短时上的模糊性,通常需要在一段相对长的时间区间内才能够较准确的识别出语音/音乐来。一般来说,在同一类信号中段时,识别延时越长,识别越准确。但在两类信号的过渡段时,识别延时越长,识别准确率反而降低。这在输入是混合信号(如有背景音乐的 ...
【技术保护点】
一种音频信号分类方法,其特征在于,包括:根据当前音频帧的声音活动性,确定是否获得当前音频帧的频谱波动并存储于频谱波动存储器中,其中,所述频谱波动表示音频信号的频谱的能量波动;根据音频帧是否为敲击音乐或历史音频帧的活动性,更新频谱波动存储器中存储的频谱波动;根据频谱波动存储器中存储的频谱波动的部分或全部有效数据的统计量,将所述当前音频帧分类为语音帧或者音乐帧。
【技术特征摘要】
1.一种音频信号分类方法,其特征在于,包括:根据当前音频帧的声音活动性,确定是否获得当前音频帧的频谱波动并存储于频谱波动存储器中,其中,所述频谱波动表示音频信号的频谱的能量波动;根据音频帧是否为敲击音乐或历史音频帧的活动性,更新频谱波动存储器中存储的频谱波动;根据频谱波动存储器中存储的频谱波动的部分或全部有效数据的统计量,将所述当前音频帧分类为语音帧或者音乐帧。2.根据权利要求1所述的方法,其特征在于,根据当前音频帧的声音活动性,确定是否获得当前音频帧的频谱波动并存储于频谱波动存储器中包括:若当前音频帧为活动帧,则将当前音频帧的频谱波动存储于频谱波动存储器中。3.根据权利要求1所述的方法,其特征在于,根据当前音频帧的声音活动性,确定是否获得当前音频帧的频谱波动并存储于频谱波动存储器中包括:若当前音频帧为活动帧,且当前音频帧不属于能量冲击,则将当前音频帧的频谱波动存储于频谱波动存储器中。4.根据权利要求1所述的方法,其特征在于,根据当前音频帧的声音活动性,确定是否获得当前音频帧的频谱波动并存储于频谱波动存储器中包括:若当前音频帧为活动帧,且包含当前音频帧与其历史帧在内的多个连续帧都不属于能量冲击,则将音频帧的频谱波动存储于频谱波动存储器中。5.根据权利要求1至4所述的任一方法,其特征在于,根据所述当前音频帧是否为敲击音乐,更新频谱波动存储器中存储的频谱波动包括:若当前音频帧属于敲击音乐,则修改频谱波动存储器中已存储的频谱波动的值。6.根据权利要求1至4所述的任一方法,其特征在于,根据所述历史音频帧的活动性,更新频谱波动存储器中存储的频谱波动包括:如果确定当前音频帧的频谱波动存储于频谱波动存储器中,且前一帧音频帧为非活动帧,则将频谱波动存储器中已存储的除当前音频帧的频谱波动之外的其他频谱波动的数据修改为无效数据;或者如果确定当前音频帧的频谱波动存储于频谱波动存储器中,且当前音频帧之前连续三帧历史帧不全都为活动帧,则将当前音频帧的频谱波动修正为第一值;或者如果确定当前音频帧的频谱波动存储于频谱波动存储器中,且历史分类结果为音乐信号且当前音频帧的频谱波动大于第二值,则将当前音频帧的频谱波动修正为第二值。7.根据权利要求1-6所述的任一方法,其特征在于,根据频谱波动存储器中存储的频谱波动的部分或全部有效数据的统计量,将所述当前音频帧分类为语音帧或者音乐帧包括:获得频谱波动存储器中存储的频谱波动的部分或全部有效数据的均值;当所获得的频谱波动的有效数据的均值满足音乐分类条件时,将所述当前音频帧分类为音乐帧;否则将所述当前音频帧分类为语音帧。8.根据权利要求1-6所述的任一方法,其特征在于,还包括:获得当前音频帧的频谱高频带峰度、频谱相关度和线性预测残差能量倾斜度;其中,频谱高频带峰度表示当前音频帧的频谱在高频带上的峰度或能量锐度;频谱相关度表示当前音频帧的信号谐波结构在相邻帧间的稳定度;线性预测残差能量倾斜度表示音频信号的线性预测残差能量随线性预测阶数的升高而变化的程度;根据所述当前音频帧的声音活动性,确定是否将所述频谱高频带峰度、频谱相关度和线性预测残差能量倾斜度存储于存储器中;其中,所述根据频谱波动存储器中存储的频谱波动的部分或全部数据的统计量,对所述音频帧进行分类包括:分别获得存储的频谱波动有效数据的均值,频谱高频带峰度有效数据的均值,频谱相关度有效数据的均值和线性预测残差能量倾斜度有效数据的方差;当下列条件之一满足时,将所述当前音频帧分类为音乐帧,否则将所述当前音频帧分类为语音帧:所述频谱波动有效数据的均值小于第一阈值;或者频谱高频带峰度有效数据的均值大于第二阈值;或者所述频谱相关度有效数据的均值大于第三阈值;或者线性预测残差能量倾斜度有效数据的方差小于第四阈值。9.一种音频信号的分类装置,用于对输入的音频信号进行分类,...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。