一种选择编码模式的方法及装置制造方法及图纸

技术编号:10552360 阅读:140 留言:0更新日期:2014-10-22 10:45
本发明专利技术实施例公开了一种选择编码模式的方法及装置,通过对乐音信号进行分类,当分类结果为打击乐时,采用频段复制编码模式进行高频重建,当分类结果为管弦乐时,采用谐和频段复制编码模式进行高频重建,通过提取乐音信号的3阶MFCC,优化特征值的组合,减少特征值的个数,简化特征值的计算,也因为特征值数量少进而降低分类判断的计算量;在分类算法中,通过训练部分程序对训练集中乐音信号的处理,生成判决树,判决树中每个节点为一个判决条件,判决条件训练完成就保持不变,便于编码的实现,分类算法处理时间少、复杂度小,不需要每次读入训练集,进而大大减少了存储量;在乐音信号的高频重建过程中,重建模式CT-SBR和hSBR间切换将产生切换噪声,为了抑制切换噪声,对分类结果进行平滑处理,进而限制分类结果的频繁切换。

【技术实现步骤摘要】
一种选择编码模式的方法及装置
本专利技术属于数据处理领域,尤其涉及一种选择编码模式的方法及装置。
技术介绍
语音信号和乐音信号在编码压缩中通常采用不同的建模方式,语音信号通常基于人的发声模型,采用线性预测的方式进行编码;与此相对,乐音信号则通常利用人耳的听觉遮掩效应,采用变换域编码的方式。实际使用过程中通常存在语音信号和乐音信号交替出现或同时出现的场合,这样单一的编码方式必将对编码后的音质产生巨大影响。针对这种不足,动态图像专家组(MovingPicturesExpertsGroup,MPEG)提出了联合语音乐音编码(UnifiedSpeechAudioCoding,USAC)标准。USAC编码标准联合了当前最佳的语音编码标准AMR-WB+及当前最佳的乐音编码标准AAC+作为其核心编码器,同时,对输入信号的高频部分采用频段复制编码技术(CodingThechnologySpectralBandReplication,CT-SBR)或谐和频段复制(HarmonicSpectralBandReplication,hSBR)的高频重建方式。在USAC编码标准中,其首先对输入信号的类型进行判断,然后根据判断的结果分别采用不同的压缩编码方式,当输入信号为语音信号时,将采用AMR-WB+方式,当输入信号为音乐信号时,则采用AAC+的方式。因此,准确的语音/音乐分类算法将对USAC的编码音质产生至关重要的影响。通常CT-SBR高频重建方式适合于语音信号,而hSBR更适合于乐音信号。乐音信号的谐波结构明显比语音信号的好,对于谐波结构比较好的乐音信号来说,若用CT-SBR算法进行高频重建的话,会在分频频率处产生噪声,从而影响音质。为此,USAC编码标准中针对谐波结构比较好的乐音信号信号引入了另一种频带扩展方法-hSBR。此方法很好的解决了上述存在的问题。然而,研究中我们发现:并不是所有类型的乐音信号都具有良好的谐波结构,例如:以管或弦等发声的乐音信号通常具有丰富的谐波结构,但以打击或敲击发声的乐音信号其频谱类似于噪声,则通常没有明显的谐波结构。而USAC编码标准却根据输入信号的分类算法来选择信号的高频重建方式。若输入信号被判断为乐音信号,则统一采用hSBR。这将导致乐音信号中谐波结构不明显的打击乐信号也选择hSBR方式来进行高频重建,从而影响到重建乐音信号的质量。为此,需要对乐音信号进行打击乐和管弦乐的进一步分类。打击乐/管弦乐的分类通常包括两部分:乐音信号特征值提取部分和分类算法部分。总体上,乐音信号特征可分为两大类:时域特征和频域特征。同时,为了更加符合人耳的听觉特性,又提出了Bark域、Mel倒谱等第三类特征值。具体来说,当前已知的特征提取方法有:上升沿检测、MPEG-7特征、基于小波变换的特征值提取、基于Bark域的模糊表、Mel倒谱系数(MFCC)等。分类算法部分现有技术有:决策树,贝叶斯,神经网络,支持向量机,k-临近法,遗传算法,模糊逻辑技术等。虽然现今技术有多种,但是由于各有其特点,某些技术并不适用于USAC平台。支持向量机(SupportVectorMachine,SVM)是一种监督式学习的方法,它广泛的应用于统计分类以及回归分析中。支持向量机属于一般化线性分类器。他们也可以认为是提克洛夫规范化(TikhonovRegularization)方法的一个特例。这族分类器的特点是他们能够同时最小化经验误差与最大化几何边缘区。因此支持向量机也被称为最大边缘区分类器。现有的特征值提取方法主要存在如下缺点:1.MPEG-7的谐波特征值都是基于之前算出的基乐音信号率算出的,一旦基乐音信号率算错或者误差太大,会造成特征值误差过大;2.MPEG-7特征值对于混合的乐音判决效果不好;3.基于Bark域的模糊表经过测试,正确率低于70%,效果不理想。现有的分类算法主要存在如下缺点:1.k-临近每次分类需要读入训练集的所有特征值,不满足系统的实时性要求;2.SVM算法当样本数目很大时,存储和计算耗费资源过多,可能造成较大的处理时间消耗;3.SVM算法的核函数选择需要经过测试,核函数选择不合适会造成维数过大,存储和计算耗时过大。
技术实现思路
本专利技术实施例的目的在于提供一种选择编码模式的方法,旨在解决如何优化特征值的选取、减少特征值的数量、优化判决树的生成、减少在分类结果中的频繁切换。第一方面,一种选择编码模式的方法,所述方法包括:提取乐音信号的3阶梅尔频率cepstrumMFCC系数;根据所述3阶MFCC和迭代二叉树3代ID3判决树对所述乐音信号进行分类,并将分类结果存入一个FIFO数据组,所述FIFO数据组包括buffer1数据组和buffer2数据组;对所述分类结果进行平滑处理,所述平滑处理包括语音和乐音帧间首次切换的初始状态设置、静音帧的处理、分类结果的修正、分类结果切换频度的限制;当分类结果为打击乐时,采用频段复制编码模式CT-SBR编码模式进行高频重建;当分类结果为管弦乐时,采用谐和频段复制编码模式hSBR进行高频重建。结合第一方面,在第一方面的第一种可能的实现方式中,所述提取乐音信号的3阶MFCC,包括:对乐音信号进行分帧,将所述乐音信号的帧长为2048点的单帧均分为两个帧长为1024点的子帧,所述两个子帧的重叠长度为0;利用hanning窗对每一个所述子帧进行加窗;分别对加窗后的两个子帧的进行快速傅立叶变换FFT,使得所述乐音信号从时域映射到频率域,对频率域信号取模,得到所述频率域信号的幅度值;利用一组梅尔频域上线性分布的三角窗滤波器对所述幅度值进行滤波;取滤波后数值的对数,对所述对数做离散余弦DCT变换,得到3阶MFCC。结合第一方面或者第一方面的第一种可能的实现方式,在第一方面的第二种可能的实现方式中,所述根据所述3阶MFCC和迭代二叉树3代ID3判决树对所述乐音信号进行分类,包括:通过训练得到所述ID3判决树的各节点值,使用多层的if-else嵌套对所述3阶MFCC进行判断,每一帧得到一个分类结果。结合第一方面或者第一方面的第一种可能的实现方式或者第一方面的第二种可能的实现方式,在第一方面的第三种可能的实现方式中,所述对所述分类结果进行平滑处理,所述平滑处理包括语音和乐音帧间首次切换的初始状态设置、静音帧的处理、分类结果的修正、分类结果切换频度的限制,包括:初始化所述buffer1数据组﹑buffer2数据组和变量premode,所述变量premode表示前一帧的状态,初始化时设置所述乐音信号所有帧的状态都为管弦乐状态;计算所述buffer1数据组的状态平均值;根据所述状态平均值判断帧状态是否是静音帧;当判断所述帧状态是静音帧时,则将所述buffer2数据组中的所述帧状态修改为前一帧的状态;当判断所述帧状态不是静音帧且所述buffer1数据组中打击乐状态数量占多数时,则将所述buffer2数据组中的所述帧状态修改为打击乐状态;当判断所述帧状态不是静音帧且所述buffer1数据组中管弦乐状态数量占多数时,则将所述buffer2数据组中的所述帧状态修改为管弦乐状态;计算所述buffer2数据组中的状态变换次数,当所述状态变换次数超过一定阈值时,将所述帧状态修改为前一帧状态。结合第一方面或者第一方面的第本文档来自技高网
...
一种选择编码模式的方法及装置

【技术保护点】
一种选择编码模式的方法,其特征在于,所述方法包括:提取乐音信号的3阶梅尔频率cepstrum系数MFCC;根据所述3阶MFCC和迭代二叉树3代ID3判决树对所述乐音信号进行分类,并将分类结果存入一个先入先出FIFO数据组,所述FIFO数据组包括buffer1数据组和buffer2数据组;对所述分类结果进行平滑处理,所述平滑处理包括语音和乐音帧间首次切换的初始状态设置、静音帧的处理、分类结果的修正、分类结果切换频度的限制;当分类结果为打击乐时,采用频段复制编码模式CT‑SBR编码模式进行高频重建;当分类结果为管弦乐时,采用谐和频段复制编码模式hSBR进行高频重建。

【技术特征摘要】
1.一种选择编码模式的方法,其特征在于,所述方法包括:提取乐音信号的3阶梅尔频率cepstrum系数MFCC;根据所述3阶MFCC和迭代二叉树3代ID3判决树对所述乐音信号进行分类,并将分类结果存入一个先入先出FIFO数据组,所述FIFO数据组包括buffer1数据组和buffer2数据组;对所述分类结果进行平滑处理,所述平滑处理包括语音和乐音帧间首次切换的初始状态设置、静音帧的处理、分类结果的修正、分类结果切换频度的限制;当分类结果为打击乐时,采用频段复制编码模式CT-SBR编码模式进行高频重建;当分类结果为管弦乐时,采用谐和频段复制编码模式hSBR进行高频重建。2.根据权利要求1所述的方法,其特征在于,所述提取乐音信号的3阶MFCC,包括:对乐音信号进行分帧,将所述乐音信号的帧长为2048点的单帧均分为两个帧长为1024点的子帧,所述两个子帧的重叠长度为0;利用hanning窗对每一个所述子帧进行加窗;分别对加窗后的两个子帧的进行快速傅立叶变换FFT,使得所述乐音信号从时域映射到频率域,对频率域信号取模,得到所述频率域信号的幅度值;利用一组梅尔频域上线性分布的三角窗滤波器对所述幅度值进行滤波;取滤波后数值的对数,对所述对数做离散余弦变换DCT,得到3阶MFCC。3.根据权利要求1或2所述的方法,其特征在于,所述根据所述3阶MFCC和迭代二叉树3代ID3判决树对所述乐音信号进行分类,包括:通过训练得到ID3判决树的各节点值,使用多层的if-else嵌套对所述3阶MFCC进行判断,每一帧得到一个分类结果。4.根据权利要求3所述的方法,其特征在于,所述对所述分类结果进行平滑处理,所述平滑处理包括语音和乐音帧间首次切换的初始状态设置、静音帧的处理、分类结果的修正、分类结果切换频度的限制,包括:初始化所述buffer1数据组﹑buffer2数据组和变量premode,所述变量premode表示前一帧的状态,初始化时设置所述乐音信号所有帧的状态都为管弦乐状态;计算所述buffer1数据组的状态平均值;根据所述状态平均值判断当前计算帧状态是否是静音帧;当判断所述当前计算帧状态是静音帧时,则将所述buffer2数据组中的所述帧状态修改为前一帧的状态;当判断所述当前计算帧状态不是静音帧且所述buffer1数据组中打击乐状态数量占多数时,则将所述buffer2数据组中的所述帧状态修改为打击乐状态;当判断所述当前计算帧状态不是静音帧且所述buffer1数据组中管弦乐状态数量占多数时,则将所述buffer2数据组中的所述帧状态修改为管弦乐状态;计算所述buffer2数据组中的状态变换次数,当所述当前计算帧状态变换次数超过一定阈值时,将所述当前...

【专利技术属性】
技术研发人员:肖玮王月明陆桢骐蒋三新刘佩林应忍冬
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1