一种选择编码模式的方法及装置制造方法及图纸

技术编号：10552360 阅读：151 留言：0更新日期：2014-10-22 10:45

本发明专利技术实施例公开了一种选择编码模式的方法及装置，通过对乐音信号进行分类，当分类结果为打击乐时，采用频段复制编码模式进行高频重建，当分类结果为管弦乐时，采用谐和频段复制编码模式进行高频重建，通过提取乐音信号的3阶MFCC，优化特征值的组合，减少特征值的个数，简化特征值的计算，也因为特征值数量少进而降低分类判断的计算量；在分类算法中，通过训练部分程序对训练集中乐音信号的处理，生成判决树，判决树中每个节点为一个判决条件，判决条件训练完成就保持不变，便于编码的实现，分类算法处理时间少、复杂度小，不需要每次读入训练集，进而大大减少了存储量；在乐音信号的高频重建过程中，重建模式CT-SBR和hSBR间切换将产生切换噪声，为了抑制切换噪声，对分类结果进行平滑处理，进而限制分类结果的频繁切换。

全部详细技术资料下载

【技术实现步骤摘要】
一种选择编码模式的方法及装置
本专利技术属于数据处理领域，尤其涉及一种选择编码模式的方法及装置。
技术介绍
语音信号和乐音信号在编码压缩中通常采用不同的建模方式，语音信号通常基于人的发声模型，采用线性预测的方式进行编码；与此相对，乐音信号则通常利用人耳的听觉遮掩效应，采用变换域编码的方式。实际使用过程中通常存在语音信号和乐音信号交替出现或同时出现的场合，这样单一的编码方式必将对编码后的音质产生巨大影响。针对这种不足，动态图像专家组(MovingPicturesExpertsGroup，MPEG)提出了联合语音乐音编码(UnifiedSpeechAudioCoding，USAC)标准。USAC编码标准联合了当前最佳的语音编码标准AMR-WB+及当前最佳的乐音编码标准AAC+作为其核心编码器，同时，对输入信号的高频部分采用频段复制编码技术(CodingThechnologySpectralBandReplication，CT-SBR)或谐和频段复制(HarmonicSpectralBandReplication，hSBR)的高频重建方式。在USAC编码标准中，其首先对输入信号的类型进行判断，然后根据判断的结果分别采用不同的压缩编码方式，当输入信号为语音信号时，将采用AMR-WB+方式，当输入信号为音乐信号时，则采用AAC+的方式。因此，准确的语音/音乐分类算法将对USAC的编码音质产生至关重要的影响。通常CT-SBR高频重建方式适合于语音信号，而hSBR更适合于乐音信号。乐音信号的谐波结构明显比语音信号的好，对于谐波结构比较好的乐音信号来说，若用CT-SBR算...
一种选择编码模式的方法及装置

【技术保护点】
一种选择编码模式的方法，其特征在于，所述方法包括：提取乐音信号的3阶梅尔频率cepstrum系数MFCC；根据所述3阶MFCC和迭代二叉树3代ID3判决树对所述乐音信号进行分类，并将分类结果存入一个先入先出FIFO数据组，所述FIFO数据组包括buffer1数据组和buffer2数据组；对所述分类结果进行平滑处理，所述平滑处理包括语音和乐音帧间首次切换的初始状态设置、静音帧的处理、分类结果的修正、分类结果切换频度的限制；当分类结果为打击乐时，采用频段复制编码模式CT‑SBR编码模式进行高频重建；当分类结果为管弦乐时，采用谐和频段复制编码模式hSBR进行高频重建。

【技术特征摘要】
1.一种选择编码模式的方法，其特征在于，所述方法包括：提取乐音信号的3阶梅尔频率cepstrum系数MFCC；根据所述3阶MFCC和迭代二叉树3代ID3判决树对所述乐音信号进行分类，并将分类结果存入一个先入先出FIFO数据组，所述FIFO数据组包括buffer1数据组和buffer2数据组；对所述分类结果进行平滑处理，所述平滑处理包括语音和乐音帧间首次切换的初始状态设置、静音帧的处理、分类结果的修正、分类结果切换频度的限制；当分类结果为打击乐时，采用频段复制编码模式CT-SBR编码模式进行高频重建；当分类结果为管弦乐时，采用谐和频段复制编码模式hSBR进行高频重建。2.根据权利要求1所述的方法，其特征在于，所述提取乐音信号的3阶MFCC，包括：对乐音信号进行分帧，将所述乐音信号的帧长为2048点的单帧均分为两个帧长为1024点的子帧，所述两个子帧的重叠长度为0；利用hanning窗对每一个所述子帧进行加窗；分别对加窗后的两个子帧的进行快速傅立叶变换FFT，使得所述乐音信号从时域映射到频率域，对频率域信号取模，得到所述频率域信号的幅度值；利用一组梅尔频域上线性分布的三角窗滤波器对所述幅度值进行滤波；取滤波后数值的对数，对所述对数做离散余弦变换DCT，得到3阶MFCC。3.根据权利要求1或2所述的方法，其特征在于，所述根据所述3阶MFCC和迭代二叉树3代ID3判决树对所述乐音信号进行分类，包括：通过训练得到ID3判决树的各节点值，使用多层的if-else嵌套对所述3阶MFCC进行判断，每一帧得到一个分类结果。4.根据权利要求3所述的方法，其特征在于，所述对所述分类结果进行平滑处理，所述平滑处理包括语音和乐音帧间首次切换的初始状态设置、静音帧的处理、分类结果的修正、分类结果切换频度的限制，包括：初始化所述buffer1数据组﹑buffer2数据组和变量premode，所述变量premode表示前一帧的状态，初始化时设置所述乐音信号所有帧的状态都为管弦乐状态；计算所述buffer1数据组的状态平均值；根据所述状态平均值判断当前计算帧状态是否是静音帧；当判断所述当前计算帧状态是静音帧时，则将所述buffer2数据组中的所述帧状态修改为前一帧的状态；当判断所述当前计算帧状态不是静音帧且所述buffer1数据组中打击乐状态数量占多数时，则将所述buffer2数据组中的所述帧状态修改为打击乐状态；当判断所述当前计算帧状态不是静音帧且所述buffer1数据组中管弦乐状态数量占多数时，则将所述buffer2数据组中的所述帧状态修改为管弦乐状态；计算所述buffer2数据组中的状态变换次数，当所述当前计算帧状态变换次数超过一定阈值时，将所述当前...

【专利技术属性】
技术研发人员：肖玮，王月明，陆桢骐，蒋三新，刘佩林，应忍冬，
申请(专利权)人：华为技术有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人