一种以降低的比特率编码数字音频数据的方法及装置,该装置包含提供器,提供具有高于该降低的比特率的比特率的心理听觉量化数字音频数据。该装置进一步包含识别器,可根据选择准则来识别频段,该选择准使得:当被识别的频段中的数据被所产生的噪声取代时对该数字音频数据的影响小于当不同频段中的数据被所产生的噪声取代时对该数字音频数据的影响。该装置进一步包含置换器,用于以噪声综合参数取代数字音频数据的识别频段中的数据,该噪声综合参数需要比该识别频段中的数据要少的数据量,该数字音频数据具有降低的比特率。
【技术实现步骤摘要】
【国外来华专利技术】
本专利技术涉及使用如先进音频编码的耗损压縮算法达成低比特率,编码 数字音频数据并保持高音频数据质量的领域。
技术介绍
如MPEG-4 AAC(MPEG 二运动图像专家群组,MC =先进音频编码)或 MP3(MPEG层3)的感知数字音频压縮原理造就现代数字生活方式。典型地, 目前技术水平的音频压縮系统系使用时间-频率变换函数,如修正离散余 弦变换(MDCT),可分割由多个频谱系数形成的频段中的信号,及以适当量 化算法量化这些被分组的系数,随后以如Huffman编码的若干熵编码方法 来先进编码这些系数。该修正离散余弦变换为具有附加重迭特性的富利叶相关变换,也就是 其被设计于在较大数据组的连续块上执行,其中连续块是重迭的,使得一 块的后半部分与下一块的前半部分重合。除了离散余弦变换的能量压縮质 量之外,因为此重迭有助于避免块边界所产生的假像(artifact),所以 其亦使该修正离散余弦变换对于信号压縮应用尤其具有吸引力。因此,修 正离散余弦变换被运用于如MP3及先进音频编码中。不幸地,在非常低比特率、也就是高压縮的要求下,编码系统无选择 地只有关闭频段,也就是以静音取代它们。此方法被用来满足编解码器的 编码需求。此产生频谱上的洞,其特别恼人,且其为音频编码假像的最大 贡献者。图8显示典型目前技术水平音频编码器,用于被PCM (脉冲编码调制) 编码并输入至滤波器组810和感知模型815的输入信号。该输入信号由滤 波器组810从时域变换至频域,其通常以如修正离散余弦变换的公知信号 变换函数为基础。该滤波器组的输出为频率系数。该信号同时被感知模型815评估,该感知模型通过对人类听觉系统进行数学建模来评估该输入信号,并输出如以信号掩蔽比(SMR)为单位的表示该输入信号能量对正好察觉失真或噪声能量的正好察觉失真(JND)测图8所示目前技术水平编码器中的感知模型块815及剩余块,通过对 被称作定标因子频段中的频率系数进行分组,来处理与人类听觉系统临界 频宽成比例的滤波器组块810的输出。T. Painter及A. Spanias于2000 年4月,IEEE会议记录第451-513页Perc印tual Coding of Digital Audio中可找到感知模型的良好摘要。可通过频率系数的量化来满足目标压縮要求。量化之前,该系数由所 谓的定标因子来定标,以决定该量化处理的最终精确度。比特/噪声分配 块820负责估测或计算该定标因子,以重建该量化值,从而产生刚好低于 感知模型所估测的掩蔽阈值的量化噪声。特定情况下,感知模型815标示 特定频段为噪声状,且可通过解码器侧上的特定能量产生噪声而建模。针 对这些频段,无需决定定标因子或频率系数,而替代地插入解码器侧的噪 声发生器的参数。因为噪声发生器的参数较定标因子及频率系数占据较少 量数据,所以可通过将所产生的噪声取代频段来节省数据率。该取代对解 码音频数据质量的影响被保持在由感知模型所决定的边界中。例如,将被 取代的频段一定不超过特定的音调阈值,其亦不包含任何瞬变信号。决定 噪声替代的阈值视感知模型而定。例如,IS0/IEC 14496中描述了作为先 进音频编码的特征的感知噪声替代。用于若干感知编解码器中的先进编码方法,被称作感知噪声替代 (PNS),其良好摘要可在Herrer, Jurgen, Schultes, Donald于AES文献 4720的Extending the MPEG-4 MC Codec by Perc印tual Noise Substitution中找到。图8中的比特分配块820之后,量化块825中进行量化,产生量化频 率系数,被输入无关(irrelevancy)降低块830。该无关降低块830运用 来自信号理论的公知的信号无关降低方法。例如,Huffman编码、向量量 化或算术编码是用于信号无关降低的公知方法。例如,在K. Brandenburg 的MP3 and MC Explained in proceedings of the AES 17th International Conference on High-Quality Audio Coding, 1999中可找到这些方法的概述。为了达成目标编码需求,如压縮信号的给定比特率,目前技术水平的 编解码器可通过增加心理听觉模型或感知模型所规定的噪声许可量来降低编码需求。参考图8,该编码需求被验证于块835中,而若该编码需求 不被满足,则在降低块840中进一步降低比特需求,该编码算法回到比特 /噪声分配块820。若达成该编码需求,比特流多路复用块845对编码的量 化频率系数和编码的定标因子进行多路复用,形成编码的比特流。若该编码需求不被满足且比特需求被进一步降低,则额外噪声被引入 该信号中。当所允许的噪声增大时,该定标因子亦被增大,而量化信号的 分辨率被减低,从而降低比特需求。量化分辨率可降低至当噪声大于信号 本身时的点,可能的含义是定标因子的量化块输出将为零。此可有效地将 烧孔插入频谱中应出现定标因子的信号处。只要该编码的量化系数的传输 /储存需求低于施加给编码器的约束,则此操作可被迭代重复。与图8的 流程图相较,即使设定所有量化输出为零,此操作也可总是成功地终止。同时,有了上述目前技术水平方法,假设可对编解码器约束而不需在 该约束的降低阶段中过多消除定标因子,编码需求可被有效维持且运作相 当好。若编码器的编码需求被设定过高,则该方法可能不利地失败。这通常发生于若所需比特率低于感知模型的要求的情况下。非最佳编 解码器通常因关闭过多定标因子以满足编码约束而引入大量的烧孔。频谱 烧孔或关闭通常可轻易地被收听者发觉,且其对听觉质量的恶化有很大影 响。包含频谱烧孔的信号通常被分类为响声、嗖嗖声、鸟叫声等。例如,可在3GPP(3GPP二第三代伙伴计划),TS (TS:技术规格)26. 403 中找到的最佳目前技术水平的编解码器,运用通常被称为烧孔避免(hole avoidance)的更具优势的编码约束降低策略。此策略通过对每一个定标 因子施加最大约束降低限制而工作。只要可降低所有定标因子的编码约束 而不违反此限制并且维持被施加到该编码器的约束,便可确保该定标因子 中不会引入任何烧孔。然而,即使有此先进策略,该编码约束仍非常可能 不被满足,在此情况下,编码器不具有其它选择,通过消除定标因子而开 始引入频谱烧孔(spectral hole)。图9显示100Hz至15kHz范围中的两个编解码器信号的频谱图。所示编解码器为32kbps,其对应于44: 1的压縮比,以及320 kbps,其对应 于4.4: l的压縮比。从图9可轻易看到,该32kbps编解码器被迫引入频 谱烧孔来满足编码需求,且可看到上频率范围中的剧烈恶化。
技术实现思路
本专利技术的目的是提供不向信号中引入频谱烧孔、并以降低比特率对数 字音频数据进行编码的装置及方法。此目的通过一种以降低比特率对数字音频数据进行编码的装置来达成,该装置包含具有高于该降低比特率的比特率的心理听觉量化数字音 频数据的提供器;以及识别器,用于根据选择准则来识别频段,该选择准 使得当被识别的频段中的数据被所产生的噪声取代时对该数字音频数据 的影响小于当不同频段中的数本文档来自技高网...
【技术保护点】
一种以降低的比特率对数字音频数据进行编码的装置,包含: 提供器,提供具有高于该降低的比特率的比特率的心理听觉量化数字音频数据; 识别器,可根据选择准则来识别频段,该选择准则使得:当被识别的频段中的数据被所产生的噪声取代时对该数字 音频数据质量的影响小于当不同频段中的数据被所产生的噪声取代时对该数字音频数据质量的影响,以及 置换器,用于以噪声综合参数取代数字音频数据的识别频段中的数据,该噪声综合参数需要比该识别频段中的数据要少的数据量,该数字音频数据具有降低的比 特率。
【技术特征摘要】
【国外来华专利技术】US 2006-4-24 60/745,4991. 一种以降低的比特率对数字音频数据进行编码的装置,包含提供器,提供具有高于该降低的比特率的比特率的心理听觉量化数字音频数据;识别器,可根据选择准则来识别频段,该选择准则使得当被识别的频段中的数据被所产生的噪声取代时对该数字音频数据质量的影响小于当不同频段中的数据被所产生的噪声取代时对该数字音频数据质量的影响,以及置换器,用于以噪声综合参数取代数字音频数据的识别频段中的数据,该噪声综合参数需要比该识别频段中的数据要少的数据量,该数字音频数据具有降低的比特率。2. 如权利要求1所述的装置,其中该提供器适用于针对每频段来提供 心理听觉量化数字音频数据,该频段可由滤波器组中的滤波器来决定。3. 如权利要求1所述的装置,进一步包含熵编码器,用于对具有降低 的比特率的数字音频数据进行编码。4 如权利要求1至3之一所述的装置,其中该心理听觉编码的数字数据包含熵编码的量化频谱数据,而且其中该提供器包含熵解码器,该熵解 码器用于对该心理听觉编码的数字音频数据进行熵解码,以提供该心理听 觉量化频谱数据,而且其中该识别器和该置换器可操作以处理该熵解码的 心理听觉量化数字音频数据。5. 如权利要求1至4之一所述的装置,其中该提供器包含噪声替代处 理,用于以该噪声替代处理的插入参数取代在事先选择频段中的频谱数 据,该事先选择频段由事先选择准则来识别,执行该噪声替代处理以取代 对数字音频数据进行心理听觉量化。6. 如权利要求5所述的装置,其中该提供器包含事先分析器,用于根 据该事先选择准则分析数字音频数据,以事先选择用于插入噪声替代参数 的频段。7. 如权利要求1至6之一所述的装置,其中该识别器包含事后分析器, 用于根据该选择准则分析频段中的心理听觉量化数据,以识别用于心理听觉量化数据替代的该频段。8. 如权利要求5至7之一...
【专利技术属性】
技术研发人员:吉安卡罗帕斯库托,伊万蒂姆科维奇,
申请(专利权)人:尼禄股份公司,
类型:发明
国别省市:DE[德国]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。