音频解码器和编码器、提供解码的音频信号的方法、提供编码的音频信号的方法、使用流标识符的音频流、音频流提供器和计算机程序技术

技术编号:39415564 阅读:9 留言:0更新日期:2023-11-19 16:06
公开了用于基于编码的音频信号表示来提供解码的音频信号表示的音频解码器,其被配置为根据配置信息调整解码参数,并使用当前配置信息解码一个或多个音频帧。音频解码器被配置为将与要解码的一个或多个帧相关联的配置结构中的配置信息与当前配置信息进行比较,并且如果配置结构中的配置信息、或者配置结构中的配置信息的相关部分与当前配置信息不同,则进行转换以使用配置结构中的配置信息作为新配置信息来进行解码。音频解码器被配置为当比较配置信息时考虑包括在配置结构中的流标识符信息,使得先前由音频解码器获取的流标识符和配置结构中的流标识符信息表示的流标识符之间的差异导致进行所述转换。还公开了对应的方法和计算机程序。法和计算机程序。法和计算机程序。

【技术实现步骤摘要】
音频解码器和编码器、提供解码的音频信号的方法、提供编码的音频信号的方法、使用流标识符的音频流、音频流提供器和计算机程序
[0001]本申请是申请日为2018年1月10日、国际申请号为PCT/EP2018/050575、中国申请号为“201880017357.7”、专利技术名称为“音频解码器、音频编码器、提供解码的音频信号的方法、提供编码的音频信号的方法、使用流标识符的音频流、音频流提供器和计算机程序”的申请的分案申请。


[0002]根据本专利技术的实施例涉及一种基于编码的音频信号表示来提供解码的音频信号表示的音频解码器。
[0003]根据本专利技术的其他实施例涉及一种提供编码的音频信号表示的音频编码器。
[0004]根据本专利技术的其他实施例涉及一种提供解码的音频信号表示的方法。
[0005]根据本专利技术的其他实施例涉及一种提供编码的音频信号表示的方法。
[0006]根据本专利技术的其他实施例涉及音频流。
[0007]根据本专利技术的其他实施例涉及音频流提供器。
[0008]根据本专利技术的其他实施例涉及执行这些方法之一的计算机程序。

技术介绍

[0009]在下文中,将描述本专利技术各个方面背后的问题和根据本专利技术的实施例的可能的使用场景。
[0010]存在在不同音频流之间或不同编码的音频帧序列之间转换的情况。例如,不同的音频帧序列可以包括不同的音频内容,在这些音频内容之间应该进行转换。
[0011]例如,当在自适应流式传输用例中采用MPEG

D USAC(ISO/IEC 23003

3+Amd.1+Amd.2+Amd.3)时,可能发生所谓的自适应集合(例如,其可以使用户可以在其中切换的两个或更多个流形成组)内的两个流具有完全相同的配置结构(即使它们的比特率不同)的情况。例如,如果编码器仅选择使用针对两种比特率设置的完全相同的编码工具来操作编码器,则会发生这种情况。
[0012]例如,音频编码器可以使用相同的基本编码设置(其也被发信号通知给音频解码器),但是仍然可以提供音频值的不同表示。例如,当希望实现较低的比特率时,即使基本编码器设置或解码器设置保持不变,音频编码器也可以使用较粗略的频谱值量化,这导致较小的比特需求。
[0013]然而,这(例如,即使自适应集合内的两个流的比特率不同,这两个流具有完全相同的配置结构的情况的出现)也不是问题。
[0014]然而,已经发现,在自适应流式传输用例中,解码器应该知道随后接收的接入单元(或“帧”)是否源自相同的流或者是否发生了流改变。
[0015]已经发现,如果已经检测到流的改变,则音频解码器将在某些情况下运行指定的
操作步骤序列,以确保以下步骤:
[0016]·
正确关闭一个解码器实例,并将临时内部存储的解码的信号部分馈送到解码器输出——称为“刷新”的过程。
[0017]·
解码器将使用与改变的流相关联的配置信息重新实例化并重新配置自身。
[0018]·
解码器将“预滚动”嵌入式接入单元,这些接入单元搭载在立即播出帧(IPF)中。这种接入单元的预滚动使解码器处于完全初始化状态,使得解码第一帧的输出产生完全兼容的解码的音频信号。
[0019]·
可选地,例如,取决于相应的比特流信令元素,来自解码器刷新过程的音频输出和来自解码重新配置的解码器的第一接入单元的输出在很短的时间段内淡入淡出。
[0020]例如,可以运行所有上述步骤以实现获得从一个流的解码的音频到另一个流的解码的音频的“无缝”转换的唯一目标。“无缝”意味着流转换本身没有可听见的伪声和小故障。事实上,流转换可能在感知上是显而易见的,因为——例如——整体编码质量或音频带宽或音色的变化。然而,转换的实际点(时间点)本身不会引起听觉印象。换句话说,在转换点没有“点击”或“噪声突发”或类似的令人不安的声音。
[0021]已经发现,可以通过分析嵌入在立即播出帧中的配置结构并将其与当前解码的流的配置进行比较来获得是否已经发生流改变的信息。例如,当且仅当接收的配置与当前配置不同时,音频解码器才可以假设流的改变。
[0022]例如,如果解码器接收具有变化比特率的流的立即播出帧(IPF),则解码器检测音频预滚动扩展有效载荷的存在,提取配置结构并进行该新配置和当前配置之间的比较。有关更多详细信息,另请参见ISO/IEC 23003

3:2012/Amd.3,子条款“比特率自适应”。
[0023]然而,已经发现,如果当前配置结构和新配置结构两者相同,则解码器将无法识别出它正在从与之前不同的流中接收接入单元,因此将既不重新配置解码器且解码器也不会解码驻留在IPF的扩展有效载荷中的音频预滚动。
[0024]相反,解码器将尝试继续解码,就像其已从先前活跃流接收到继续的接入单元一样。这将(例如,在没有使用或评估streamI D的传统情况下)导致窗口边界和最后解码的帧的编码模式与新流的新帧不对应的可能情况,这继而又导致听觉伪音,如咔嗒声或噪音突发。这将挫败IPF的主要目的和自适应音频流传输理念,该理念基于流之间无缝转换的概念。
[0025]在下文中,将描述一些传统方法。
[0026]应该注意,对于统一语音和音频编码(USAC),没有已知的解决方案。
[0027]在MPEG

H 3D音频(ISO/IEC 23008

3+所有修改)中,如果通过MPEG

H音频流(“MHAS”)打包流格式来发送音频数据,则可以解决该问题。MHAS包包含了可以在流之间不同的分组标签,因此可以用于区分配置。但是,没有针对MPEG

D USAC指定MHAS格式。
[0028]在MPEG

4HE

AAC(ISO/IEC 14496

3+所有修改)中,有一种解决方法需要编码器确保在潜在的转换点(所谓的流接入点(SAP))处所有流都具有相同的窗口形状和窗口序列以及针对所采用的信号处理工具的其他约束。这会对最终的音频质量产生不利影响。上面提到的I PF的设计完全是为了释放新编解码器的所有这些约束。
[0029]总之,需要一种允许在不同音频流之间进行切换的概念,并且该概念在开销量和易于实现之间提供了改进的折衷。

技术实现思路

[0030]根据本专利技术的实施例创建了一种音频解码器,用于根据编码的音频信号表示来提供解码的音频信号表示。音频解码器被配置为根据配置信息调整解码参数。音频解码器被配置为使用当前配置(例如,使用当前活动的配置信息)解码一个或多个音频帧。此外,音频解码器被配置为将与要解码的一个或多个帧相关联的配置结构中的配置信息与当前配置信息进行比较,并且如果与要解码的一个或多个帧相关联的配置结构中的配置信息、或者与要解码的一个或多个帧相关联的配置结构中的配置信息的相关部分(例如,直到并且包本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于基于编码的音频信号表示(110;210;312;412;550;600;700;800)来提供解码的音频信号表示(112;212)的音频解码器(100;200),其中,所述音频解码器被配置为根据配置信息(110a;222c;332;424;1010,1030)调整解码参数,其中所述音频解码器被配置为使用当前配置信息(140;240)解码一个或多个音频帧,以及其中所述音频解码器被配置为将与要解码的一个或多个帧(222)相关联的配置结构中的配置信息(110a;222c;332;424;1010,1030)与当前配置信息(140;240)进行比较,并且如果与要解码的所述一个或多个帧相关联的所述配置结构中的配置信息、或者与要解码的所述一个或多个帧相关联的所述配置结构中的配置信息的相关部分(1020a,1020b,1022a,1024a,1024b,1026a,1050a)与所述当前配置信息不同,则进行转换以使用与要解码的所述一个或多个帧相关联的所述配置结构中的配置信息作为新配置信息来进行解码;其中所述音频解码器被配置为在比较所述配置信息时考虑包括在所述配置结构中的流标识符信息(230;streamlD,1050a,streamldentifier),使得先前由所述音频解码器获取的流标识符和与要解码的所述一个或多个帧相关联的所述配置结构中的流标识符信息表示的流标识符之间的差异导致进行所述转换。2.根据权利要求1所述的音频解码器,其中,所述音频解码器被配置为检查所述配置结构是否包括所述流标识符信息(230;streamlD,1050a,streamldentifier),并且如果所述流标识符信息被包括在所述配置结构中,则在所述比较中选择性地考虑所述流标识符信息(222c;1010,1030)。3.根据权利要求1或2所述的音频解码器,其中,所述音频解码器被配置为检查所述配置结构(222c;1010,1030)是否包括配置扩展结构(226;1030),并检查所述配置扩展结构是否包括所述流标识符信息(230;streamID,1050a,streamIdentifier),以及其中,所述音频解码器被配置为如果所述流标识符信息被包括在所述配置扩展结构中,则在所述比较中选择性地考虑所述流标识符信息。4.根据权利要求3所述的音频解码器,其中,所述音频解码器被配置为接受所述配置扩展结构(226;1030;UsacConfigExtension())中的配置信息项(1046a,1048a,1050a)的可变排序,以及其中,所述音频解码器被配置为:当将与要解码的一个或多个帧相关联的所述配置结构中的所述配置信息与所述当前配置信息(140;240)进行比较时,考虑在所述配置扩展结构中布置在所述流标识符信息(230;streamID,1050a,streamIdentifier)之前的配置信息项,以及其中,所述音频解码器被配置为:在将与要解码的一个或多个帧相关联的所述配置结构中的所述配置信息与所述当前配置信息进行比较时,不考虑在所述配置扩展结构中布置在所述流标识符信息之后的配置信息项。5.根据权利要求4所述的音频解码器,其中,所述音频解码器被配置为基于相应配置信息项之前的一个或多个配置扩展类型标识符(1042)来识别所述配置扩展结构中的一个或多个配置信息项(1046a,1048a,1050a)。
6.根据权利要求3至5中任一项所述的音频解码器,其中,所述配置扩展结构(226;1030)是所述配置结构(222c;1010,1030)的子数据结构,其中所述配置扩展结构的存在由所述音频解码器评估的所述配置结构(222c;1010,1030)的比特(UsacConfigExtensionPresent)来指示,以及其中,所述流标识符信息(230;streamID,1050a,streamIdentifier)是所述配置扩展结构的子数据项,其中,所述流标识符信息的存在由所述音频解码器评估的与流标识符信息相关联的配置扩展类型标识符(1042)来指示。7.根据权利要求1至6中任一项所述的音频解码器,其中所述音频解码器被配置为获得并处理包括随机接入信息(222b)的音频帧表示,其中,随机接入信息包括配置结构(222c;1010,1030)和用于使所述音频解码器的处理链状态处于所需状态的信息(222d;AccessU nit()),其中,所述音频解码器被配置为:如果所述音频解码器发现所述随机接入信息的配置结构(222c)中的配置信息、或者所述随机接入信息的配置结构中的配置信息的相关部分与所述当前配置信息(240)不同,则在使用所述随机接入信息的配置结构(222c)初始化所述音频解码器之后以及在使用用于使处理链状态处于所需状态的信息(222d)来调整所述音频解码器的状态之后,在由在到达包括所述随机接入信息的音频帧表示之前处理的音频帧(220)所表示的音频信息(272)和基于包括所述随机接入信息的音频帧表示(222)而获得的音频信息(276)之间进行淡入淡出。8.根据权利要求7所述的音频解码器,其中,所述音频解码器被配置为:如果所述音频解码器已经解码了紧接在由包括所述随机接入信息的音频帧表示所表示的音频帧之前的音频帧,以及如果所述音频解码器发现所述随机接入信息的所述配置结构中的所述配置信息(222c)的相关部分与所述当前配置信息(240)相同,则继续进行解码,而不执行所述音频解码器的初始化以及不使用使所述音频解码器的处理链状态处于期望状态的信息(222d)。9.根据权利要求7或8所述的音频解码器,其中,所述音频解码器被配置为:如果所述音频解码器尚未解码紧接在由包括所述随机接入信息的音频帧表示所表示的音频帧之前的音频帧,则使用所述随机接入信息的所述配置结构(222c)执行所述音频解码器的初始化。10.一种音频编码器(300),用于提供编码的音频信号表示(110;210;312;412;550;600;700;800),其中所述音频编码器被配置为使用编码参数对音频信号(310)的重叠或非重叠帧进行编码,以获得编码的音频信号表示,其中音频编码器被配置为提供描述了所述编码参数或音频解码器要使用的解码参数的配置结构(110a;222c;332;424;1010,1030),其中所述配置结构包括流标识符(230;streamID,1050a,streamIdentifier)。11.根据权利要求10所述的音频编码器,其中,所述音频编码器被配置为在所述配置结构(222c;1010)的配置扩展结构(226;1030;UsacConfigExtension())中包括所述流标识符(230;streamID,1050a,streamIdentifier),其中包括所述流标识符的所述配置扩展结构能够由所述音频编码器启用和禁用。12.根据权利要求11所述的音频编码器,其中,所述音频编码器被配置为在所述配置扩
展结构中(226;1030;UsacConfigExtension())中包括指定所述流标识符的配置扩展类型标识符(1042),以发信号通知在所述配置扩展结构中存在所述流标识符(230;streamlD,1050a,streamIdentifier)。13.根据权利要求10至12中任一项所述的音频编码器,其中,所述音频编码器被配置为提供包括所述流标识符的至少一个配置结构(222c;1010,1030)和不包括所述流标识符的至少一个配置结构。14.根据权利要求10至13中任一项所述的音频编码器,其中,所述音频编码器被配置为在由第一音频帧序列表示的第一编码音频信息(552;710,720;810)和由第二音频帧序列表示的第二编码音频信息(554;730,740,750;820)的提供之间进行切换,其中,在呈现所述第一音频帧序列的最后帧(720;810e)之后正确地呈现所述第二音频帧序列的第一音频帧(730;820a)需要重新初始化音频解码器;其中,所述音频编码器被配置为在表示所述第二音频帧序列的第一帧的音频帧表示中包括配置结构(222c;1010,1030),所述配置结构包括与所述第二音频帧序列相关联的流标识符(230;streamID,1050a,streamIdentifier),其中,与所述第二音频帧序列相关联的流标识符和与所述第一音频帧序列相关联的流标识符不同。15.根据权利要求10至14中任一项所述的音频编码器,其中,所述音频编码器除了流标识符之外不提供指示从所述第一音频帧序列信息(552;710,720;810)切换到所述第二音频帧序列(554;730,740,750;820)的任何其他信令信息。16.根据权利要求14或15所述的音频编码器,其中,所述音频编码器被配置为使用不同比特率提供所述第一音频帧序列(552;710,720;810)和所述第二音频帧序列(554;730,740,750;820),以及其中所述音频编码器被配置为:向音频解码器发信号通知除了不同的比特流标识符(230;streamlD,1050a,streamldentifier)之...

【专利技术属性】
技术研发人员:马克斯
申请(专利权)人:弗劳恩霍夫应用研究促进协会
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1