用于用户生成内容捕获和自适应渲染的方法、装置和系统制造方法及图纸

技术编号：43948838 阅读：1 留言：0更新日期：2025-01-07 21:37

描述了处理与用户生成内容相关的音频数据的方法。一种方法包括：获得所述音频数据；对所述音频数据应用逐帧音频增强；基于所述逐帧音频增强的一个或多个处理参数来生成所述增强的音频数据的元数据；以及将所述增强的音频数据与所述元数据一起输出。另一种方法包括：获得所述音频数据以及所述音频数据的元数据，其中，所述元数据包括第一元数据，所述第一元数据指示所述音频数据的先前的逐帧音频增强的一个或多个处理参数；使用所述一个或多个处理参数对所述音频数据应用恢复处理，以至少部分地逆转先前的逐帧音频增强；以及对所恢复的原始音频数据应用逐帧音频增强或编辑处理。进一步描述了对应的装置、程序和计算机可读存储介质。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】

本文件涉及用于用户生成内容(ugc)的捕获和自适应渲染的方法、装置和系统。本文件特别涉及移动设备上的ugc内容创建，该ugc内容创建使得在回放期间能够进行自适应渲染，并且涉及回放期间的自适应渲染。

技术介绍

1、最近，ugc已成为在可变环境中分享个人时刻的趋势。ugc多由移动设备记录。由于消费者硬件限制、系统性能要求、捕获方式的多样性以及回放环境，大多数此类内容都会有声音伪影。

2、为了克服硬件限制和记录环境带来的音质问题，可以增强ugc音频以获得更好的收听体验。利用当时可用的信息，可以在捕获期间或捕获之后立即以实时方式来应用某些音频增强。这种增强可以直接应用于音频流并且以实时方式来生成增强的音频流。然后，可以在无需回放设备上特定软件支持的情况下渲染增强的音频。由此，ugc内容创建者可以在不付出额外努力的情况下提高其内容的音频质量，并确保这种增强能在最大程度上对其内容消费者可得。

3、然而，对于进一步增强的音频质量，还有一些依赖实时可用信息之外的额外信息的音频增强。此外，捕获之后的实时增强可能无法与端到端的内容处理和用户体验相兼容。

4、因此，亟需用于ugc捕获和自适应渲染的改进技术。

技术实现思路

1、根据一个方面，提供了一种处理与用户生成内容相关的音频数据的方法。例如，该方法可以由移动设备来执行。该方法可以包括获得音频数据。获得音频数据可以包括或相当于通过合适的捕获设备来捕获音频数据。捕获设备可以是移动设备的一部分，或者可以连接/可连接到移动

2、如上所述进行配置，所提出的方法可以提供适合于由回放设备直接回放的增强的音频数据，而无需由回放设备进行进一步的音频处理。另一方面，该方法还提供增强的音频数据的上下文元数据。该上下文元数据使得可以恢复原始音频，以便通过具有不同(例如，更好)处理能力的回放设备进行额外的/另外的音频增强，或以便使用编辑工具进行音频编辑。由此，根据设备的硬件能力、回放环境、用户特定的设置等，可以以自适应的方式在回放设备处执行渲染。换句话说，提供上下文元数据允许将特定捕获和渲染硬件的特性、特定环境、用户偏好等纳入考虑的从捕获到回放的端到端内容处理，，从而实现音频数据和收听体验的最佳增强。

3、在一些实施例中，对音频数据应用逐帧音频增强可以包括应用以下各项中的至少一项：噪音管理、响度管理、音色管理以及峰值限制。例如，这里噪音管理可以涉及去噪。例如，响度管理可以涉及水平调整和/或动态范围控制。

4、通过这样的处理，增强的音频数据适合于由回放设备直接重放，而无需在回放设备处进行额外的音频处理。因此，由所提出的方法生成的ugc特别适用于由处理能力通常有限的移动设备进行消费，例如，在流式传输框架中用于没有用于读取元数据的特定软件支持的设备。另一方面，如果流式传输框架中的设备具有用于读取元数据的特定软件支持，则可以读取元数据和增强的音频数据，可以使用元数据从增强的音频数据生成/恢复原始音频，并且可以基于原始音频生成进一步增强的音频。

5、在一些实施例中，一个或多个处理参数可以包括在逐帧音频增强期间应用的频带增益和/或全频带增益。频带增益或全频带增益可以包括音频数据的每一帧的相应增益。进一步地，频带增益或全频带增益可以包括所应用的每种类型的增强处理的相应增益。元数据可以包括实际增益或其指示。

6、因此，在一些实施例中，一个或多个处理参数可以包括以下各项中的至少一项：用于噪音管理的频带增益、用于响度管理的全频带增益、用于音色管理的频带增益以及用于峰值限制的全频带增益。了解到这些增益，接收增强的音频数据的设备(例如，回放设备、编辑设备)可以在必要时逆转在捕获之后应用的任何增强处理，以随后应用不同的音频增强和/或音频编辑。

7、在一些实施例中，可以以实时方式来应用逐帧音频增强。即，逐帧音频增强可以是实时逐帧音频增强。以这种方式生成的增强的音频数据将特别适合于流式传输应用等。

8、在一些实施例中，可以进一步基于对音频数据的多个帧的分析的结果来生成元数据。在一些实施例中，对音频数据的多个帧的分析可以产生音频数据的长期统计数据。例如，长期统计数据可以是基于文件的统计数据。另外或可替代地，对音频数据的多个帧的分析可以产生音频数据的一个或多个音频特征。

9、在一些实施例中，音频数据的音频特征可以涉及以下各项中的至少一项：音频数据的内容类型、音频数据的捕获环境的指示、音频数据的信噪比、音频数据的整体响度以及音频数据的频谱形状。例如，音频数据的整体响度可以涉及文件响度。例如，频谱形状可以涉及频谱包络。

10、在元数据中包括这样的额外信息使得接收增强的音频数据和元数据的任何设备能够执行可能无法实时实现的更复杂的音频增强和/或执行适应特定使用情况、环境等的音频增强。

11、在一些实施例中，元数据可以包括基于逐帧音频增强的一个或多个处理参数来生成的第一元数据和基于分析音频数据的多个帧的结果来生成的第二元数据。然后，该方法可以进一步包括编译第一元数据和第二元数据以获得经编译的元数据来作为用于输出的元数据(上下文元数据)。例如，第一元数据可以被称为增强元数据。例如，第二元数据可以被称为长期元数据。

12、根据另一方面，提供了一种处理与用户生成内容相关的音频数据的方法。该方法可以包括获得音频数据。该方法可以进一步包括获得音频数据的元数据。其中，元数据可以包括第一元数据，第一元数据指示音频数据的先前(更早的；例如，捕获侧)逐帧音频增强的一个或多个处理参数。获得音频数据和元数据可以包括或相当于接收包括音频数据和元数据的比特流，包括例如从存储介质取得音频数据和元数据。该方法可以进一步包括使用一个或多个处理参数来对音频数据应用恢复处理，以至少部分地逆转先前的逐帧音频增强，从而获得原始音频数据。该方法还可以进一步包括对原始音频数据应用逐帧音频增强以获得增强的音频数据。另外或可替代地，该方法可以包括对原始音频数据应用编辑处理以获得经编辑的音频数据。

13、通过恢复原始音频数据，重放/编辑设备可以根据其处理能力、用户偏好、回放环境、长期统计数据等来应用音频增强或音频编辑。由此，可以实现端到端内容处理和最佳用户体验。另一方面，如果处理能力不足以进行音频增强，则可以直接渲染接收到的增强的音频数据，而无需额外处理。

14、在一些实施例中，对音频数据应用恢复处理包括应用以下各项中的至少一项：背景音恢复、响度恢复、峰值恢复以及音色恢复。这里，应当理解，根据“噪音”和“背景音”的定义，噪音管理/噪音抑制可以将背景音抑制为噪音。例如，如果语音是主要兴趣本文档来自技高网...

【技术保护点】

1.一种处理与用户生成内容相关的音频数据的方法，所述方法包括：

2.根据权利要求1所述的方法，其中，对所述音频数据应用所述逐帧音频增强包括应用以下各项中的至少一项：

3.根据权利要求1或2所述的方法，其中，所述一个或多个处理参数包括在所述逐帧音频增强期间应用的频带增益和/或全频带增益。

4.根据权利要求1或2所述的方法，其中，所述一个或多个处理参数包括以下各项中的至少一项：

5.根据前述权利要求中任一项所述的方法，其中，所述逐帧音频增强是以实时方式来应用的。

6.根据前述权利要求中任一项所述的方法，其中，所述元数据是进一步基于对所述音频数据的多个帧的分析的结果来生成的。

7.根据权利要求6所述的方法，其中，所述对所述音频数据的多个帧的分析产生所述音频数据的长期统计数据。

8.根据权利要求6或7所述的方法，其中，所述对所述音频数据的多个帧的分析产生所述音频数据的一个或多个音频特征。

9.根据权利要求8所述的方法，其中，所述音频数据的所述音频特征涉及以下各项中的至少一项：

11.一种处理与用户生成内容相关的音频数据的方法，所述方法包括：

12.根据权利要求11所述的方法，其中，对所述音频数据应用所述恢复处理包括应用以下各项中的至少一项：

13.根据权利要求11或12所述的方法，其中，所述一个或多个处理参数包括在所述先前的逐帧音频增强期间应用的频带增益和/或全频带增益。

14.根据权利要求11或12所述的方法，其中，所述一个或多个处理参数包括以下各项中的至少一项：

15.根据权利要求11至14中任一项所述的方法，其中，所述元数据进一步包括第二元数据，所述第二元数据指示所述音频数据的长期统计数据和/或指示所述音频数据的一个或多个音频特征。

16.根据权利要求15所述的方法，其中，所述音频数据的所述音频特征涉及以下各项中的至少一项：

17.根据权利要求15或16所述的方法，其中，对所述原始音频数据应用所述逐帧音频增强是基于所述第二元数据的。

18.根据权利要求11至17中任一项所述的方法，其中，对所述原始音频数据应用所述逐帧音频增强包括应用以下各项中的至少一项：

19.一种用于处理与用户生成内容相关的音频数据的装置，所述装置包括：

20.根据权利要求19所述的装置，其中，所述处理模块被配置为对所述音频数据应用以下各项中的至少一项：

21.根据权利要求19或20所述的装置，其中，所述一个或多个处理参数包括在所述逐帧音频增强期间应用的频带增益和/或全频带增益。

22.根据权利要求19或20所述的装置，其中，所述一个或多个处理参数包括以下各项中的至少一项：

23.根据权利要求19至22中任一项所述的装置，其中，所述处理模块被配置为以实时方式来应用逐帧音频增强。

24.根据权利要求19至23中任一项所述的装置，其中，所述分析模块被配置为进一步基于分析所述音频数据的多个帧的结果来生成所述元数据。

25.根据权利要求24所述的装置，其中，所述对所述音频数据的多个帧的分析产生所述音频数据的长期统计数据。

26.根据权利要求24或25所述的装置，其中，所述对所述音频数据的多个帧的分析产生所述音频数据的一个或多个音频特征。

27.根据权利要求26所述的装置，其中，所述音频数据的所述音频特征涉及以下各项中的至少一项：

28.根据权利要求24至27中任一项所述的装置，其中，所述分析模块被配置为基于所述逐帧音频增强的所述一个或多个处理参数来生成第一元数据，并且基于所述分析所述音频数据的多个帧的结果来生成第二元数据；以及

29.一种用于处理与用户生成内容相关的音频数据的装置，所述装置包括：

30.根据权利要求29所述的装置，其中，所述处理模块被配置为对所述音频数据应用以下各项中的至少一项：

31.根据权利要求29或30所述的装置，其中，所述一个或多个处理参数包括在所述先前的逐帧音频增强期间应用的频带增益和/或全频带增益。

32.根据权利要求29或30所述的装置，其中，所述一个或多个处理参数包括以下各项中的至少一项：

33.根据权利要求29至32中任一项所述的装...

【技术特征摘要】
【国外来华专利技术】