采用两级噪声分类器的音量调节单元的控制制造技术

技术编号：43186470 阅读：24 留言：0更新日期：2024-11-01 20:10

使用音量调节控制信号对音频信号进行音量调节。该方法包括：确定噪声可靠性比率w(n)作为当前时间段中似噪声帧与所有帧的比率；确定PGC噪声置信度分数X<subgt;PGN</subgt;<supgt;(n)</supgt;，该分数指示在该时间段内存在专业生成内容PGC噪声的可能性；以及对于该时间段，确定噪声可靠性比率是否高于预定阈值。当噪声可靠性比率高于预定阈值时，基于PGC噪声置信度分数更新音量调节控制信号，当噪声可靠性比率低于预定阈值时，音量调节控制信号保持不变。通过防止增强例如UGC中的手机录制的环境噪声，同时对于其他类型内容保持原始行为，来改善音量调节。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】

本公开涉及对音频信号进行音量调节的方法和系统。

技术介绍

1、播放端点设备已采用各种音频处理技术来提高音频质量。音频处理模块的一个例子是音量调节单元，其目的是随时监控和调整音频的响度，以便为消费者保持一致的响度。

2、音量调节单元最初是为专业生成内容(pgc)开发的。然而，近年来用户生成内容(ugc)越来越流行，也必须得到妥善处理。因此，音量调节器理想情况下应该能够对于pgc和ugc两者均确保良好的性能。

3、ugc处理最重要的方面之一是ugc中包含的环境噪声(以下称为ugc噪声)。ugc噪声可能是在真实场景中使用手机拍摄内容而造成的。一般来说，ugc噪声是背景噪声，因此毫无意义或不希望的。因此，ugc噪声(尤其是近似平稳噪声)不应被音量调节单元增强。

4、然而，pgc也包含近似平稳噪声类似的内容(以下称为pgc噪声)。pgc噪声间隔经常出现，例如，作为电影中对话之间的背景声音间隔。此类pgc噪声通常使用专业录音设备从对话中独立捕获，并在内容创建阶段由音频混音器仔细处理。与ugc噪声相比，pgc噪声是内容的一部分，并且从艺术家/内容创作者的角度来看通常是所希望的。在这种情况下，音量调节单元可以安全地增强pgc噪声。

技术实现思路

1、本公开旨在提供一种能够令人满意地处理pgc和ugc噪声两者的音量调节(volumeleveling)单元。具体来说，对于ugc噪声，应降低增强水平，同时对于pgc噪声，应保持原有的行为。为了实现该目的，本公开提出了用

2、本公开的第一方面涉及一种进行音频信号的音量调节的方法，该音频信号包括多个时间段，每个时间段由n个帧的集合组成。该方法包括：提供音量调节控制信号；使用音量调节控制信号对音频信号进行音量调节；在当前时间段中识别可能包含噪声的所有似噪声帧；以及确定噪声可靠性比率w(n)作为当前时间段中似噪声帧与所有帧的比率；对于当前时间段确定pgc噪声置信度分数xpgn(n)，其指示在音频信号中存在专业生成内容pgc噪声的可能性；以及对于当前时间段，确定噪声可靠性比率是否高于预定阈值。当噪声可靠性比率高于预定阈值时，基于pgc噪声置信度分数更新音量调节控制信号，并且当噪声可靠性比率低于预定阈值时，音量调节控制信号保持不变。

3、根据该方法，使用两级噪声分类器实现噪声类型自适应音量调节。因此，通过防止增强例如ugc中的手机录制的环境噪声，同时对于其他类型内容保持原始行为，可改善音量调节性能。当且仅当该段的噪声可靠性高时，控制信号才会更新。因此，音量调节控制信号对于每一段将都是稳定的，并且对于整个音频信号保持一致。更新可以逐帧进行。

4、本公开可使用两级噪声分类器。在第一级，将噪声与其他类型内容区分开来，并且在第二级，将pgc噪声与ugc噪声区分开来。第一级的分类器还可以输出帧权重以低延时地识别平稳噪声，以及输出剪辑权重(clip weight)，该剪辑权重指示第二级的输出是否可靠。

5、分类器的输出并不总是稳定的。为了获得稳定且一致的控制信号，可以通过利用基于pgc噪声置信度分数的更新值对前一帧的音量调节控制信号进行加权来形成更新后的音量调节控制信号。为了增加噪声检测可靠时的变化率，可以使更新值与噪声可靠性比率成比例。

6、本公开的第二方面涉及一种用于音频信号的音量调节系统，该音频信号包括多个时间段，每个时间段由n个帧的集合组成。该系统包括：噪声检测器，被配置为在当前时间段中识别可能包含噪声的所有似噪声帧；以及确定噪声可靠性比率w(n)作为当前时间段中似噪声帧与所有帧的比率；噪声鉴别器，被配置为对于当前时间段确定pgc噪声置信度分数xpgn(n)，其指示在音频信号中存在专业生成内容pgc噪声的可能性；以及控制器。该控制器被配置为提供音量调节控制信号，对于当前时间段，确定噪声可靠性比率是否高于预定阈值，当噪声可靠性比率高于预定阈值时，基于pgc噪声置信度分数更新音量调节控制信号，并且当噪声可靠性比率低于预定阈值时，音量调节控制信号保持不变。

本文档来自技高网...

【技术保护点】

1.一种进行音频信号的音量调节的方法，该音频信号包括多个时间段，每个时间段由N个帧的集合组成，该方法包括：

2.根据权利要求1所述的方法，包括对于当前段中的每一帧，确定噪声置信度分数xnoise(n)，其指示该帧中存在噪声的可能性，并且当所述可能性高于给定阈值时将该帧视为类似噪声。

3.根据权利要求2所述的方法，其中当前帧的噪声置信度分数xnoise(n)是基于窗口中的音频内容的，该窗口包括包含当前帧在内的M个连续帧的集合。

4.根据前述权利要求中任一项所述的方法，其中音量调节控制信号是逐帧更新的。

5.根据权利要求4所述的方法，其中当前时间段与前一时间段重叠N-1个帧。

6.根据权利要求4或5所述的方法，其中PGC噪声置信度分数对音量调节控制信号的每次更新的影响与噪声可靠性比率成正比。

7.根据权利要求4或5所述的方法，其中，当前帧的更新后的音量调节控制信号是通过用基于PGC噪声置信度分数的更新值对前一帧的音量调节控制信号进行加权而形成的。

8.根据权利要求7所述的方法，其中PGC噪声置信度分数

9.根据权利要求7或8所述的方法，还包括针对每个帧，确定指示噪声的存在的噪声置信度分数，以及指示预定类型的音频内容的存在的至少一个辅助置信度分数，

10.根据权利要求9所述的方法，其中预定类型的内容包括音乐内容和语音内容中的至少一者。

11.一种用于音频信号的音量调节系统，该音频信号包括多个时间段，每个时间段由N个帧的集合组成，该系统包括：

12.根据权利要求11所述的系统，其中噪声检测器和噪声鉴别器实现适当训练的机器学习系统，例如自适应增强系统或神经网络。

13.一种计算机程序产品，包括计算机程序代码部分，其配置为在计算机处理器上执行时实行根据权利要求1至10中任一项所述的方法。

...

【技术特征摘要】
【国外来华专利技术】

1.一种进行音频信号的音量调节的方法，该音频信号包括多个时间段，每个时间段由n个帧的集合组成，该方法包括：

3.根据权利要求2所述的方法，其中当前帧的噪声置信度分数xnoise(n)是基于窗口中的音频内容的，该窗口包括包含当前帧在内的m个连续帧的集合。

4.根据前述权利要求中任一项所述的方法，其中音量调节控制信号是逐帧更新的。

5.根据权利要求4所述的方法，其中当前时间段与前一时间段重叠n-1个帧。

6.根据权利要求4或5所述的方法，其中pgc噪声置信度分数对音量调节控制信号的每次更新的影响与噪声可靠性比率成正比。

7.根据权利要求4或5所述的方法，其中，当前帧的更新后的音量调节控制信号...

【专利技术属性】
技术研发人员：杨子瑜，芦烈，双志伟，
申请(专利权)人：杜比实验室特许公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人