音频掩蔽模型的确定方法、音频掩蔽方法技术

技术编号：40042244 阅读：21 留言：0更新日期：2024-01-16 19:54

本公开的实施例公开了音频掩蔽模型的确定方法、音频掩蔽方法。该确定方法的一具体实施方式包括：获取音频样本，其中，音频样本包括的每个音频信号中包括：第一音频信号和第二音频信号；提取音频样本的信号特征；将信号特征输入至初始音频掩蔽模型中，得到初始输出结果；确定初始输出结果与音频样本对应的音频标签之间的偏差值；响应于确定偏差值不满足预设的收敛条件，对初始音频掩蔽模型的模型参数进行更新，以得到更新后的音频掩蔽模型。该实施方式可以通过监督学习的方式得到音频掩蔽模型，以用于掩蔽音频信号中的噪声及混响成分。

全部详细技术资料下载

【技术实现步骤摘要】

本公开的实施例涉及音频领域，具体涉及音频掩蔽模型的确定方法、音频掩蔽方法。

技术介绍

1、在封闭的空间中，声源产生的声波经过反射物(墙壁、地面和室内装饰物等)多径反射后会叠加形成混响。在均匀介质声场中，声源到传声器(例如麦克风)的直达声传播时间最短，在直达声之后50-100ms内被传声器接收到的反射声被定义为早期混响，在直达50-100ms之后被传声器接收到的反射声被定义为晚期混响。

2、对于电话、会议室讲话等通讯场景，早期混响会降低传声器拾取的语音信号的质量，但却可以提高语音信号的可懂度；而晚期混响会模糊和混淆语音信号中的音节，语音信号的质量和可懂度均遭严重破坏。

3、目前，对于去除语音信号中的混响，通常采用的方式为：采用wpe(weightedprediction error，加权预测误差)算法及其若干改进算法，假设混响成分可以被线性预测，且目标信号(直达声或者直达声+早期混响)在每个时频点上服从均值为0、方差为λ的复高斯模型分布，通过最大化模型负对数的似然函数，并利用交替迭代的方式更新方差和滤波器系数的估计值，得到目标信号的估计。

4、然而，采用上述去除混响的方式，通常存在以下技术问题：wpe算法必须遵循上述严格假设，其滤波器去混响的实际效果较差，而且难以消除与直达声、混响同时存在的、与直达声无相关性的环境背景噪声。

5、该
技术介绍
部分中所公开的以上信息仅用于增强对本专利技术构思的背景的理解，并因此，其可包含并不形成本国的本领域普通技术人员已知的现有技术的信息。

技术实现思路

1、本公开的内容部分用于以简要的形式介绍构思，这些构思将在后面的具体实施方式部分被详细描述。本公开的内容部分并不旨在标识要求保护的技术方案的关键特征或必要特征，也不旨在用于限制所要求的保护的技术方案的范围。

2、本公开的一些实施例提出了音频掩蔽模型的确定方法、音频掩蔽方法、电子设备与计算机可读介质，来解决以上
技术介绍
部分提到的技术问题中的一项或多项。

3、第一方面，本公开的一些实施例提供了一种音频掩蔽模型的确定方法，该方法包括：获取音频样本，其中，上述音频样本包括的每个音频信号中包括：第一音频信号和第二音频信号，上述第二音频信号为上述第一音频信号分别经多种幅值增益及相位延迟处理后、通过线性组合得到的信号；提取上述音频样本的信号特征；将上述信号特征输入至初始音频掩蔽模型中，得到初始输出结果；确定上述初始输出结果与上述音频样本对应的音频标签之间的偏差值，其中，上述音频标签是根据上述音频样本的信号信息以及第一音频信号样本的信号信息确定的，上述第一音频信号样本是由上述音频样本包括的每个音频信号中包括的第一音频信号组成的样本；响应于确定上述偏差值不满足预设的收敛条件，对上述初始音频掩蔽模型的模型参数进行更新，以得到更新后的音频掩蔽模型。

4、第二方面，本公开的一些实施例提供了一种音频掩蔽模型的确定装置，该装置包括：获取单元，被配置成获取音频样本，其中，上述音频样本包括的每个音频信号中包括：第一音频信号和第二音频信号，上述第二音频信号为上述第一音频信号分别经多种幅值增益及相位延迟处理后、通过线性组合得到的信号；提取单元，被配置成提取上述音频样本的信号特征；特征输入单元，被配置成将上述信号特征输入至初始音频掩蔽模型中，得到初始输出结果；确定单元，被配置成确定上述初始输出结果与上述音频样本对应的音频标签之间的偏差值，其中，上述音频标签是根据上述音频样本的信号信息以及第一音频信号样本的信号信息确定的，上述第一音频信号样本是由上述音频样本包括的每个音频信号中包括的第一音频信号组成的样本；更新单元，被配置成响应于确定上述偏差值不满足预设的收敛条件，对上述初始音频掩蔽模型的模型参数进行更新，以得到更新后的音频掩蔽模型。

5、第三方面，本公开的一些实施例提供了一种音频掩蔽方法，该方法包括：获取传声器的音频采集信号；提取上述音频采集信号的信号特征；将上述信号特征输入至预先确定的音频掩蔽模型中，得到模型输出结果，其中，上述音频掩蔽模型是通过第一方面上述的方法生成的；根据上述音频采集信号和上述模型输出结果，生成目标音频信号。

6、第四方面，本公开的一些实施例提供了一种音频掩蔽装置，该装置包括：获取单元，被配置成获取传声器的音频采集信号；提取单元，被配置成提取上述音频采集信号的信号特征；输入单元，被配置成将上述信号特征输入至预先确定的音频掩蔽模型中，得到模型输出结果，其中，上述音频掩蔽模型是通过如第一方面上述的方法生成的；生成单元，被配置成根据上述音频采集信号和上述模型输出结果，生成目标音频信号。

7、第五方面，本公开的一些实施例提供了一种电子设备，包括：一个或多个处理器；存储装置，其上存储有一个或多个程序，当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器实现上述第一方面任一实现方式所描述的方法。

8、第六方面，本公开的一些实施例提供了一种计算机可读介质，其上存储有计算机程序，其中，程序被处理器执行时实现上述第一方面任一实现方式所描述的方法。

9、本公开的上述各个实施例具有如下有益效果：通过本公开的一些实施例的音频掩蔽模型的确定方法，基于监督学习算法，可以得到用于掩蔽音频信号中的噪声及混响成分的音频掩蔽模型。从而，可以高效去混响，以及消除与直达声、混响同时存在的环境背景噪声。具体来说，去混响的效果较差且难以消除与直达声、混响同时存在的环境背景噪声的原因在于：wpe算法必须遵循若干严格假设，故其滤波器去混响的实际效果较差；基于wpe算法设计的滤波器针对的是与直达声相关的混响成分，但环境背景噪声与直达声无相关性，故难以被消除。基于此，本公开的一些实施例的音频掩蔽模型的确定方法，首先，获取音频样本。其中，上述音频样本包括的每个音频信号中包括：第一音频信号和第二音频信号，上述第二音频信号为上述第一音频信号分别经多种幅值增益及相位延迟处理后、通过线性组合得到的信号。由此，为确定音频掩蔽模型，提供了数据支持。其次，提取上述音频样本的信号特征；将上述信号特征输入至初始音频掩蔽模型中，得到初始输出结果。然后，确定上述初始输出结果与上述音频样本对应的音频标签之间的偏差值。其中，上述音频标签是根据上述音频样本的信号信息以及第一音频信号样本的信号信息确定的，上述第一音频信号样本是由上述音频样本包括的每个音频信号中包括的第一音频信号组成的样本。由此，可以确定输出结果与音频标签之间的差异值。从而，便于调整模型参数。最后，响应于确定上述偏差值不满足预设的收敛条件，对上述初始音频掩蔽模型的模型参数进行更新，以得到更新后的音频掩蔽模型。由此，基于监督学习算法，可以得到用于掩蔽音频信号中的噪声及混响成分的音频掩蔽模型。从而，可以高效去混响，以及消除与直达声、混响同时存在的环境背景噪声。

本文档来自技高网...

【技术保护点】

1.一种音频掩蔽模型的确定方法，包括：

2.根据权利要求1所述的方法，其中，所述方法还包括：

3.根据权利要求1所述的方法，其中，所述初始输出结果包括：多个第一子输出结果，一个第一子输出结果对应一个信号频率；以及

4.根据权利要求1所述的方法，其中，所述初始输出结果包括：多个子输出结果对，一个子输出结果对对应一个信号频率，每个子输出结果对包括：第二子输出结果和第三子输出结果；以及

5.根据权利要求4所述的方法，其中，所述将所述信号特征输入至初始音频掩蔽模型中，得到初始输出结果，包括：

6.一种音频掩蔽方法，包括：

7.一种音频掩蔽模型的确定装置，包括：

8.一种音频掩蔽装置，包括：

9.一种电子设备，包括：

10.一种计算机可读介质，其上存储有计算机程序，其中，所述程序被处理器执行时实现如权利要求1-6中任一所述的方法。

【技术特征摘要】

1.一种音频掩蔽模型的确定方法，包括：

2.根据权利要求1所述的方法，其中，所述方法还包括：

3.根据权利要求1所述的方法，其中，所述初始输出结果包括：多个第一子输出结果，一个第一子输出结果对应一个信号频率；以及

4.根据权利要求1所述的方法，其中，所述初始输出结果包括：多个子输出结果对，一个子输出结果对对应一个信号频率，每个子输出结果对包括：第二子输出结果和第三子输出结果；以及<...

【专利技术属性】
技术研发人员：赵明洲，丁丹，徐银海，刘益帆，
申请(专利权)人：安声重庆电子科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人