本申请提供了一种立体声降噪方法、设备及存储介质。该方法通过采用同一个神经网络模型确定适合立体声中两路音频信号的幅度掩膜,由于每一路音频信号的幅度掩膜均可以体现对应音频信号的频域特征,因此基于每一音频信号对应的幅度掩膜对该音频信号进行掩蔽处理时,根据对应的频域特征,可以确保每一音频信号中的目标音频信号的保证度。由于每一路音频信号的幅度掩膜还包括了相同的声像特征,因此基于每一音频信号对应的幅度掩膜对该音频信号进行掩蔽处理,根据相同的声像特征,保持立体声的空间感。由此,既兼顾了立体声中目标语音信号的保真度,又兼顾了立体声的空间感。又兼顾了立体声的空间感。又兼顾了立体声的空间感。
【技术实现步骤摘要】
立体声降噪方法、设备及存储介质
[0001]本申请涉及音频处理
,尤其涉及一种立体声降噪方法、设备及存储介质。
技术介绍
[0002]随着立体声技术的发展,各种具备立体声录制和播放的终端设备受到了用户的青睐。以录音录像中的立体声为例,在该场景中,立体声具体是由两个或两个以上不同位置的麦克风所接收到的双声道音频。相较于单声道录音录像场景而言,立体声录音录像场景能够呈现音频的空间特征,录音效果更加丰富。
[0003]但是,在录音录像的场景中,受环境影响,录制的立体声可能不仅会包括目标语音信号,还可能包括目标语音信号之外的噪声信号。
[0004]因此,亟需提供一种针对录制的立体声的降噪方法,以确保立体声中目标语音信号的保真度,同时保持立体声的方位感,提升噪声场景的录音体验。
技术实现思路
[0005]为了解决上述技术问题,本申请提供一种立体声降噪方法、设备及存储介质,旨在确保立体声中目标语音信号的保真度,同时保持立体声的方位感,提升噪声场景的录音体验。
[0006]第一方面,本申请提供一种立体声降噪方法。该方法应用于终端设备,包括:获取第一麦克风采集的含噪音的第一音频信号和第二麦克风采集的含噪音的第二音频信号;其中,第一麦克风和第二麦克风为位于不同位置的麦克风;将第一音频信号和第二音频信号输入神经网络模型,得到第一音频信号对应的第一幅度掩膜和第二音频信号对应的第二幅度掩膜;其中,第一幅度掩膜体现了第一音频信号的第一频域特征和第一声像特征,第二幅度掩膜体现了第二音频信号的第二频域特征和第二声像特征,第一声像特征和第二声像特征相同;采用第一幅度掩膜对第一音频信号进行掩蔽,采用第二幅度掩膜对第二音频信号进行掩蔽,得到降噪后的立体声。
[0007]通过采用同一个神经网络模型确定适合立体声中两路音频信号的幅度掩膜,由于每一路音频信号的幅度掩膜均可以体现对应音频信号的频域特征,因此基于每一音频信号对应的幅度掩膜对该音频信号进行掩蔽处理时,根据对应的频域特征,可以确保每一音频信号中的目标音频信号的保证度。
[0008]由于每一路音频信号的幅度掩膜还包括了相同的声像特征,因此基于每一音频信号对应的幅度掩膜对该音频信号进行掩蔽处理,根据相同的声像特征,保持立体声的方位感/空间感/立体感(后续统一为:空间感)。
[0009]由此,既兼顾了立体声中目标语音信号的保真度,又兼顾了立体声的方位感/空间感/立体感。
[0010]根据第一方面,第一频域特征用于描述第一音频信号中目标音频信号和噪音音频信号在频域上的关系;第一声像特征用于描述立体声的声像。
[0011]根据第一方面,或者以上第一方面的任意一种实现方式,第二频域特征用于描述第二音频信号中目标音频信号和噪音音频信号在频域上的关系;第二声像特征用于描述立体声的声像。
[0012]根据第一方面,或者以上第一方面的任意一种实现方式,神经网络模型采用不同方位和距离下,采集的含噪音的立体声音频信号训练获得。
[0013]由此,神经网络模型采用立体声音频信号训练获得,而非单通道的音频信号,从而使得基于训练获得的神经网络模型确定的第一掩膜和第二掩膜进行掩蔽处理后的立体声能够保持空间感。
[0014]根据第一方面,或者以上第一方面的任意一种实现方式,采集含噪音的立体声音频信号的麦克风与第一麦克风和第二麦克风的位置相同。
[0015]因为立体声呈现的空间感/立体感取决于不同声道对应的麦克风的排布方式,因此需要保证训练神经网络模型阶段使用的含噪音的立体声音频信号的麦克风与测试阶段/应用阶段的麦克风相同,即所处位置、型号、性能等相同,从而保证应用阶段使用神经网络模型确定的第一幅度掩膜和第二幅度掩膜适合当前麦克风采集到的第一音频信号和第二音频信号。
[0016]根据第一方面,或者以上第一方面的任意一种实现方式,神经网络模型对应的损失函数包括时频域损失函数;其中,在将第一音频信号和第二音频信号输入神经网络模型后,神经网络模型根据时频域损失函数,确定第一幅度掩膜中的第一频域特征,以及第二幅度掩膜中的第二频域特征。
[0017]根据第一方面,或者以上第一方面的任意一种实现方式,神经网络模型对应的损失函数还包括声像损失函数;其中,在将第一音频信号和第二音频信号输入神经网络模型后,神经网络模型根据声像损失函数,确定第一幅度掩膜中的第一声像特征,以及第二幅度掩膜中的第二声像特征。
[0018]根据第一方面,或者以上第一方面的任意一种实现方式,第一声像特征和第二声像特征相同,根据频域上的第一音频信号和第二音频信号确定。
[0019]根据第一方面,或者以上第一方面的任意一种实现方式,第一声像特征和第二声像特征包括:双通道能量差、双通道相位差、双通道相关性和全局相位差;其中,双通道包括第一麦克风对应的一路通道和第二麦克风对应的一路通道。
[0020]根据第一方面,或者以上第一方面的任意一种实现方式,声像损失函数包括双通道能量差损失函数、双通道相位差损失函数、双通道相关性损失函数和全局相位差损失函数;其中,声像损失函数中包括的每一个损失函数对应一个权重系数,每一个权重系数根据频带数确定。
[0021]其中,频带数具体指频点个数。
[0022]根据第一方面,或者以上第一方面的任意一种实现方式,神经网络模型包括依序设置的卷积网络层、长短时记忆网络层和全连接网络层;其中,卷积网络层用于获取第一音频信号对应的频域特征的局部特征,长短时记忆网络层用于获取第一音频信号中各帧之间的时序特征,全连接网络层用于将卷积网络层获取的频域特征的局部特征和长短时记忆网络层获取的时序特征映射到第一幅度掩膜对应的特征维度;以及,卷积网络层用于获取第二音频信号对应的频域特征的局部特征,长短时记忆网络层用于获取第二音频信号中各帧
之间的时序特征,全连接网络层用于将卷积网络层获取的频域特征的局部特征和长短时记忆网络层获取的时序特征映射到第二幅度掩膜对应的特征维度。
[0023]根据第一方面,或者以上第一方面的任意一种实现方式,第一麦克风位于终端设备的顶部,第二麦克风位于终端设备的底部。
[0024]根据第一方面,或者以上第一方面的任意一种实现方式,终端设备与真无线耳机的左耳机和右耳机分别建立通信链路;第一麦克风位于左耳机,第二麦克风位于右耳机。
[0025]第二方面,本申请提供了一种终端设备。该终端设备包括:存储器和处理器,存储器和处理器耦合;存储器存储有程序指令,程序指令由处理器执行时,使得所述终端设备执行第一方面或第一方面的任意可能的实现方式中的方法的指令。
[0026]第二方面以及第二方面的任意一种实现方式分别与第一方面以及第一方面的任意一种实现方式相对应。第二方面以及第二方面的任意一种实现方式所对应的技术效果可参见上述第一方面以及第一方面的任意一种实现方式所对应的技术效果,此处不再赘述。
[0027]第三方面,本申请提供了一种计算机可读介质,用于存储计算机程序,该计算机程序包括本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种立体声降噪方法,其特征在于,应用于终端设备,所述方法包括:获取第一麦克风采集的含噪音的第一音频信号和第二麦克风采集的含噪音的第二音频信号;其中,所述第一麦克风和所述第二麦克风为位于不同位置的麦克风;将所述第一音频信号和所述第二音频信号输入神经网络模型,得到所述第一音频信号对应的第一幅度掩膜和第二音频信号对应的第二幅度掩膜;其中,所述第一幅度掩膜体现了所述第一音频信号的第一频域特征和第一声像特征,所述第二幅度掩膜体现了所述第二音频信号的第二频域特征和第二声像特征,所述第一声像特征和所述第二声像特征相同;采用所述第一幅度掩膜对所述第一音频信号进行掩蔽,采用所述第二幅度掩膜对所述第二音频信号进行掩蔽,得到降噪后的立体声。2.根据权利要求1所述的方法,其特征在于,所述第一频域特征用于描述所述第一音频信号中目标音频信号和噪音音频信号在频域上的关系;所述第一声像特征用于描述立体声的声像。3.根据权利要求1所述的方法,其特征在于,所述第二频域特征用于描述所述第二音频信号中目标音频信号和噪音音频信号在频域上的关系;所述第二声像特征用于描述立体声的声像。4.根据权利要求1至3任一项所述的方法,其特征在于,所述神经网络模型采用不同方位和距离下,采集的含噪音的立体声音频信号训练获得。5.根据权利要求4所述的方法,其特征在于,采集含噪音的所述立体声音频信号的麦克风与所述第一麦克风和所述第二麦克风的位置相同。6.根据权利要求4所述的方法,其特征在于,所述神经网络模型对应的损失函数包括时频域损失函数;其中,在将所述第一音频信号和所述第二音频信号输入所述神经网络模型后,所述神经网络模型根据所述时频域损失函数,确定所述第一幅度掩膜中的所述第一频域特征,以及所述第二幅度掩膜中的所述第二频域特征。7.根据权利要求6所述的方法,其特征在于,所述神经网络模型对应的损失函数还包括声像损失函数;其中,在将所述第一音频信号和所述第二音频信号输入所述神经网络模型后,所述神经网络模型根据所述声像损失函数,确定所述第一幅度掩膜中的所述第一声像特征,以及所述第二幅度掩膜中的所述第二声像特征。8.根据权利要求7所述的方法,其特征在于,所述第一声像特征和所述第二声像特征相同,根据频域上的所述第一音...
【专利技术属性】
技术研发人员:宁岳,刘镇亿,
申请(专利权)人:荣耀终端有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。