低功耗单声道语音降噪方法技术

技术编号:39581968 阅读:20 留言:0更新日期:2023-12-03 19:32
本发明专利技术提供一种低功耗单声道语音降噪方法

【技术实现步骤摘要】
低功耗单声道语音降噪方法、计算机装置及计算机可读存储介质


[0001]本专利技术涉及基于语音降噪的
,具体地,是一种将低功耗单声道语音降噪方法,还涉及实现该方法的计算机装置及计算机可读存储介质


技术介绍

[0002]诸如无线耳机

游戏耳机

音箱

会议系统等电子设备大多具有语音采集的功能,这些电子设备设置有麦克风,通过麦克风采集语音信号,并且需要对所采集的语音信号进行降噪后输出

现有的对语音信号进行降噪的算法分为两类:基于数字信号处理
(DSP)
的算法与基于神经网络的算法

[0003]基于数字信号处理算法利用数字信号处理技术,通过噪声估计以及自适应滤波器等方法达到降噪效果,对计算资源消耗较小,但是难以实现对人声和非人声的准确区分,存在噪声过滤得不干净

难以过滤非稳态噪声

人声输出较为模糊等缺点

在具有多个麦克风构成的麦克风阵列的电子设备上,可以使用波束成形技术区分声音方位并只接收特定方向上传来的声音

但是这种方式硬件成本较高,且当人声和噪声来自同一方向时无法消除噪声

[0004]基于神经网络的算法是近年来逐渐流行的趋势与未来技术发展的方向

根据输入数据类型不同,基于神经网络的算法又进一步分为以时频域信号为输入与以语音特征
(

MFCC,BFCC,filterbank

)
为输入两类

前者可让算法获得完整的声音信息,从而达到更好的降噪效果,但参数量和计算量较大,神经网络网络结构复杂,只能在手机

电脑等高算力高成本的设备上实现,无法在低成本

低功耗的
ASIC
芯片上运行

后者对语音信息进行有损压缩后输入神经网络,虽然能够减少数据量和计算量,但是对频域划分较为粗糙,无法准确获得每一个频段的信息,降噪效果不够理想,导致较多的噪声残留或者人声被错误消除,从而降低了用户的体验

[0005]现有的一种基于双神经网络模型的语音降噪方法根据嵌入式系统所能提供的资源确定系统的总计算量和总参数量,对接收到的语音数字信号进行分帧和
FFT(
快速傅里叶
)
变换,将每帧的
FFT
谱作为两个神经网络模型的输入,两个神经网络模型分别使用卷积结构的多层网络和
RNN
结构的多层网络,利用两个神经网络模型的输出和预设的分频带混合参数计算得到每个频带的总语音保留系数,分频带混合参数与该帧的
FFT
谱对应的频带值相乘,得到处理后每帧
FFT
谱,逆快速傅里叶变换和去帧后成为时域输出

[0006]但是,这种方法需要使用两个神经网络进行计算,对电子设备的硬件要求较高,如果电子设备采用低成本的芯片则难以应用上述的方法进行语音降噪,限制了该方法的应用


技术实现思路

[0007]本专利技术的第一目的是提供一种计算量少

对硬件资源要求较低的低功耗单声道语
音降噪方法

[0008]本专利技术的第二目的是提供一种实现上述低功耗单声道语音降噪方法的计算机装置

[0009]本专利技术的第三目的是提供一种实现上述低功耗单声道语音降噪方法的计算机可读存储介质

[0010]为实现本专利技术的第一目的,本专利技术提供的低功耗单声道语音降噪方法包括获取初始音频数据,对初始音频数据进行转换,获取时域数字信号,对时域数字信号进行分帧和傅里叶变换获得复值时频图;其中,将复值时频图输入至卷积神经网络编码器,卷积神经网络编码器将复值时频图的编码结果输出至挤压激活层,挤压激活层的输出结果传送至平行循环神经网络层,并将平行循环神经网络层输出的结果用全连接层映射成与复值时频图相同的维度,分别对复值时频图的实部和虚部进行掩模计算;将掩模计算获得的值进行傅里叶逆变换,获得降噪后的语音信号

[0011]由上述方案可见,本专利技术是对传统的语音降噪算法进行改进,具体的,是对传统的语音降噪算法的卷积层

循环层

全连接层等进行轻量化改造,提高神经网络计算的数据复用性,将神经网络参数量从数百万级别压缩到十万以下级别,从而解决了基于神经网络的降噪算法参数量和计算量过大的问题

这样,本专利技术的方法可以在主频较低的芯片上实现实时运行,同时保证了优异的降噪效果,使得本专利技术的方法能够应用于无线耳机

游戏耳机

音箱

会议系统等电子设备上应用

[0012]一个优选的方案是,卷积神经网络编码器将编码结果输出至挤压激活层后,挤压激活层对编码结果进行如下处理:通过全局平均池化层将编码结果中的频域维度缩为1;用线性层将通道维度压缩为编码结果通道维度的四分之一或者八分之一,再用线性层将通道维度映射至编码结果通道维度,应用
sigmoid
函数或者
hard sigmoid
函数进行激活,获得激活向量;将激活向量与编码结果相乘

[0013]由此可见,使用挤压激活层后,激活向量的每一个点均包含了来自所有频段的信息,所以输出可接收到所有频段的信息,因而,挤压激活层可以弥补卷积层无法学习全局频域信息的缺陷,同时计算量与参数量远小于双向循环神经网络或自注意力等常见架构

[0014]进一步的方案是,用线性层将通道维度压缩为编码结果通道维度的四分之一或者八分之一后,使用
Relu
函数进行激活

[0015]进一步的方案是,对复值时频图的实部和虚部进行掩模计算包括:将权重张量与初始音频数据的频域进行相乘计算

[0016]可见,通过简单的相乘计算方法可以实现复值时频图的实部和虚部进行掩模计算,从而简化掩膜计算的计算量,有利于本专利技术的方法在低频的芯片上实现

[0017]一个优选的方案是,权重张量的尺寸与复值时频图的尺寸相同,且权重张量对应于每一时频点的值在0至1之间

[0018]由此可见,将权重张量的尺寸与复值时频图的尺寸相同,可以确保掩膜计算的准确性

[0019]优选的方案是,权重张量对应于每一时频点的值基于历史声音信息和当前的声音信息确定,并根据每一个时频点的信噪比的估计获得该时频点对应的权重张量

[0020]可见,依据每一个时频点的信噪比的估计获得该时频点对应的权重张量,可以确
保掩膜计算后的结果能够实现对噪声的有效降低,提升降噪的效果

[0021]进一步的方案是,时频本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
低功耗单声道语音降噪方法,包括:获取初始音频数据,对所述初始音频数据进行转换,获取时域数字信号,对所述时域数字信号进行分帧和傅里叶变换获得复值时频图;其特征在于:将所述复值时频图输入至卷积神经网络编码器,所述卷积神经网络编码器将所述复值时频图的编码结果输出至挤压激活层,所述挤压激活层的输出结果传送至平行循环神经网络层,并将所述平行循环神经网络层输出的结果用全连接层映射成与所述复值时频图相同的维度,分别对所述复值时频图的实部和虚部进行掩模计算;将掩模计算获得的值进行傅里叶逆变换,获得降噪后的语音信号
。2.
根据权利要求1所述的低功耗单声道语音降噪方法,其特征在于:所述卷积神经网络编码器将所述编码结果输出至所述挤压激活层后,所述挤压激活层对所述编码结果进行如下处理:通过全局平均池化层将所述编码结果中的频域维度缩为1;用线性层将通道维度压缩为所述编码结果通道维度的四分之一或者八分之一,再用线性层将通道维度映射至所述编码结果通道维度,应用
sigmoid
函数或者
hard sigmoid
函数进行激活,获得激活向量;将所述激活向量与所述编码结果相乘
。3.
根据权利要求2所述的低功耗单声道语音降噪方法,其特征在于:用线性层将通道维度压缩为所述编码结果通道维度的四分之一或者八分之一后,使用
Relu
函数进行激活
...

【专利技术属性】
技术研发人员:王天策徐超李正平
申请(专利权)人:珠海普林芯驰科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1