一种融合骨振动传感器和麦克风信号的深度学习语音提取和降噪方法技术

技术编号:23606777 阅读:64 留言:0更新日期:2020-03-28 07:22
本发明专利技术涉及的一种融合骨振动传感器和麦克风信号的深度学习降噪方法,包括如下步骤:骨振动传感器和麦克风采集音频信号,分别得到骨振动传感器音频信号和麦克风音频信号;将骨振动传感器音频信号输入高通滤波模块,并进行高通滤波;将经过高通滤波后的骨振动传感器音频信号或经过频带拓宽后的信号,与麦克风音频信号输入深度神经网络模块;深度神经网络模块经过预测得出降噪后的语音。本发明专利技术结合了骨震动传感器以及传统麦克风的信号,利用深度神经网络强大的建模能力实现了很高的人声还原度及极强的噪声抑制能力,可以解决复杂噪声场景下的人声提取问题,实现提取目标人声,降低干扰噪声,并可采用单麦克风结构减少成本。另可将骨振动传感器音频信号经过频带拓宽后的信号直接作为输出。

A method of deep learning speech extraction and noise reduction based on the fusion of bone vibration sensor and microphone signal

【技术实现步骤摘要】
一种融合骨振动传感器和麦克风信号的深度学习语音提取和降噪方法
本专利技术涉及电子设备语音降噪
,更具体地说,涉及一种融合骨振动传感器和麦克风信号的深度学习降噪方法。
技术介绍
语音降噪技术是指从带噪语音信号中分离出语音信号,该技术拥有广泛的应用,通常有单麦克风降噪技术和多麦克风降噪技术,然而传统的降噪技术中存在一些缺陷,传统的单麦克风降噪技术预先假设噪声为平稳噪声,适应性不高,局限较大;而传统的多麦克风降噪技术需要两个及以上的麦克风,增加了成本,多麦克风结构对于产品的结构设计要求更高,限制了产品的结构设计,而且,多麦克风降噪技术依靠方向信息进行降噪,无法抑制来自目标人声方向的噪音,以上缺陷值得改进。传统多麦克风和单麦克风通话降噪技术存在以下缺陷:1.麦克风数量与成本呈线性关系,麦克数量越多,成本越高;2.多麦克风对产品结构设计要求更高,限制产品的结构设计;3.多麦克降噪技术依靠方向信息进行降噪,无法抑制来自于接近目标人声方向的噪音;4.单麦克风降噪技术依赖噪声估计,其预先架设噪声为平稳声,具有局限性。本专利技术结合了骨震动传感器及传统麦克风的信号,采用深度学习进行融合从而实现降噪,在各种噪声环境下,实现提取目标人声,降低干扰噪声。该技术可应用于耳机、手机等贴合耳部(或其它身体部位)的通话场景。相比于仅采用一个或多个麦克风降噪的技术,结合骨振动传感器可在信噪比极低的环境下,诸如:地铁、风噪等场景,依然可以保持良好的通话体验。相比传统单麦克风降噪技术,本技术不对噪声做任何假设(传统单麦风降噪技术预先假设噪声为平稳噪声),利用深度神经网络强大的建模能力,有很好的人声还原度及极强的噪声抑制能力,可以在解决复杂噪声场景下人声提取问题。相比于传统多麦克风降噪技术需要2个及以上麦克风进行波束形成的降噪方案,我们采用单麦克风。相对于气导麦克风,骨振动传感器信号采样主要在低频范围,但不受气导噪声干扰。不同于其他结合骨震动传感器及气导麦克风降噪方式仅利用骨震动传感器信号作为人声激活检测的标志,本技术将骨传导信号作为低频输入信号,通过高频重建(可选)后,与麦克风信号一同送入深度神经网络进行整体融合后实现降噪。借助骨振动传感器,我们能够得到优质的低频信号,并以此为基础,极大地提高深度神经网络预测的准确性,使得降噪效果更佳。相比申请号为201710594168.3的专利(名称为一种通用的单声道实时降噪方法),本专利技术引入了骨振动传感器信号,利用骨振动传感器不受空气噪音干扰的特性,将骨振动传感器信号与气导麦克风信号使用深度神经网络融合,达到了在极低信噪比下也能有优质的降噪效果。相比申请号为201811199154.2的专利(名称为一种通过人体振动识别用户语音以控制电子设备的系统)中将骨振动传感器信号作为语音活动检测的标志不同,我们将骨振动传感器信号与麦克风信号一起作为深度神经网络的输入,进行信号层的有机融合,从而达到优质的降噪效果。
技术实现思路
本专利技术要解决的技术问题在于如何通过采用一种融合骨振动传感器和麦克风信号的深度学习降噪方法,以解决现有技术中多麦克风限制产品结构、成本过高、而且传统的单麦克风降噪技术有局限性等问题。不同于其他结合骨震动传感器和气导麦克风技术中仅利用骨震动传感器信号作为激活检测的标志,本技术利用骨振动传感器信号不受气导噪声干扰的特性,将骨传信号作为直接输入信号,通过高频重建(可选)后,与麦克风信号一同送入深度神经网络进行整体融合及降噪。借助骨振动传感器,我们能够得到优质的低频信号,并以此为基础,极大地提高深度神经网络预测的准确性,使得降噪效果更佳。本专利技术解决其技术问题所采用的技术方案是:构造一种融合骨振动传感器和麦克风信号的深度学习降噪方法,结合了骨震动传感器及传统麦克风的信号各自优势,采用深度学习人声提取及降噪技术,在各种噪声环境下,实现提取目标人声,降低干扰噪声。该技术可应用于耳机、手机等贴合耳部(或其它身体部位)的通话场景,且成本低易实现。在本专利技术所述的一种融合骨振动传感器和麦克风信号的深度学习降噪方法中,所述一种融合骨振动传感器和麦克风信号的深度学习降噪方法,包括如下步骤:S1骨振动传感器和麦克风采集音频信号,分别得到骨振动传感器音频信号和麦克风音频信号;S2将骨振动传感器音频信号输入高通滤波模块,进行高通滤波;S3将经过高通滤波后的骨振动传感器音频信号与麦克风音频信号输入深度神经网络模块;S4深度神经网络模块经过融合后预测得出降噪语音。在本专利技术的一种融合骨振动传感器和麦克风信号的深度学习降噪方法中,高通滤波模块修正骨振动传感器音频信号直流偏移,并滤除低频杂波信号。在本专利技术的一种融合骨振动传感器和麦克风信号的深度学习降噪方法中,骨振动传感器音频信号经过高通滤波处理后,更优选的,通过高频重建,即频带拓宽的方法,进一步拓宽频率范围,将骨振动传感器音频信号拓宽至两千赫兹以上,随后将其输入深度神经网络模块。进一步,亦可仅使用频带拓宽后的骨振动信号作为最终的输出信号,从而无需依赖麦克风信号。在本专利技术的一种融合骨振动传感器和麦克风信号的深度学习降噪方法中,深度神经网络模块还包括融合模块,融合模块将麦克风音频信号和骨振动传感器音频信号融合及降噪。在本专利技术的一种融合骨振动传感器和麦克风信号的深度学习降噪方法中,深度神经网络模块的一种实现方法是通过卷积循环神经网络实现,并通过预测得到纯净语音幅度谱。在本专利技术的一种融合骨振动传感器和麦克风信号的深度学习降噪方法中,深度神经网络模块由数层卷积网络、数层长短期记忆网络和三相对应的数层反卷积网络构成。在本专利技术的一种融合骨振动传感器和麦克风信号的深度学习降噪方法中,深度神经网络模块的训练目标是纯净语音幅度谱。首先将纯净语音经过短时傅里叶变换后,再获得纯净语音幅度谱作为训练目标,即目标幅度谱。在本专利技术的一种融合骨振动传感器和麦克风信号的深度学习降噪方法中,深度神经网络模块的输入信号是由骨振动传感器音频信号的幅度谱(或经过频带拓宽后的幅度谱)和麦克风音频信号的幅度谱堆叠而成;首先将骨振动传感器音频信号和麦克风音频信号分别经过短时傅里叶变换,再分别取得两路幅度谱,并进行堆叠。在本专利技术的一种融合骨振动传感器和麦克风信号的深度学习降噪方法中,将堆叠后的幅度谱经过深度神经网络模块,得到预测幅度谱,并输出。在本专利技术的一种融合骨振动传感器和麦克风信号的深度学习降噪方法中,将目标幅度谱与预测幅度谱做均方误差。根据上述方案的本专利技术,其有益效果在于,本专利技术提供了一种融合骨振动传感器和麦克风信号的深度学习语音提取和降噪方法,利用深度神经网络强大的建模能力,有很好的人声还原度及极强的噪声抑制能力,可以解决复杂噪声场景下的人声提取问题。本专利技术利用骨振动传感器不受气导噪声干扰的特性,可在信噪比极低的环境下,诸如:地铁、风噪等场景,依然保持良好的通话体验。且采用单麦克风显著地简化实现和降低成本。不同于其他结合骨震动传感本文档来自技高网
...

【技术保护点】
1.一种融合骨振动传感器和麦克风信号的深度学习降噪方法,其特征在于,包括如下步骤:/nS1骨振动传感器和麦克风采集音频信号,分别得到骨振动传感器音频信号和麦克风音频信号;/nS2将所述骨振动传感器音频信号输入高通滤波模块,并进行高通滤波;/nS3将经过高通滤波后的所述骨振动传感器音频信号与所述麦克风音频信号输入深度神经网络模块;/nS4所述深度神经网络模块经过预测得出融合降噪后的语音。/n

【技术特征摘要】
1.一种融合骨振动传感器和麦克风信号的深度学习降噪方法,其特征在于,包括如下步骤:
S1骨振动传感器和麦克风采集音频信号,分别得到骨振动传感器音频信号和麦克风音频信号;
S2将所述骨振动传感器音频信号输入高通滤波模块,并进行高通滤波;
S3将经过高通滤波后的所述骨振动传感器音频信号与所述麦克风音频信号输入深度神经网络模块;
S4所述深度神经网络模块经过预测得出融合降噪后的语音。


2.根据权利要求1所述的一种融合骨振动传感器和麦克风信号的深度学习降噪方法,其特征在于,所述高通滤波模块修正所述骨振动传感器音频信号直流偏移,并滤除低频杂波信号。


3.根据权利要求2所述的一种融合骨振动传感器和麦克风信号的深度学习降噪方法,其特征在于,所述骨振动传感器音频信号经过高通滤波处理后,更优选的,通过高频重建,即频带拓宽的方法,进一步拓宽频率范围,将所述骨振动传感器音频信号拓宽至两千赫兹以上,随后将其输入所述深度神经网络模块。


4.根据权利要求3所述的将骨振动传感器信号经过高频重建(频带拓宽)后的结果亦可直接作为本发明输出。


5.根据权利要求1所述的一种融合骨振动传感器和麦克风信号的深度学习降噪方法,其特征在于,所述深度神经网络模块还包括融合模块,所述融合模块将所述麦克风音频信号和所述骨振动传感器音频信号融合及降噪。


6.根据权利要求5所述的一种...

【专利技术属性】
技术研发人员:闫永杰
申请(专利权)人:大象声科深圳科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1