一种音频信号处理方法、装置、终端及存储介质制造方法及图纸

技术编号:24097403 阅读:65 留言:0更新日期:2020-05-09 11:05
本公开是关于一种音频信号处理方法,所述方法包括:由至少两个麦克风获取至少两个声源各自发出的音频信号,以获得所述至少两个麦克风各自的原始带噪信号;对所述至少两个麦克风各自的原始带噪信号进行声源分离,以获得所述至少两个声源各自的时频估计信号;基于所述至少两个声源各自的时频估计信号,确定每一个声源的时频估计信号分别在每一个麦克风的原始带噪信号中的掩蔽值;基于所述至少两个麦克风各自的原始带噪信号及所述掩蔽值,更新所述至少两个声源各自的时频估计信号;基于所述至少两个声源各自的更新后的时频估计信号,确定所述至少两个声源各自发出的音频信号。本公开还公开了一种音频信号处理装置、终端及存储介质。

An audio signal processing method, device, terminal and storage medium

【技术实现步骤摘要】
一种音频信号处理方法、装置、终端及存储介质
本公开涉及通信
,尤其涉及一种音频信号处理方法、装置、终端及存储介质。
技术介绍
相关技术中,智能产品设备拾音多采用麦克风阵列,应用麦克风波束形成技术提高语音信号处理质量,以提高真实环境下的语音识别率。但多个麦克风的波束形成技术对麦克风位置误差敏感,性能影响较大,另外麦克风个数增多了也会导致产品成本升高。因此,目前越来越多的智能产品设备只配置两个麦克风;两个麦克风常采用完全不同于多个麦克风波束形成技术的盲源分离技术对语音进行增强,而如何使得基于盲源分离技术分离后信号的语音质量更高是目前的迫切需要解决的问题。
技术实现思路
本公开提供一种音频信号处理方法、装置、终端及存储介质。由至少两个麦克风获取至少两个声源各自发出的音频信号,以获得所述至少两个麦克风各自的原始带噪信号;对所述至少两个麦克风各自的原始带噪信号进行声源分离,以获得所述至少两个声源各自的时频估计信号;基于所述至少两个声源各自的时频估计信号,确定每一个声源的时频估计信号分别在每一个麦克风的原始带噪信号中的掩蔽值;基于所述至少两个麦克风各自的原始带噪信号及所述掩蔽值,更新所述至少两个声源各自的时频估计信号;基于所述至少两个声源各自的更新后的时频估计信号,确定所述至少两个声源各自发出的音频信号。上述方案中,所述对所述至少两个麦克风各自的原始带噪信号进行声源分离,以获得所述至少两个声源各自的时频估计信号,包括:基于分离矩阵与当前帧的原始带噪信号,获取当前帧的第一分离信号;其中,所述分离矩阵为所述当前帧的分离矩阵,或者所述当前帧的前一帧的分离矩阵;组合每一帧的所述第一分离信号,以获得各所述声源的所述时频估计信号。上述方案中,当所述当前帧为第一帧时,所述第一帧的分离矩阵为单位矩阵;所述基于分离矩阵与当前帧的原始带噪信号,获取当前帧的第一分离信号,包括:基于所述单位矩阵及所述第一帧的原始带噪信号,获取所述第一帧的所述第一分离信号。上述方案中,所述方法还包括:若所述当前帧为第一帧以后的音频帧时,基于所述当前帧的前一帧的分离矩阵及当前帧的原始带噪信号确定所述当前帧的分离矩阵。上述方案中,所述基于所述至少两个声源各自的时频估计信号,确定每一个声源的时频估计信号分别在每一个麦克风的原始带噪信号中的掩蔽值,包括:基于任意所述声源在所述麦克风的所述时频估计信号,以及每一个麦克风的原始带噪信号,获得占比值;对所述占比值进行非线性映射,获得任意所述声源分别在每一个麦克风的掩蔽值。上述方案中,所述对所述占比值进行非线性映射,获得任意所述声源分别在每一个麦克风的掩蔽值,包括:使用单调递增函数对所述占比值进行非线性映射,获得任意所述声源分别在每一个麦克风的掩蔽值。上述方案中,若所述声源为N个,其中,N为大于或等于2的自然数;所述基于所述至少两个麦克风各自的原始带噪信号及所述掩蔽值,更新所述至少两个声源各自的时频估计信号,包括:基于所述第N个声源在第x个麦克风的掩蔽值,与所述第x个麦克风的原始带噪信号,确定第x数值;其中,所述x小于或等于X的正整数,所述X为所述麦克风的总个数;基于所述第1数值至所述第X数值,确定所述第N个声源的更新后的时频估计信号。根据本公开实施例的第二方面,提供一种音频信号处理装置,包括:检测模块,用于由至少两个麦克风获取至少两个声源各自发出的音频信号,以获得所述至少两个麦克风各自的原始带噪信号;第一获得模块,用于对所述至少两个麦克风各自的原始带噪信号进行声源分离,以获得所述至少两个声源各自的时频估计信号;第一处理模块,用于基于所述至少两个声源各自的时频估计信号,确定每一个声源的时频估计信号分别在每一个麦克风的原始带噪信号中的掩蔽值;第二处理模块,用于基于所述至少两个麦克风各自的原始带噪信号及所述掩蔽值,更新所述至少两个声源各自的时频估计信号;第三处理模块,用于基于所述至少两个声源各自的更新后的时频估计信号,确定所述至少两个声源各自发出的音频信号。上述方案中,所述第一获得模块,包括:第一获得单元,用于基于分离矩阵与当前帧的原始带噪信号,获取当前帧的第一分离信号;其中,所述分离矩阵为所述当前帧的分离矩阵,或者所述当前帧的前一帧的分离矩阵;第二获得单元,用于组合每一帧的所述第一分离信号,以获得各所述声源的所述时频估计信号。上述方案中,当所述当前帧为第一帧时,所述第一帧的分离矩阵为单位矩阵;第一获得单元,用于基于所述单位矩阵及所述第一帧的原始带噪信号,获取所述第一帧的所述第一分离信号。上述方案中,所述第一获得模块,还包括:第三获得单元,用于若所述当前帧为第一帧以后的音频帧时,基于所述当前帧的前一帧的分离矩阵及当前帧的原始带噪信号确定所述当前帧的分离矩阵。上述方案中,所述第一处理模块,包括:第一处理单元,用于基于任意所述声源在所述麦克风的所述时频估计信号,以及每一个麦克风的原始带噪信号,获得占比值;第二处理单元,用于对所述占比值进行非线性映射,获得任意所述声源分别在每一个麦克风的掩蔽值。上述方案中,所述第二处理单元,用于使用单调递增函数对所述占比值进行非线性映射,获得任意所述声源分别在每一个麦克风的掩蔽值。上述方案中,若所述声源为N个,其中,N为大于或等于2的自然数;所述第二处理模块,包括:第三处理单元,用于基于所述第N个声源在第x个麦克风的掩蔽值,与所述第x个麦克风的原始带噪信号,确定第x数值;其中,所述x小于或等于X的正整数,所述X为所述麦克风的总个数;第四处理单元,用于基于所述第1数值至所述第X数值,确定所述第N个声源的更新后的时频估计信号。根据本公开实施例的第三方面,提供一种终端,包括:处理器;用于存储处理器可执行指令的存储器;其中,所述处理器被配置为:用于执行所述可执行指令时,实现本公开任一实施例所述的音频信号处理方法。根据本公开实施例的第四方面,提供一种计算机可读存储介质,所述可读存储介质存储有可执行程序,其中,所述可执行程序被处理器执行时实现本公开任一实施例所述的音频信号处理方法。本公开的实施例提供的技术方案可以包括以下有益效果:本公开实施例中,通过对至少两个麦克风的原始带噪信号进行分离,以获得至少两个声源发出的声音在各所述麦克风的时频估计信号,能够利用不同声源信号间的独立性进行初步分离,从而将原始带噪信号中至少两个声源发出的声音分开,如此,相对于现有技术中,利用多个麦克风的波束形成技术实现对声源信号进行分离来说,无需考虑该些麦克风的位置,从而能够实现更高精准度的声源发出声音的音频信号的分离。且,本公开实施例中,还能基于所述时频估计信号,获得至少所述两个声源分别在每一个麦克风的掩蔽值,并基于每一个麦克风所述原始带噪本文档来自技高网...

【技术保护点】
1.一种音频信号处理方法,其特征在于,所述方法包括:/n由至少两个麦克风获取至少两个声源各自发出的音频信号,以获得所述至少两个麦克风各自的原始带噪信号;/n对所述至少两个麦克风各自的原始带噪信号进行声源分离,以获得所述至少两个声源各自的时频估计信号;/n基于所述至少两个声源各自的时频估计信号,确定每一个声源的时频估计信号分别在每一个麦克风的原始带噪信号中的掩蔽值;/n基于所述至少两个麦克风各自的原始带噪信号及所述掩蔽值,更新所述至少两个声源各自的时频估计信号;/n基于所述至少两个声源各自的更新后的时频估计信号,确定所述至少两个声源各自发出的音频信号。/n

【技术特征摘要】
1.一种音频信号处理方法,其特征在于,所述方法包括:
由至少两个麦克风获取至少两个声源各自发出的音频信号,以获得所述至少两个麦克风各自的原始带噪信号;
对所述至少两个麦克风各自的原始带噪信号进行声源分离,以获得所述至少两个声源各自的时频估计信号;
基于所述至少两个声源各自的时频估计信号,确定每一个声源的时频估计信号分别在每一个麦克风的原始带噪信号中的掩蔽值;
基于所述至少两个麦克风各自的原始带噪信号及所述掩蔽值,更新所述至少两个声源各自的时频估计信号;
基于所述至少两个声源各自的更新后的时频估计信号,确定所述至少两个声源各自发出的音频信号。


2.根据权利要求1所述的方法,其特征在于,所述对所述至少两个麦克风各自的原始带噪信号进行声源分离,以获得所述至少两个声源各自的时频估计信号,包括:
基于分离矩阵与当前帧的原始带噪信号,获取当前帧的第一分离信号;其中,所述分离矩阵为所述当前帧的分离矩阵,或者所述当前帧的前一帧的分离矩阵;
组合每一帧的所述第一分离信号,以获得各所述声源的所述时频估计信号。


3.根据权利要求2所述的方法,其特征在于,当所述当前帧为第一帧时,所述第一帧的分离矩阵为单位矩阵;
所述基于分离矩阵与当前帧的原始带噪信号,获取当前帧的第一分离信号,包括:
基于所述单位矩阵及所述第一帧的原始带噪信号,获取所述第一帧的所述第一分离信号。


4.根据权利要求2所述的方法,其特征在于,所述方法还包括:
若所述当前帧为第一帧以后的音频帧时,基于所述当前帧的前一帧的分离矩阵及当前帧的原始带噪信号确定所述当前帧的分离矩阵。


5.根据权利要求1至4任一项所述的方法,其特征在于,所述基于所述至少两个声源各自的时频估计信号,确定每一个声源的时频估计信号分别在每一个麦克风的原始带噪信号中的掩蔽值,包括:
基于任意所述声源在所述时频估计信号,以及每一个麦克风的原始带噪信号,获得占比值;
对所述占比值进行非线性映射,获得任意所述声源分别在每一个麦克风的掩蔽值。


6.根据权利要求5所述的方法,其特征在于,所述对所述占比值进行非线性映射,获得任意所述声源分别在每一个麦克风的掩蔽值,包括:
使用单调递增函数对所述占比值进行非线性映射,获得任意所述声源分别在每一个麦克风的掩蔽值。


7.根据权利要求1至4任一项所述的方法,其特征在于,若所述声源为N个,其中,N为大于或等于2的自然数;
所述基于所述至少两个麦克风各自的原始带噪信号及所述掩蔽值,更新所述至少两个声源各自的时频估计信号,包括:
基于所述第N个声源在第x个麦克风的掩蔽值,与所述第x个麦克风的原始带噪信号,确定第x数值;其中,所述x小于或等于X的正整数,所述X为所述麦克风的总个数;
基于所述第1数值至所述第X数值,确定所述第N个声源更新后的时频估计信号。


8.一种音频信号处理装置,其特征在于,包括:
检测模块,用于由至少两个麦克风获取至少两个声源各自发出的音频信号,...

【专利技术属性】
技术研发人员:侯海宁
申请(专利权)人:北京小米智能科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1