一种音频信号处理方法、装置、终端及存储介质制造方法及图纸

技术编号：24097403 阅读：73 留言：0更新日期：2020-05-09 11:05

本公开是关于一种音频信号处理方法，所述方法包括：由至少两个麦克风获取至少两个声源各自发出的音频信号，以获得所述至少两个麦克风各自的原始带噪信号；对所述至少两个麦克风各自的原始带噪信号进行声源分离，以获得所述至少两个声源各自的时频估计信号；基于所述至少两个声源各自的时频估计信号，确定每一个声源的时频估计信号分别在每一个麦克风的原始带噪信号中的掩蔽值；基于所述至少两个麦克风各自的原始带噪信号及所述掩蔽值，更新所述至少两个声源各自的时频估计信号；基于所述至少两个声源各自的更新后的时频估计信号，确定所述至少两个声源各自发出的音频信号。本公开还公开了一种音频信号处理装置、终端及存储介质。

An audio signal processing method, device, terminal and storage medium

全部详细技术资料下载

【技术实现步骤摘要】
一种音频信号处理方法、装置、终端及存储介质
本公开涉及通信
，尤其涉及一种音频信号处理方法、装置、终端及存储介质。
技术介绍
相关技术中，智能产品设备拾音多采用麦克风阵列，应用麦克风波束形成技术提高语音信号处理质量，以提高真实环境下的语音识别率。但多个麦克风的波束形成技术对麦克风位置误差敏感，性能影响较大，另外麦克风个数增多了也会导致产品成本升高。因此，目前越来越多的智能产品设备只配置两个麦克风；两个麦克风常采用完全不同于多个麦克风波束形成技术的盲源分离技术对语音进行增强，而如何使得基于盲源分离技术分离后信号的语音质量更高是目前的迫切需要解决的问题。
技术实现思路
本公开提供一种音频信号处理方法、装置、终端及存储介质。由至少两个麦克风获取至少两个声源各自发出的音频信号，以获得所述至少两个麦克风各自的原始带噪信号；对所述至少两个麦克风各自的原始带噪信号进行声源分离，以获得所述至少两个声源各自的时频估计信号；基于所述至少两个声源各自的时频估计信号，确定每一个声源的时频估计信号分别在每一个麦克风的原始带噪信号中的掩蔽值；基于所述至少两个麦克风各自的原始带噪信号及所述掩蔽值，更新所述至少两个声源各自的时频估计信号；基于所述至少两个声源各自的更新后的时频估计信号，确定所述至少两个声源各自发出的音频信号。上述方案中，所述对所述至少两个麦克风各自的原始带噪信号进行声源分离，以获得所述至少两个声源各自的时频估计信号，包括：基于分离矩阵与...

【技术保护点】
1.一种音频信号处理方法，其特征在于，所述方法包括：/n由至少两个麦克风获取至少两个声源各自发出的音频信号，以获得所述至少两个麦克风各自的原始带噪信号；/n对所述至少两个麦克风各自的原始带噪信号进行声源分离，以获得所述至少两个声源各自的时频估计信号；/n基于所述至少两个声源各自的时频估计信号，确定每一个声源的时频估计信号分别在每一个麦克风的原始带噪信号中的掩蔽值；/n基于所述至少两个麦克风各自的原始带噪信号及所述掩蔽值，更新所述至少两个声源各自的时频估计信号；/n基于所述至少两个声源各自的更新后的时频估计信号，确定所述至少两个声源各自发出的音频信号。/n

【技术特征摘要】
1.一种音频信号处理方法，其特征在于，所述方法包括：
由至少两个麦克风获取至少两个声源各自发出的音频信号，以获得所述至少两个麦克风各自的原始带噪信号；
对所述至少两个麦克风各自的原始带噪信号进行声源分离，以获得所述至少两个声源各自的时频估计信号；
基于所述至少两个声源各自的时频估计信号，确定每一个声源的时频估计信号分别在每一个麦克风的原始带噪信号中的掩蔽值；
基于所述至少两个麦克风各自的原始带噪信号及所述掩蔽值，更新所述至少两个声源各自的时频估计信号；
基于所述至少两个声源各自的更新后的时频估计信号，确定所述至少两个声源各自发出的音频信号。

2.根据权利要求1所述的方法，其特征在于，所述对所述至少两个麦克风各自的原始带噪信号进行声源分离，以获得所述至少两个声源各自的时频估计信号，包括：
基于分离矩阵与当前帧的原始带噪信号，获取当前帧的第一分离信号；其中，所述分离矩阵为所述当前帧的分离矩阵，或者所述当前帧的前一帧的分离矩阵；
组合每一帧的所述第一分离信号，以获得各所述声源的所述时频估计信号。

3.根据权利要求2所述的方法，其特征在于，当所述当前帧为第一帧时，所述第一帧的分离矩阵为单位矩阵；
所述基于分离矩阵与当前帧的原始带噪信号，获取当前帧的第一分离信号，包括：
基于所述单位矩阵及所述第一帧的原始带噪信号，获取所述第一帧的所述第一分离信号。

4.根据权利要求2所述的方法，其特征在于，所述方法还包括：
若所述当前帧为第一帧以后的音频帧时，基于所述当前帧的前一帧的分离矩阵及当前帧的原始带噪信号确定所述当前帧的分离矩阵。

5.根据权利要求1至4任一项所述的方法，其特征在于，所述基于所述至少两个声源各自的时频估计信号，确定每一个声源的时频估计信号分别在每一个麦克风的原始带噪信号中的掩蔽值，包括：
基于任意所述声源在所述时频估计信号，以及每一个麦克风的原始带噪信号，获得占比值；
对所述占比值进行非线性映射，获得任意所述声源分别在每一个麦克风的掩蔽值。

6.根据权利要求5所述的方法，其特征在于，所述对所述占比值进行非线性映射，获得任意所述声源分别在每一个麦克风的掩蔽值，包括：
使用单调递增函数对所述占比值进行非线性映射，获得任意所述声源分别在每一个麦克风的掩蔽值。

7.根据权利要求1至4任一项所述的方法，其特征在于，若所述声源为N个，其中，N为大于或等于2的自然数；
所述基于所述至少两个麦克风各自的原始带噪信号及所述掩蔽值，更新所述至少两个声源各自的时频估计信号，包括：
基于所述第N个声源在第x个麦克风的掩蔽值，与所述第x个麦克风的原始带噪信号，确定第x数值；其中，所述x小于或等于X的正整数，所述X为所述麦克风的总个数；
基于所述第1数值至所述第X数值，确定所述第N个声源更新后的时频估计信号。

8.一种音频信号处理装置，其特征在于，包括：
检测模块，用于由至少两个麦克风获取至少两个声源各自发出的音频信号，...

【专利技术属性】
技术研发人员：侯海宁，
申请(专利权)人：北京小米智能科技有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人