The application discloses a voice processing method, device, terminal device and storage medium, the method comprises: acquiring noisy audio data, including voice source signal; preprocessing noisy audio data, extracting noisy audio features from noisy audio data and inputting the pre trained voice processing network model to obtain the audio features after denoising, and preprocessing The first trained speech processing network model includes multiple causal convolutions and at least one recurrent neural network layer. Multiple causal convolutions are used to output the texture features of the corresponding speech source signal according to the noisy audio features. At least one recurrent neural network layer is used to output the noisy audio features according to the texture features. According to the denoised audio features, the speech source signal is obtained Estimate the value and output it as denoised audio data. The application realizes real-time noise reduction of noisy audio data through causal convolution layer and recurrent neural network layer, and improves the effect of voice noise reduction.
【技术实现步骤摘要】
语音处理方法、装置、终端设备及存储介质
本申请涉及音频数据处理
,更具体地,涉及一种语音处理方法、装置、终端设备及存储介质。
技术介绍
随着通信技术和智能终端的迅速发展,人们基于智能终端的娱乐活动、社交活动等行为越来越不受地域、时间的限制,不仅可以在室内通过智能终端进行直播、通话、聊天等使用语音功能的活动,还可以在室外也实现各种功能。但随着环境的不同,智能终端在接收用户输入的语音的同时,往往还会接收到各种各样的背景噪声,影响用户输入的语音的可辨识度,不利于用户进行各种语音活动,因此如何在用户进行语音活动时有效地抑制背景噪声亟待解决。
技术实现思路
鉴于上述问题,本申请提出了一种语音处理方法、装置及终端设备,可以实现实时降噪,并提高语音降噪的效果。第一方面,本申请实施例提供了一种语音处理方法,所述方法包括:获取带噪音频数据,所述带噪音频数据包括语音源信号;对所述带噪音频数据进行预处理,从所述带噪音频数据中提取带噪音频特征;将所述带噪音频特征输入预先训练好的语音处理网络模型,得到去噪后的音频特征,所述预先训练好的语音处理网络模型包括多个因果卷积层和至少一个递归神经网络层,所述多个因果卷积层用于根据所述带噪音频特征输出对应所述语音源信号的纹理特征,所述至少一个递归神经网络层用于根据所述纹理特征输出所述去噪后的音频特征;根据所述去噪后的音频特征,得到所述语音源信号的估计值;将所述语音源信号的估计值作为去噪后的带噪音频数据,并输出。第二方面,本申请实施例提供了一种语音处理装置,所述装置 ...
【技术保护点】
1.一种语音处理方法,其特征在于,所述方法包括:/n获取带噪音频数据,所述带噪音频数据包括语音源信号;/n对所述带噪音频数据进行预处理,从所述带噪音频数据中提取带噪音频特征;/n将所述带噪音频特征输入预先训练好的语音处理网络模型,得到去噪后的音频特征,所述预先训练好的语音处理网络模型包括多个因果卷积层和至少一个递归神经网络层,所述多个因果卷积层用于根据所述带噪音频特征输出对应所述语音源信号的纹理特征,所述至少一个递归神经网络层用于根据所述纹理特征输出所述去噪后的音频特征;/n根据所述去噪后的音频特征,得到所述语音源信号的估计值;/n将所述语音源信号的估计值作为去噪后的带噪音频数据,并输出。/n
【技术特征摘要】
1.一种语音处理方法,其特征在于,所述方法包括:
获取带噪音频数据,所述带噪音频数据包括语音源信号;
对所述带噪音频数据进行预处理,从所述带噪音频数据中提取带噪音频特征;
将所述带噪音频特征输入预先训练好的语音处理网络模型,得到去噪后的音频特征,所述预先训练好的语音处理网络模型包括多个因果卷积层和至少一个递归神经网络层,所述多个因果卷积层用于根据所述带噪音频特征输出对应所述语音源信号的纹理特征,所述至少一个递归神经网络层用于根据所述纹理特征输出所述去噪后的音频特征;
根据所述去噪后的音频特征,得到所述语音源信号的估计值;
将所述语音源信号的估计值作为去噪后的带噪音频数据,并输出。
2.根据权利要求1所述的方法,其特征在于,所述对所述带噪音频数据进行预处理,从所述带噪音频数据中提取带噪音频特征,包括:
将所述带噪音频数据按照预设时间周期分为若干个音频信号帧;
对每个所述音频信号帧做短时傅里叶变换,得到每个所述音频信号帧的频谱;
根据每个所述音频信号帧的频谱计算每个所述音频信号帧的幅值,并将每个所述音频信号帧的幅值作为每个所述音频信号帧的带噪音频特征。
3.根据权利要求2所述的方法,其特征在于,所述根据所述去噪后的音频特征,得到所述语音源信号的估计值之前,所述方法还包括:
根据每个所述音频信号帧的频谱计算每个所述音频信号帧的相位;
所述根据所述去噪后的音频特征,得到所述语音源信号的估计值,包括:
基于所述去噪后的音频特征和所述每个音频信号帧的相位,对每个所述音频信号帧做逆傅里叶变换,得到所述语音源信号的估计值。
4.根据权利要求1所述的方法,其特征在于,所述去噪后的音频特征包括目标估计幅值,所述将所述带噪音频特征输入预先训练好的语音处理网络模型,得到去噪后的音频特征,包括:
将所述带噪音频特征输入预先训练好的语音处理网络模型,得到所述语音源信号的目标估计幅值。
5.根据权利要求1所述的方法,其特征在于,所述去噪后的音频特征包括目标估计幅值比例,所述将所述带噪音频特征输入预先训练好的语音处理网络模型,得到去噪后的音频特征,包括:
将所述带噪音频特征输入预先训练好的语音处理网络模型,得到所述语音源信号的目标估计幅值比例,所述目标估计幅值比例为目标估计幅值占所述带噪音频特征的比例。
6.根据权利要求4或5所述的方法,其特征在于,所述预先训练好的语音处理网络模型包括三个因果卷积层和两个长短时记忆网络层。
7.根据权利要求4或5所述的方法,其特征在于,所述将所述带噪音频特征输入预先训练好的语音处理网络模型之前,所述方法还包括:
使用训练样本集训练所述语音处理网络模型,所述训练样本集包括样本带噪音频特征及样本目标真实参数;
所述使用训练样本集训练所述语...
【专利技术属性】
技术研发人员:黄杰雄,戴长军,黄健源,
申请(专利权)人:广州华多网络科技有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。