语音处理方法、装置、终端设备及存储介质制造方法及图纸

技术编号:22645798 阅读:45 留言:0更新日期:2019-11-26 17:07
本申请公开了一种语音处理方法、装置、终端设备及存储介质,该方法包括:获取带噪音频数据,带噪音频数据包括语音源信号;对带噪音频数据进行预处理,从带噪音频数据中提取带噪音频特征并输入预先训练好的语音处理网络模型,得到去噪后的音频特征,预先训练好的语音处理网络模型包括多个因果卷积层和至少一个递归神经网络层,多个因果卷积层用于根据带噪音频特征输出对应语音源信号的纹理特征,至少一个递归神经网络层用于根据纹理特征输出去噪后的音频特征;根据去噪后的音频特征,得到语音源信号的估计值,并将其作为去噪后的带噪音频数据进行输出。本申请通过因果卷积层和递归神经网络层实现对带噪音频数据的实时降噪,提高了语音降噪效果。

Speech processing method, device, terminal equipment and storage medium

The application discloses a voice processing method, device, terminal device and storage medium, the method comprises: acquiring noisy audio data, including voice source signal; preprocessing noisy audio data, extracting noisy audio features from noisy audio data and inputting the pre trained voice processing network model to obtain the audio features after denoising, and preprocessing The first trained speech processing network model includes multiple causal convolutions and at least one recurrent neural network layer. Multiple causal convolutions are used to output the texture features of the corresponding speech source signal according to the noisy audio features. At least one recurrent neural network layer is used to output the noisy audio features according to the texture features. According to the denoised audio features, the speech source signal is obtained Estimate the value and output it as denoised audio data. The application realizes real-time noise reduction of noisy audio data through causal convolution layer and recurrent neural network layer, and improves the effect of voice noise reduction.

【技术实现步骤摘要】
语音处理方法、装置、终端设备及存储介质
本申请涉及音频数据处理
,更具体地,涉及一种语音处理方法、装置、终端设备及存储介质。
技术介绍
随着通信技术和智能终端的迅速发展,人们基于智能终端的娱乐活动、社交活动等行为越来越不受地域、时间的限制,不仅可以在室内通过智能终端进行直播、通话、聊天等使用语音功能的活动,还可以在室外也实现各种功能。但随着环境的不同,智能终端在接收用户输入的语音的同时,往往还会接收到各种各样的背景噪声,影响用户输入的语音的可辨识度,不利于用户进行各种语音活动,因此如何在用户进行语音活动时有效地抑制背景噪声亟待解决。
技术实现思路
鉴于上述问题,本申请提出了一种语音处理方法、装置及终端设备,可以实现实时降噪,并提高语音降噪的效果。第一方面,本申请实施例提供了一种语音处理方法,所述方法包括:获取带噪音频数据,所述带噪音频数据包括语音源信号;对所述带噪音频数据进行预处理,从所述带噪音频数据中提取带噪音频特征;将所述带噪音频特征输入预先训练好的语音处理网络模型,得到去噪后的音频特征,所述预先训练好的语音处理网络模型包括多个因果卷积层和至少一个递归神经网络层,所述多个因果卷积层用于根据所述带噪音频特征输出对应所述语音源信号的纹理特征,所述至少一个递归神经网络层用于根据所述纹理特征输出所述去噪后的音频特征;根据所述去噪后的音频特征,得到所述语音源信号的估计值;将所述语音源信号的估计值作为去噪后的带噪音频数据,并输出。第二方面,本申请实施例提供了一种语音处理装置,所述装置包括:数据获取模块,用于获取带噪音频数据,所述带噪音频数据包括语音源信号;特征提取模块,用于对所述带噪音频数据进行预处理,从所述带噪音频数据中提取带噪音频特征;去噪处理模块,将所述带噪音频特征输入预先训练好的语音处理网络模型,得到去噪后的音频特征,所述预先训练好的语音处理网络模型包括多个因果卷积层和至少一个递归神经网络层,所述多个因果卷积层用于根据所述带噪音频特征输出对应所述语音源信号的纹理特征,所述至少一个递归神经网络层用于根据所述纹理特征输出所述去噪后的音频特征;信号合成模块,用于根据所述去噪后的音频特征,得到所述语音源信号的估计值;信号输出模块,用于将所述语音源信号的估计值作为去噪后的带噪音频数据,并输出。第三方面,本申请实施例提供了一种终端设备,其包括:存储器;一个或多个处理器,与存储器耦接;一个或多个程序,其中,一个或多个程序被存储在存储器中并被配置为由一个或多个处理器执行,一个或多个程序配置用于执行如上述第一方面所述的方法。第四方面,本申请实施例提供了一种计算机可读取存储介质,所述计算机可读取存储介质中存储有程序代码,所述程序代码可被处理器调用执行如上述第一方面所述的方法。本申请实施例提供的语音处理方法、装置、终端设备及存储介质,通过获取带噪音频数据,带噪音频数据包括语音源信号,然后对带噪音频数据进行预处理,从带噪音频数据中提取带噪音频特征,接着将带噪音频特征输入预先训练好的语音处理网络模型,得到去噪后的音频特征,其中,预先训练好的语音处理网络模型包括多个因果卷积层和至少一个递归神经网络层,多个因果卷积层用于根据带噪音频特征输出对应语音源信号的纹理特征,至少一个长短时记忆网络层用于根据纹理特征输出去噪后的音频特征,最后根据去噪后的音频特征,得到语音源信号的估计值。由此,本申请通过预先训练好的语音处理网络模型,基于因果卷积层和递归神经网络层从带噪音频数据中去除背景噪声得到语音源信号的估计值,并且由于因果卷积层和递归神经网络层保证模型不需要参考未来的输入信息,因此还可降低输入延时,实现实时降噪,提高语音降噪的效果。本申请的这些方面或其他方面在以下实施例的描述中会更加简明易懂。附图说明为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1示出了本申请一个实施例提供的语音处理方法的流程示意图;图2示出了适用于本申请实施例的一种长短时记忆网络的结构示意图;图3示出了本申请另一个实施例提供的语音处理方法的流程示意图;图4示出了本申请实施例提供的一种语音处理网络模型的训练方法的流程示意图;图5示出了本申请实施例提供的一种目标损失函数的构建方法的流程示意图;图6示出了适用于本申请实施例的一种对带噪音频数据进行降噪的流程示意图;图7示出了本申请一个实施例提供的语音处理装置的模块框图;图8示出了本申请实施例用于执行根据本申请实施例的语音处理方法的终端设备的结构框图;图9示出了本申请实施例的用于保存或者携带实现根据本申请一个实施例的语音处理方法的程序代码的存储单元。具体实施方式为了使本
的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。应当理解,此处描述的具体实施例仅用于解释本申请,并不用于限定本申请。语音降噪技术是一种从混合了语音源信号和背景噪声的带噪音频数据中,将语音源信号与背景噪声进行分离,从而消除或抑制背景噪声得到语音源信号的技术。传统的语音降噪技术是在假设背景噪声信号在时间上变化较小的前提下,估计并去除带噪音频数据中的背景噪声从而得到语音源信号。但是,大部分现实场景中背景噪声的变化较大,因此传统语音降噪技术存在降噪效果差、噪声泛化能力差等特点。另外,近年来也出现了一些利用神经网络的语音降噪算法,但是这些算法普遍存在着算法计算复杂度高、延时大等问题。基于上述问题,专利技术人在对现有的语音处理方法进行了一系列研究后发现,目前现有的语音处理方法存在着降噪效果差、延时大等问题。所以如何可以有效且实时地抑制背景噪声愈发重要。在研究的过程中,专利技术人研究了目前语音处理的困难点,更是综合考虑实际审核的需求,提出了本申请实施例的语音处理方法、装置、终端设备及计算机可读取存储介质。为了便于理解本申请实施例,下面先对本申请一些实施例所涉及的长短时记忆网络进行简要说明。下面将通过具体实施例对本申请实施例提供的语音处理方法、装置、终端设备及计算机可读取存储介质进行详细说明。请参阅图1,本申请实施例提供了一种语音处理方法,该方法可应用于终端设备,终端设备包括但不限于智能手机、笔记本电脑、台式电脑、平板电脑、可穿戴终端设备、游戏机等设置有音频接收装置(如麦克风)的电子设备。具体地,该方法包括步骤S101至步骤S104:步骤S101:获取带噪音频数据。于本实施例中,带噪音频数据可以是网络直播时、通话时等语音活动下产生的音频数据。具体地,带噪音频数据可以包括语音源信号和背景噪声,其中,背景噪声可以是各种不同类型的噪声信号,例如,因用户所处环境不同而可能存在的不同环境噪声如车辆噪声、工业噪声、风声、海浪声等,另外即使在安静本文档来自技高网
...

【技术保护点】
1.一种语音处理方法,其特征在于,所述方法包括:/n获取带噪音频数据,所述带噪音频数据包括语音源信号;/n对所述带噪音频数据进行预处理,从所述带噪音频数据中提取带噪音频特征;/n将所述带噪音频特征输入预先训练好的语音处理网络模型,得到去噪后的音频特征,所述预先训练好的语音处理网络模型包括多个因果卷积层和至少一个递归神经网络层,所述多个因果卷积层用于根据所述带噪音频特征输出对应所述语音源信号的纹理特征,所述至少一个递归神经网络层用于根据所述纹理特征输出所述去噪后的音频特征;/n根据所述去噪后的音频特征,得到所述语音源信号的估计值;/n将所述语音源信号的估计值作为去噪后的带噪音频数据,并输出。/n

【技术特征摘要】
1.一种语音处理方法,其特征在于,所述方法包括:
获取带噪音频数据,所述带噪音频数据包括语音源信号;
对所述带噪音频数据进行预处理,从所述带噪音频数据中提取带噪音频特征;
将所述带噪音频特征输入预先训练好的语音处理网络模型,得到去噪后的音频特征,所述预先训练好的语音处理网络模型包括多个因果卷积层和至少一个递归神经网络层,所述多个因果卷积层用于根据所述带噪音频特征输出对应所述语音源信号的纹理特征,所述至少一个递归神经网络层用于根据所述纹理特征输出所述去噪后的音频特征;
根据所述去噪后的音频特征,得到所述语音源信号的估计值;
将所述语音源信号的估计值作为去噪后的带噪音频数据,并输出。


2.根据权利要求1所述的方法,其特征在于,所述对所述带噪音频数据进行预处理,从所述带噪音频数据中提取带噪音频特征,包括:
将所述带噪音频数据按照预设时间周期分为若干个音频信号帧;
对每个所述音频信号帧做短时傅里叶变换,得到每个所述音频信号帧的频谱;
根据每个所述音频信号帧的频谱计算每个所述音频信号帧的幅值,并将每个所述音频信号帧的幅值作为每个所述音频信号帧的带噪音频特征。


3.根据权利要求2所述的方法,其特征在于,所述根据所述去噪后的音频特征,得到所述语音源信号的估计值之前,所述方法还包括:
根据每个所述音频信号帧的频谱计算每个所述音频信号帧的相位;
所述根据所述去噪后的音频特征,得到所述语音源信号的估计值,包括:
基于所述去噪后的音频特征和所述每个音频信号帧的相位,对每个所述音频信号帧做逆傅里叶变换,得到所述语音源信号的估计值。


4.根据权利要求1所述的方法,其特征在于,所述去噪后的音频特征包括目标估计幅值,所述将所述带噪音频特征输入预先训练好的语音处理网络模型,得到去噪后的音频特征,包括:
将所述带噪音频特征输入预先训练好的语音处理网络模型,得到所述语音源信号的目标估计幅值。


5.根据权利要求1所述的方法,其特征在于,所述去噪后的音频特征包括目标估计幅值比例,所述将所述带噪音频特征输入预先训练好的语音处理网络模型,得到去噪后的音频特征,包括:
将所述带噪音频特征输入预先训练好的语音处理网络模型,得到所述语音源信号的目标估计幅值比例,所述目标估计幅值比例为目标估计幅值占所述带噪音频特征的比例。


6.根据权利要求4或5所述的方法,其特征在于,所述预先训练好的语音处理网络模型包括三个因果卷积层和两个长短时记忆网络层。


7.根据权利要求4或5所述的方法,其特征在于,所述将所述带噪音频特征输入预先训练好的语音处理网络模型之前,所述方法还包括:
使用训练样本集训练所述语音处理网络模型,所述训练样本集包括样本带噪音频特征及样本目标真实参数;
所述使用训练样本集训练所述语...

【专利技术属性】
技术研发人员:黄杰雄戴长军黄健源
申请(专利权)人:广州华多网络科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1