基于深度神经网络的音频处理方法、装置及存储介质制造方法及图纸

技术编号:22596223 阅读:46 留言:0更新日期:2019-11-20 11:49
本申请公开了一种基于深度神经网络的语音处理方法,包括:获取基于深度神经网络的语音提取模型;接收具有语音部分和非语音部分的待处理的音频输入对象,所述音频输入对象包括一个或多个音频数据帧,并且所述一个或多个音频数据帧中的每个音频数据帧具有以预定采样间隔采样的一组音频数据,其中所述音频数据以时域数据格式表示;获取用户听力图谱以及与所述用户听力图谱相关联的一组用户增益补偿系数;以及将所述音频输入对象与所述一组用户增益补偿系数输入所述经训练的语音提取模型,从而得到所述经训练的语音提取模型输出的音频输出结果。

Audio processing method, device and storage medium based on deep neural network

The application discloses a speech processing method based on the depth neural network, including: acquiring a speech extraction model based on the depth neural network; receiving an audio input object to be processed with a voice part and a non voice part, the audio input object including one or more audio data frames, and each audio data frame in the one or more audio data frames has There is a set of audio data sampled at a predetermined sampling interval, wherein the audio data is represented in a time domain data format; obtaining a user hearing map and a set of user gain compensation coefficients associated with the user hearing map; and inputting the audio input object and the set of user gain compensation coefficients into the trained speech extraction model to obtain the The audio output results of the trained speech extraction model.

【技术实现步骤摘要】
基于深度神经网络的音频处理方法、装置及存储介质
本申请涉及音频处理技术,更具体地,涉及一种基于深度神经网络的音频处理方法、装置及存储介质。
技术介绍
辅助听力设备(又称为“助听器”)被广泛应用于听力障碍患者的听力补偿,其可以将听力障碍患者原本听不到的声音放大,再利用他们的残余听力,使声音能送到大脑听觉中枢,从而感觉到声音。由于不同的听力障碍患者通常具有不同的听力图谱或听力损失图谱(其可以反映患者在不同音频频率上听力的不同程度的损失),因此传统的助听器通常会基于一些频率补偿算法来放大某些特定频率范围的音频信号,例如放大某些高频音频信号。然而,这些传统的听力补偿算法没有办法区分人声和背景噪声,因此在被放大的助听频带上,噪声会和人声一并放大,这会影响人声的收听和识别。因此,有必要提供一种音频处理方法来解决现有技术存在的上述问题。
技术实现思路
本申请的一个目的在于提供一种基于深度神经网络的音频处理方法、装置与存储介质。在本申请的一个方面,提供了一种基于深度神经网络的音频处理方法,所述音频处理方法包括:获取基于深度神经网络的语音提取模型,其中,所述语音提取模型是通过下述步骤创建的:获取混合音频训练数据集,其中所述混合音频训练数据集包括多个混合音频数据帧,并且每个混合音频数据帧包括混合的语音数据与非语音数据,其中所述语音数据与所述非语音数据均以时域数据格式表示;获取至少一个听力图谱以及相关联的至少一组预定增益补偿系数,其中每个听力图谱对应一组预定增益补偿系数,并且每组预定增益补偿系数包括对应于不同音频信号频率的多个预定增益补偿系数;利用所述至少一组预定增益补偿系数对每个混合音频数据帧包括的语音数据进行增益补偿,从而生成经补偿的语音数据;以及利用所述混合音频训练数据集以及其中每个混合音频数据帧对应的经补偿的语音数据对所述基于深度神经网络的语音提取模型进行训练以得到经训练的语音提取模型;接收具有语音部分和非语音部分的待处理的音频输入对象,所述音频输入对象包括一个或多个音频数据帧,并且所述一个或多个音频数据帧中的每个音频数据帧具有以预定采样间隔采样的一组音频数据,其中所述音频数据以时域数据格式表示;获取用户听力图谱以及与所述用户听力图谱相关联的一组用户增益补偿系数;以及将所述音频输入对象与所述一组用户增益补偿系数输入所述经训练的语音提取模型,从而得到所述经训练的语音提取模型输出的音频输出结果,其中所述音频输出结果以时域数据格式表示,并且所述音频输出结果相比于所述音频输入对象削弱或去除了所述音频输入对象中非语音部分的至少一部分。在本申请的另一方面,还提供了一种基于深度神经网络的音频处理装置,所述音频处理装置包括非暂态计算机存储介质,其上存储有一个或多个可执行指令,所述一个或多个可执行指令被处理器执行后执行上述方面的处理步骤。在本申请的又一方面,还提供了一种一种非暂态计算机存储介质,其上存储有一个或多个可执行指令,所述一个或多个可执行指令被处理器执行后执行上述方面的处理步骤。以上为本申请的概述,可能有简化、概括和省略细节的情况,因此本领域的技术人员应该认识到,该部分仅是示例说明性的,而不旨在以任何方式限定本申请范围。本概述部分既非旨在确定所要求保护主题的关键特征或必要特征,也非旨在用作为确定所要求保护主题的范围的辅助手段。附图说明通过下面说明书和所附的权利要求书并与附图结合,将会更加充分地清楚理解本申请内容的上述和其他特征。可以理解,这些附图仅描绘了本申请内容的若干实施方式,因此不应认为是对本申请内容范围的限定。通过采用附图,本申请内容将会得到更加明确和详细地说明。图1a示出了根据本申请一个实施例的示例性听力图谱;图1b示出了根据本申请一个实施例的与图1a所示的听力图谱中的听力曲线对应的一组增益系数;图2a示出了根据本申请一个实施例的语音提取模型的示例;图2b示出了根据本申请另一实施例的语音提取模型的示例;图3示出了根据本申请一个实施例的创建基于深度神经网络的语音提取模型的方法;图4示出了根据本申请一个实施例的基于深度神经网络的音频处理方法;图5a示出了混合了语音信号与非语音信号的示例性音频信号;图5b和5c示出了现有音频处理方法对图5a所示的示例性音频信号进行处理的结果;图5d示出了用本申请实施例的音频处理方法对图5a所示的示例性音频信号进行处理的结果。具体实施方式在下面的详细描述中,参考了构成其一部分的附图。在附图中,类似的符号通常表示类似的组成部分,除非上下文另有说明。详细描述、附图和权利要求书中描述的说明性实施方式并非旨在限定。在不偏离本申请的主题的精神或范围的情况下,可以采用其他实施方式,并且可以做出其他变化。可以理解,可以对本申请中一般性描述的、在附图中图解说明的本申请内容的各个方面进行多种不同构成的配置、替换、组合,设计,而所有这些都明确地构成本申请内容的一部分。图1a示出了根据本申请一个实施例的示例性听力图谱。可以理解,不同的听力损失患者可以具有不同的听力图谱。如图1a所示,听力曲线C表示正常人耳的听力曲线,在250Hz至8000Hz的音频信号频率范围内,响度大体在15dBSPL以上的声音都可以被听到。听力曲线A和B则分别表示听力障碍患者的听力曲线,例如患者左耳和右耳的听力曲线。可以看出这两个听力曲线A和B相比于正常听力曲线C具有明显的听力损失。例如对于听力曲线A,当频率在1000Hz以下时,仅有响度在45dBSPL以上的声音才能够被听到;在2000Hz到3000Hz的频率范围,仅有响度在约85dBSPL以上的声音才能够被听到;而当频率在4000Hz以上时,基本上响度为120dBSPL的声音也无法被听到。类似地,对于听力曲线B,其听力损失相较于听力曲线A更为明显,在2000Hz以上的较高频率下,响度为120dBSPL的声音也无法被听到。在一些实施例中,将异常听力曲线补偿至正常听力曲线(例如以能够听到最小响度为20dBSPL的声音为例)所需的放大增益对应于听力损失,例如,对于曲线A而言,在250Hz至1000Hz的频带上,听力损失约为(45-20)dBSPL=25dBSPL。由图1a所示的听力图谱可以看出,对于听力障碍患者而言,其听觉在不同的音频信号频率往往具有不同的听力损失,因此需要基于不同的频率提供不同的听力补偿。例如,对于听力曲线A和B,在低频带(例如频率小于1000Hz)可以对声音进行小幅度放大,而在高频带(例如频率大于1000Hz)提供较大幅度的放大,以此补偿高频范围上显著的听力损失。由于听力补偿的目的在于补偿听力损失,以使得听力障碍患者能够较为理想地感受到外部声音,因此通常补偿处理后的声音通常希望处于一定的响度范围内,既不要太小也不要过大。相应地,在一些实施例中,在同一频率下,不同响度的声音期望可以被以不同的增益补偿系数放大或缩小。例如,在100Hz至200Hz的频率范围内,对于30至90dBSPL的声音可以进行小幅度放大,对本文档来自技高网...

【技术保护点】
1.一种基于深度神经网络的音频处理方法,其特征在于,所述音频处理方法包括:/n获取基于深度神经网络的语音提取模型,其中,所述语音提取模型是通过下述步骤创建的:/n获取混合音频训练数据集,其中所述混合音频训练数据集包括多个混合音频数据帧,并且每个混合音频数据帧包括混合的语音数据与非语音数据,其中所述语音数据与所述非语音数据均以时域数据格式表示;/n获取至少一个听力图谱以及相关联的至少一组预定增益补偿系数,其中每个听力图谱对应一组预定增益补偿系数,并且每组预定增益补偿系数包括对应于不同音频信号频率的多个预定增益补偿系数;/n利用所述至少一组预定增益补偿系数对每个混合音频数据帧包括的语音数据进行增益补偿,从而生成经补偿的语音数据;以及/n利用所述混合音频训练数据集以及其中每个混合音频数据帧对应的经补偿的语音数据对所述基于深度神经网络的语音提取模型进行训练以得到经训练的语音提取模型;接收具有语音部分和非语音部分的待处理的音频输入对象,所述音频输入对象包括一个或多个音频数据帧,并且所述一个或多个音频数据帧中的每个音频数据帧具有以预定采样间隔采样的一组音频数据,其中所述音频数据以时域数据格式表示;获取用户听力图谱以及与所述用户听力图谱相关联的一组用户增益补偿系数;以及/n将所述音频输入对象与所述一组用户增益补偿系数输入所述经训练的语音提取模型,从而得到所述经训练的语音提取模型输出的音频输出结果,其中所述音频输出结果以时域数据格式表示,并且所述音频输出结果相比于所述音频输入对象削弱或去除了所述音频输入对象中非语音部分的至少一部分。/n...

【技术特征摘要】
1.一种基于深度神经网络的音频处理方法,其特征在于,所述音频处理方法包括:
获取基于深度神经网络的语音提取模型,其中,所述语音提取模型是通过下述步骤创建的:
获取混合音频训练数据集,其中所述混合音频训练数据集包括多个混合音频数据帧,并且每个混合音频数据帧包括混合的语音数据与非语音数据,其中所述语音数据与所述非语音数据均以时域数据格式表示;
获取至少一个听力图谱以及相关联的至少一组预定增益补偿系数,其中每个听力图谱对应一组预定增益补偿系数,并且每组预定增益补偿系数包括对应于不同音频信号频率的多个预定增益补偿系数;
利用所述至少一组预定增益补偿系数对每个混合音频数据帧包括的语音数据进行增益补偿,从而生成经补偿的语音数据;以及
利用所述混合音频训练数据集以及其中每个混合音频数据帧对应的经补偿的语音数据对所述基于深度神经网络的语音提取模型进行训练以得到经训练的语音提取模型;接收具有语音部分和非语音部分的待处理的音频输入对象,所述音频输入对象包括一个或多个音频数据帧,并且所述一个或多个音频数据帧中的每个音频数据帧具有以预定采样间隔采样的一组音频数据,其中所述音频数据以时域数据格式表示;获取用户听力图谱以及与所述用户听力图谱相关联的一组用户增益补偿系数;以及
将所述音频输入对象与所述一组用户增益补偿系数输入所述经训练的语音提取模型,从而得到所述经训练的语音提取模型输出的音频输出结果,其中所述音频输出结果以时域数据格式表示,并且所述音频输出结果相比于所述音频输入对象削弱或去除了所述音频输入对象中非语音部分的至少一部分。


2.根据权利要求1所述的音频处理方法,其特征在于,每个混合音频数据帧中的语音数据与非语音数据以预定增益比混合。


3.根据权利要求1所述的音频处理方法,其特征在于,所述利用所述至少一组预定增益补偿系数对每个混合音频数据帧包括的语音数据进行增益补偿,从而生成经补偿的语音数据的步骤包括:
对每个混合音频数据帧中的语音数据进行傅里叶变换以得到对应的以频域数据格式表示的语音数据;
利用所述至少一组预定增益补偿系数对每个混合音频数据帧对应的以频域数据格式表示的语音数据进行增益补偿,从而生成经补偿的以频域数据格式表示的语音数据;以及
对每个混合音频数据帧对应的经补偿的以频域数据格式表示的语音数据进行逆傅里叶变换,从而生成每个混合音频数据帧对应的经补偿的语音数据,其中所述经补偿的语音数据以时域数据格式表示。


4.根据权利要求1所述的音频处理方法,其特征在于,所述利用所述混合音频训练数据集以及其中每个混合音频数据帧对应的经补偿的语音数据对所述基于深度神经网络的语音提取模型进行训练以得到经训练的语音提取模型的步骤包括:
以所述混合音频训练数据集和与所述至少一个听力图谱相关联的至少一组预定增益补偿系数作为所述语音提取模型中输入层的输入,并且以所述混合音频训练数据集中每个混合音频数据帧对应的经补偿的语音数据作为所述语音提取模型中输出层的输出,对所述语音提取模型进行训练。


5.根据权利要求1所述的音频处理方法,其特征在于,对所述语音提取模型进行训练是使用逆误差传播算法进行的。


6.根据权利要求1所述的音频处理方法,其特征在于,所述经训练的语音提取模型具有加权系数集与偏置系数集,所述经训练的语音提取模型包括多个子处理层,每个子处理层利用所述加权系数集中的至少一组加权系数对每个音频数据帧进行加权处理。


7.根据权利要求6所述的音频处理方法,其特征在于,所述深度神经网络是循环神经网络。


8.根据权利要求7所述的音频处理方法,其特征在于,所述多个子处理层包括至少一个门控循环单元子处理层或长短时记忆网络子处理层。


9.根据权利要求1所述的音频处理方法,其特征在于,所述语音提取模型的输入层至少包括第一多个神经元用于接收所述音频输入对象,并且所述语音提取模型的输出层包括第二多个神经元用于输出所述音频输出结果,其中第一多个神经元的数量与所述第二多个神经元的数量相等。


10.根据权利要求9所述的音频处理方法,其特征在于,所述语音提取模型的输入层还包括第三多个神经元用于接收所述一组用户增益补偿系数。


11.根据权利要求1所述的音频处理方法,其特征在于,获取至少一个听力图谱以及相关联的至少一组预定增益补偿系数包括...

【专利技术属性】
技术研发人员:陆丛希李林锴孙鸿程刘心可
申请(专利权)人:上海又为智能科技有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利