基于深度神经网络的音频处理方法、装置及存储介质制造方法及图纸

技术编号：22596223 阅读：46 留言：0更新日期：2019-11-20 11:49

本申请公开了一种基于深度神经网络的语音处理方法，包括：获取基于深度神经网络的语音提取模型；接收具有语音部分和非语音部分的待处理的音频输入对象，所述音频输入对象包括一个或多个音频数据帧，并且所述一个或多个音频数据帧中的每个音频数据帧具有以预定采样间隔采样的一组音频数据，其中所述音频数据以时域数据格式表示；获取用户听力图谱以及与所述用户听力图谱相关联的一组用户增益补偿系数；以及将所述音频输入对象与所述一组用户增益补偿系数输入所述经训练的语音提取模型，从而得到所述经训练的语音提取模型输出的音频输出结果。

Audio processing method, device and storage medium based on deep neural network

The application discloses a speech processing method based on the depth neural network, including: acquiring a speech extraction model based on the depth neural network; receiving an audio input object to be processed with a voice part and a non voice part, the audio input object including one or more audio data frames, and each audio data frame in the one or more audio data frames has There is a set of audio data sampled at a predetermined sampling interval, wherein the audio data is represented in a time domain data format; obtaining a user hearing map and a set of user gain compensation coefficients associated with the user hearing map; and inputting the audio input object and the set of user gain compensation coefficients into the trained speech extraction model to obtain the The audio output results of the trained speech extraction model.

全部详细技术资料下载

【技术实现步骤摘要】
基于深度神经网络的音频处理方法、装置及存储介质
本申请涉及音频处理技术，更具体地，涉及一种基于深度神经网络的音频处理方法、装置及存储介质。
技术介绍
辅助听力设备(又称为“助听器”)被广泛应用于听力障碍患者的听力补偿，其可以将听力障碍患者原本听不到的声音放大，再利用他们的残余听力，使声音能送到大脑听觉中枢，从而感觉到声音。由于不同的听力障碍患者通常具有不同的听力图谱或听力损失图谱(其可以反映患者在不同音频频率上听力的不同程度的损失)，因此传统的助听器通常会基于一些频率补偿算法来放大某些特定频率范围的音频信号，例如放大某些高频音频信号。然而，这些传统的听力补偿算法没有办法区分人声和背景噪声，因此在被放大的助听频带上，噪声会和人声一并放大，这会影响人声的收听和识别。因此，有必要提供一种音频处理方法来解决现有技术存在的上述问题。
技术实现思路
本申请的一个目的在于提供一种基于深度神经网络的音频处理方法、装置与存储介质。在本申请的一个方面，提供了一种基于深度神经网络的音频处理方法，所述音频处理方法包括：获取基于深度神经网络的语音提取模型，其中，所述语音提取模型是通过下述步骤创建的：获取混合音频训练数据集，其中所述混合音频训练数据集包括多个混合音频数据帧，并且每个混合音频数据帧包括混合的语音数据与非语音数据，其中所述语音数据与所述非语音数据均以时域数据格式表示；获取至少一个听力图谱以及相关联的至少一组预定增益补偿系数，其中每个听力图谱对应一组预定增益补偿系数，并且每组预定增益补偿系数...

【技术保护点】
1.一种基于深度神经网络的音频处理方法，其特征在于，所述音频处理方法包括：/n获取基于深度神经网络的语音提取模型，其中，所述语音提取模型是通过下述步骤创建的：/n获取混合音频训练数据集，其中所述混合音频训练数据集包括多个混合音频数据帧，并且每个混合音频数据帧包括混合的语音数据与非语音数据，其中所述语音数据与所述非语音数据均以时域数据格式表示；/n获取至少一个听力图谱以及相关联的至少一组预定增益补偿系数，其中每个听力图谱对应一组预定增益补偿系数，并且每组预定增益补偿系数包括对应于不同音频信号频率的多个预定增益补偿系数；/n利用所述至少一组预定增益补偿系数对每个混合音频数据帧包括的语音数据进行增益补偿，从而生成经补偿的语音数据；以及/n利用所述混合音频训练数据集以及其中每个混合音频数据帧对应的经补偿的语音数据对所述基于深度神经网络的语音提取模型进行训练以得到经训练的语音提取模型；接收具有语音部分和非语音部分的待处理的音频输入对象，所述音频输入对象包括一个或多个音频数据帧，并且所述一个或多个音频数据帧中的每个音频数据帧具有以预定采样间隔采样的一组音频数据，其中所述音频数据以时域数据格式表示；...

【技术特征摘要】
1.一种基于深度神经网络的音频处理方法，其特征在于，所述音频处理方法包括：
获取基于深度神经网络的语音提取模型，其中，所述语音提取模型是通过下述步骤创建的：
获取混合音频训练数据集，其中所述混合音频训练数据集包括多个混合音频数据帧，并且每个混合音频数据帧包括混合的语音数据与非语音数据，其中所述语音数据与所述非语音数据均以时域数据格式表示；
获取至少一个听力图谱以及相关联的至少一组预定增益补偿系数，其中每个听力图谱对应一组预定增益补偿系数，并且每组预定增益补偿系数包括对应于不同音频信号频率的多个预定增益补偿系数；
利用所述至少一组预定增益补偿系数对每个混合音频数据帧包括的语音数据进行增益补偿，从而生成经补偿的语音数据；以及
利用所述混合音频训练数据集以及其中每个混合音频数据帧对应的经补偿的语音数据对所述基于深度神经网络的语音提取模型进行训练以得到经训练的语音提取模型；接收具有语音部分和非语音部分的待处理的音频输入对象，所述音频输入对象包括一个或多个音频数据帧，并且所述一个或多个音频数据帧中的每个音频数据帧具有以预定采样间隔采样的一组音频数据，其中所述音频数据以时域数据格式表示；获取用户听力图谱以及与所述用户听力图谱相关联的一组用户增益补偿系数；以及
将所述音频输入对象与所述一组用户增益补偿系数输入所述经训练的语音提取模型，从而得到所述经训练的语音提取模型输出的音频输出结果，其中所述音频输出结果以时域数据格式表示，并且所述音频输出结果相比于所述音频输入对象削弱或去除了所述音频输入对象中非语音部分的至少一部分。

2.根据权利要求1所述的音频处理方法，其特征在于，每个混合音频数据帧中的语音数据与非语音数据以预定增益比混合。

3.根据权利要求1所述的音频处理方法，其特征在于，所述利用所述至少一组预定增益补偿系数对每个混合音频数据帧包括的语音数据进行增益补偿，从而生成经补偿的语音数据的步骤包括：
对每个混合音频数据帧中的语音数据进行傅里叶变换以得到对应的以频域数据格式表示的语音数据；
利用所述至少一组预定增益补偿系数对每个混合音频数据帧对应的以频域数据格式表示的语音数据进行增益补偿，从而生成经补偿的以频域数据格式表示的语音数据；以及
对每个混合音频数据帧对应的经补偿的以频域数据格式表示的语音数据进行逆傅里叶变换，从而生成每个混合音频数据帧对应的经补偿的语音数据，其中所述经补偿的语音数据以时域数据格式表示。

4.根据权利要求1所述的音频处理方法，其特征在于，所述利用所述混合音频训练数据集以及其中每个混合音频数据帧对应的经补偿的语音数据对所述基于深度神经网络的语音提取模型进行训练以得到经训练的语音提取模型的步骤包括：
以所述混合音频训练数据集和与所述至少一个听力图谱相关联的至少一组预定增益补偿系数作为所述语音提取模型中输入层的输入，并且以所述混合音频训练数据集中每个混合音频数据帧对应的经补偿的语音数据作为所述语音提取模型中输出层的输出，对所述语音提取模型进行训练。

5.根据权利要求1所述的音频处理方法，其特征在于，对所述语音提取模型进行训练是使用逆误差传播算法进行的。

6.根据权利要求1所述的音频处理方法，其特征在于，所述经训练的语音提取模型具有加权系数集与偏置系数集，所述经训练的语音提取模型包括多个子处理层，每个子处理层利用所述加权系数集中的至少一组加权系数对每个音频数据帧进行加权处理。

7.根据权利要求6所述的音频处理方法，其特征在于，所述深度神经网络是循环神经网络。

8.根据权利要求7所述的音频处理方法，其特征在于，所述多个子处理层包括至少一个门控循环单元子处理层或长短时记忆网络子处理层。

9.根据权利要求1所述的音频处理方法，其特征在于，所述语音提取模型的输入层至少包括第一多个神经元用于接收所述音频输入对象，并且所述语音提取模型的输出层包括第二多个神经元用于输出所述音频输出结果，其中第一多个神经元的数量与所述第二多个神经元的数量相等。

10.根据权利要求9所述的音频处理方法，其特征在于，所述语音提取模型的输入层还包括第三多个神经元用于接收所述一组用户增益补偿系数。

11.根据权利要求1所述的音频处理方法，其特征在于，获取至少一个听力图谱以及相关联的至少一组预定增益补偿系数包括...

【专利技术属性】
技术研发人员：陆丛希，李林锴，孙鸿程，刘心可，
申请(专利权)人：上海又为智能科技有限公司，
类型：发明
国别省市：上海;31

全部详细技术资料下载我是这个专利的主人