基于深度学习的声音隔离方法、装置和存储介质制造方法及图纸

技术编号：36686374 阅读：10 留言：0更新日期：2023-02-27 19:49

本申请公开了基于深度学习的声音隔离方法、装置和存储介质，本申请的方法包括获得用于构建DeepAudioSep模型的音频文件并对所述用于构建DeepAudioSep模型的音频文件进行预处理；构建DeepAudioSep模型并训练所述DeepAudioSep模型，所述DeepAudioSep模型包括一个混合源输入和十个隔离的源输出；通过所述DeepAudioSep模型进行声音分离。本申请将数据驱动和深度学习思想引入声音分离及噪声隔离处理，提升在环境监测领域对于声音分离及噪声隔离处理能力，因此具有广泛的噪声处理前景及实用价值。实用价值。实用价值。

全部详细技术资料下载

【技术实现步骤摘要】
基于深度学习的声音隔离方法、装置和存储介质

[0001]本申请涉及声音隔离领域，尤其是基于深度学习的声音隔离方法、装置和存储介质。

技术介绍

[0002]目前，针对噪声分离及隔离通常使用复杂的算法模型进行模型训练，而在实际应用中，由于声音的复杂性，这就导致利用少样本数据训练出的模型往往无法达到理想的效果，此外，常规的噪声分离往往是指定，但在实际的环境监测中，对于噪声往往是根据环境情况界定的，如果评估环境，往往是指扣除指定类型的噪声，譬如鸣笛，缺乏灵活的手段将混合声音分离为不同的声音并根据需要扣除某类判定为噪声的声音。
[0003]因此，相关技术存在的上述技术问题亟待解决。

技术实现思路

[0004]本申请旨在解决相关技术中的技术问题之一。为此，本申请实施例提供基于深度学习的声音隔离方法、装置和存储介质，能够提高声音分离的准确性、可靠性和稳定性。
[0005]根据本申请实施例一方面，提供一种基于深度学习的声音隔离方法，所述方法包括：
[0006]获得用于构建DeepAudioSep模型的音频文件并对所述用于构建DeepAudioSep模型的音频文件进行预处理；
[0007]构建DeepAudioSep模型并训练所述DeepAudioSep模型，所述DeepAudioSep模型包括一个混合源输入和十个隔离的源输出，其中所有源输出都经过了特征提取和归一化处理；
[0008]通过所述DeepAudioSep模型进行声音分离。
[0009]在其中一个实施例中，获得...

【技术保护点】

【技术特征摘要】
1.基于深度学习的声音隔离方法，其特征在于，所述方法包括：获得用于构建DeepAudioSep模型的音频文件并对所述用于构建DeepAudioSep模型的音频文件进行预处理；构建DeepAudioSep模型并训练所述DeepAudioSep模型，所述DeepAudioSep模型包括一个混合源输入和十个隔离的源输出，其中所有源输出都经过了特征提取和归一化处理；通过所述DeepAudioSep模型进行声音分离。2.根据权利要求1所述的基于深度学习的声音隔离方法，其特征在于，获得用于构建DeepAudioSep模型的音频文件，包括：将若干个类别的声音进行合成，得到第一音频文件，所述若干个类别的声音至少包括风声、雨声、雷声、虫声、蛙声、鸟声、狗声、人声；将若干个随机选择的额外音频文件叠加到所述第一音频文件中，得到所述用于构建DeepAudioSep模型的音频文件。3.根据权利要求1所述的基于深度学习的声音隔离方法，其特征在于，对所述用于构建DeepAudioSep模型的音频文件进行预处理，包括：将所述用于构建DeepAudioSep模型的音频文件处理为5秒的音频段，音高移动2或4步，拉伸1.2倍，响度在
‑
5和+5点之间的值移动；使用PCM编解码器在WAV格式编码，单声声道和采样频率为44100Hz，通过将输入和输出的音频文件转换为22050Hz，将音频文件的持续时间缩短到3秒，使用最小MAX参数进行归一化。4.根据权利要求1所述的基于深度学习的声音隔离方法，其特征在于，构建DeepAudioSep模型并训练所述DeepAudioSep模型，包括：从所述DeepAudioSep模型输出中提取若干个类，得到滤波器；对每个滤波器乘以所述DeepAudioSep模型的输入，得到预测的隔离输出滤波器，用于输入以获得十个计算输出，通过测量计算和提供的误差之间的均方误差计算每个类的损失目标输出；将每个类的损失目标输出汇总，使用ADAM优化算法优...

【专利技术属性】
技术研发人员：刘立峰，母健康，宋卫华，王文重，张建军，
申请(专利权)人：珠海高凌信息科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人