音频分类网络的训练方法及电子设备、存储介质、计算机程序产品技术

技术编号：44240985 阅读：1 留言：0更新日期：2025-02-11 13:40

本申请提供一种音频分类网络的训练方法及电子设备、存储介质、计算机程序产品，包括：通过数据集内音频数据训练出教师网络；其中，所述数据集内每一音频数据携带至少一个二分类任务的原始标签；通过已训练的教师网络为所述数据集内音频数据生成与每个二分类任务对应的预测类别；基于每一音频数据的原始标签，以及所述预测类别，确定该音频数据的目标标签；通过携带多个目标标签的音频数据训练出学生网络，作为音频分类网络。本申请方案，避免标签重标注过程中引入新的错误标签的问题，提高学生网络的训练效果。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及音频处理，特别涉及一种音频分类网络的训练方法及电子设备、计算机可读存储介质、计算机程序产品。

技术介绍

1、多标签音频分类时对音频信号进行识别，并分配多个相关类别标签的过程。随着人工智能技术的发展，多标签音频分类方法得到了快速发展，这也得益于越来越多公开的多标签音频数据集。目前，公开的数据集中，音频数据对应的标签存在标签含噪声的问题，即音频数据的标签存在错标、漏标的情况。在深度神经网络的训练过程中，样本数据及其标签对网络模型的收敛程度、分类性能起到重要影响，标签噪声会对网络模型产生消极影响，使得网络模型的分类准确率下降、泛化能力受限制。

2、为解决这一问题，相关方案会设计一个参数量大、网络层数深、结构复杂的教师网络，使用公开的数据集对教师网络进行训练，并利用已训练的教师网络对数据集中的样本数据进行重新标注，以减少数据集内样本数据的错误标签，进而通过重新标注标签的数据集训练出学生网络。

3、利用教师网络对数据集内样本数据进行重标注的过程中，会出现教师网络输出的预测标签与样本数据的原始标签不同的情况，此时通常会选择预测标签作为新标签。然而，教师网络输出的预测标签可能错误，过于相信教师网络的判断，在减少原始标签错误的同时会引入新的错误标签，导致最终无法训练出理想的学生网络。

技术实现思路

1、本申请实施例的目的在于提供一种音频分类网络的训练方法及电子设备、存储介质、计算机程序产品，用于避免标签重标注过程中引入新的错误标签的问题，提高学生网络的训练效果。</p>

2、一方面，本申请提供了一种音频分类网络的训练方法，包括：

3、通过数据集内音频数据训练出教师网络；其中，所述数据集内每一音频数据携带至少一个二分类任务的原始标签；

4、通过已训练的教师网络为所述数据集内音频数据生成与每个二分类任务对应的预测类别；

5、基于每一音频数据的原始标签，以及所述预测类别，确定该音频数据的目标标签；

6、通过携带多个目标标签的音频数据训练出学生网络，作为音频分类网络。

7、在一实施例中，所述通过数据集内音频数据训练出教师网络，包括：

8、对所述数据集内音频数据进行快速傅里叶变换，得到变换结果；

9、对所述变换结果进行梅尔滤波器组处理，得到处理结果；

10、对所述处理结果取对数，并为对数进行离散余弦变换，得到音频特征；

11、通过携带原始标签的音频特征训练出教师网络。

12、在一实施例中，如果所述音频数据在任一二分类任务的原始标签为1，表示该音频数据属于该二分类任务对应的类别；如果所述音频数据在任一二分类任务的原始标签为0，表示该音频数据不属于该二分类任务对应的类别；所述预测类别的取值范围在0到1之间，表示所述音频数据属于该二分类任务对应类别的置信度；

13、所述基于每一音频数据的原始标签，以及所述预测类别，确定该音频数据的目标标签，包括：

14、对于任一音频数据，若该音频数据在任一二分类任务的原始标签为0，且该音频数据在该二分类任务的预测类别大于等于1-t，确定该音频数据在该二分类任务的目标标签为1；其中，t为0到0.5之间的常数；

15、对于任一音频数据，若该音频数据在任一二分类任务的原始标签为1，且该音频数据在该二分类任务的预测类别小于t，确定该音频数据在该二分类任务的目标标签为0。

16、在一实施例中，如果所述音频数据在任一二分类任务的原始标签为1，表示该音频数据属于该二分类任务对应的类别；如果所述音频数据在任一二分类任务的原始标签为0，表示该音频数据不属于该二分类任务对应的类别；所述预测类别的取值范围在0到1之间，表示所述音频数据属于该二分类任务对应类别的置信度；

17、所述基于每一音频数据的原始标签，以及所述预测类别，确定该音频数据的目标标签，包括：

18、对于任一音频数据，若该音频数据在任一二分类任务的原始标签为0，且该音频数据在该二分类任务的预测类别小于1-t，确定该音频数据在该二分类任务的目标标签为被屏蔽标签；其中，t为0到0.5之间的常数；

19、对于任一音频数据，若该音频数据在任一二分类任务的原始标签为1，且该音频数据在该二分类任务的预测类别小于0.5且大于等于t，确定该音频数据在该二分类任务的目标标签为被屏蔽标签。

20、在一实施例中，所述通过多个携带目标标签的音频数据训练出学生网络，包括：

21、对所述多个携带目标标签的音频数据进行数据增强，得到多个增强后音频数据；

22、对每一增强后音频数据进行快速傅里叶变换，得到变换结果；

23、对所述变换结果进行梅尔滤波器组处理，得到处理结果；

24、对所述处理结果取对数，并为对数进行离散余弦变换，得到音频特征；

25、通过携带目标标签的音频特征训练出学生网络。

26、在一实施例中，所述对所述多个携带目标标签的音频数据进行数据增强，得到多个增强后音频数据，包括：

27、从多个音频数据中选择两个音频数据，并为两个音频数据分别乘以随机分贝的线性系数，得到两个调整后音频数据；

28、将所述两个调整后音频数据进行叠加，并将所述两个调整后音频数据的目标标签进行融合，得到增强后音频数据；其中，所述增加后音频数据携带融合后的目标标签；

29、通过多次选择两个音频数据进行处理，得到多个增加后音频数据。

30、在一实施例中，所述对所述多个携带目标标签的音频数据进行数据增强，得到多个增强后音频数据，包括：

31、从多个音频数据中选择两个音频数据，并为两个音频数据分别乘以随机分贝的线性系数，得到两个调整后音频数据；

32、从所述两个调整后音频数据中分别截取数据片段，并将截取到的多个数据片段进行拼接，将所述两个调整后音频数据的目标标签进行融合，得到增强后音频数据；其中，所述增加后音频数据携带融合后的目标标签；

33、通过多次选择两个音频数据进行处理，得到多个增加后音频数据。

34、另一方面，本申请提供了一种电子设备，所述电子设备包括：

35、处理器；

36、用于存储处理器可执行指令的存储器；

37、其中，所述处理器被配置为执行上述音频分类网络的训练方法。

38、进一步的，本申请提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序可由处理器执行以完成上述音频分类网络的训练方法。

39、此外，本申请提供了一种计算机程序产品，包括计算机程序/指令，该计算机程序/指令被处理器执行时实现上述音频分类网络的训练方法。

40、本申请方案，在利用教师网络对数据集内样本数据重标注的过程中，并非直接以教师网络的预测类别作为新标签，而是通过原始标签和预测类别确定目标标签，避免因预测类别错误而直接引入新的错误标本文档来自技高网...

【技术保护点】

1.一种音频分类网络的训练方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述通过数据集内音频数据训练出教师网络，包括：

3.根据权利要求1所述的方法，其特征在于，如果所述音频数据在任一二分类任务的原始标签为1，表示该音频数据属于该二分类任务对应的类别；如果所述音频数据在任一二分类任务的原始标签为0，表示该音频数据不属于该二分类任务对应的类别；所述预测类别的取值范围在0到1之间，表示所述音频数据属于该二分类任务对应类别的置信度；

4.根据权利要求1所述的方法，其特征在于，如果所述音频数据在任一二分类任务的原始标签为1，表示该音频数据属于该二分类任务对应的类别；如果所述音频数据在任一二分类任务的原始标签为0，表示该音频数据不属于该二分类任务对应的类别；所述预测类别的取值范围在0到1之间，表示所述音频数据属于该二分类任务对应类别的置信度；

5.根据权利要求1所述的方法，其特征在于，所述通过多个携带目标标签的音频数据训练出学生网络，包括：

6.根据权利要求5所述的方法，其特征在于，所述对所述多个携带目标标签

7.根据权利要求5所述的方法，其特征在于，所述对所述多个携带目标标签的音频数据进行数据增强，得到多个增强后音频数据，包括：

8.一种电子设备，其特征在于，所述电子设备包括：

9.一种计算机可读存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序可由处理器执行以完成权利要求1-7任意一项所述的音频分类网络的训练方法。

10.一种计算机程序产品，包括计算机程序/指令，其特征在于，该计算机程序/指令被处理器执行时实现权利要求1-7任意一项所述的音频分类网络的训练方法。

...

【技术特征摘要】

1.一种音频分类网络的训练方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述通过数据集内音频数据训练出教师网络，包括：

【专利技术属性】
技术研发人员：梁昌城，
申请(专利权)人：恒玄科技上海股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人