音频分类模型训练方法、装置、设备和存储介质制造方法及图纸

技术编号:37368866 阅读:13 留言:0更新日期:2023-04-27 07:14
本公开提供了一种音频分类模型训练方法、装置、设备和存储介质。所述音频分类模型训练方法包括:利用弱标签音频数据集对神经网络模型进行训练,得到多标签分类模型;将多标签分类模型中的特征提取网络迁移到用于特定任务的音频分类模型中;其中,特征提取网络用于提取音频数据的嵌入特征;利用特定任务对应的强标签音频数据集训练包含有特征提取网络的音频分类模型。本公开实施例在训练用于特定任务的音频分类模型时,能够降低训练数据的人工标注成本,提高模型训练效率;并且能够保证模型性能。性能。性能。

【技术实现步骤摘要】
音频分类模型训练方法、装置、设备和存储介质


[0001]本公开涉及人工智能
,尤其涉及一种音频分类模型训练方法、装置、设备和存储介质。

技术介绍

[0002]音频模式识别是机器理解周边世界的重要方式。自动音频识别是一个比较宽的研究领域,主要可分为声音相关和语音相关的研究。语音相关主要集中在语言内容本身,比如,谁在什么时候讲的什么内容。声音相关则主要关注分类,比如,声音场景、声音情感或者声音事件等。
[0003]相关技术中,音频模式识别会使用具体场景领域训练的模型来处理该具体场景领域的分类任务,比如,使用语音场景相关领域训练的模型处理语音场景相关领域的任务,使用音乐场景相关领域训练的模型处理音乐场景相关领域的任务。
[0004]然而,在具体场景领域的模型训练之前,为了保证模型性能,需要采用人工方式对大量的音频数据进行强标注,而每个音频数据里通常会包含不同的声音,如果把每个音频数据都进行强标注,这样会使得数据标注工作费时费力,导致训练样本的人工标注成本较高,且训练样本准备时间较长,影响模型训练效率。

技术实现思路

[0005]本公开实施例提供一种音频分类模型训练方法、装置、设备和存储介质。
[0006]根据本公开实施例的第一方面,提供了一种音频分类模型训练方法,所述方法包括:
[0007]利用弱标签音频数据集对神经网络模型进行训练,得到多标签分类模型;其中,所述弱标签音频数据集包括带有弱标签的第一音频数据,所述弱标签包括所述第一音频数据包含的各音频类别,且不包括各所述音频类别的时间信息;
[0008]将所述多标签分类模型中的特征提取网络迁移到用于特定任务的音频分类模型中;其中,所述特征提取网络用于提取音频数据的嵌入特征;
[0009]利用所述特定任务对应的强标签音频数据集训练包含有所述特征提取网络的所述音频分类模型;其中,所述强标签音频数据集包括带有强标签的第二音频数据,所述强标签包括所述第二音频数据包含的各音频类别以及各所述音频类别的时间信息。
[0010]在一个实施例中,所述方法还包括:
[0011]根据包含多个音频类别的开源数据集,构建所述弱标签音频数据集。
[0012]在一个实施例中,所述利用弱标签音频数据集对神经网络模型进行训练,得到多标签分类模型,包括:
[0013]对所述弱标签音频数据集中带有弱标签的第一音频数据进行处理,得到所述第一音频数据的频谱特征;
[0014]将所述第一音频数据的频谱特征输入到所述神经网络模型中,得到所述神经模型
输出的所述第一音频数据对应的类别预测结果;
[0015]根据所述第一音频数据对应的类别预测结果以及所述弱标签,确定所述神经网络模型的损失函数值;
[0016]根据所述神经网络模型的损失函数值对所述神经网络模型进行训练,得到所述多标签分类模型。
[0017]在一个实施例中,所述利用弱标签音频数据集对神经网络模型进行训练,得到多标签分类模型,包括:
[0018]利用所述弱标签音频数据集对神经网络模型进行预训练,得到预训练后的所述神经网络模型;
[0019]利用预训练后的所述神经网络模型对无标签的音频数据进行打标签处理,得到带有伪标签的所述音频数据;
[0020]根据带有伪标签的所述音频数据,获取带有弱标签的所述音频数据;
[0021]利用带有弱标签的所述音频数据对预训练后的所述神经网络模型进行训练,得到所述多标签分类模型。
[0022]在一个实施例中,所述神经网络模型为轻量级神经网络模型。
[0023]在一个实施例中,所述将所述多标签分类模型中的特征提取网络迁移到用于特定任务的音频分类模型中,包括:
[0024]从所述多标签分类模型中抽取所述特征提取网络;
[0025]将抽取的所述特征提取网络连接至所述音频分类模型中的输出网络;其中,所述输出网络,用于根据所述特征提取网络提取的音频数据的嵌入特征进行音频分类。
[0026]在一个实施例中,所述利用所述特定任务对应的强标签音频数据集训练包含有所述特征提取网络的所述音频分类模型,包括:
[0027]对所述强标签音频数据集中带有强标签的第二音频数据进行处理,得到所述第二音频数据的频谱特征;
[0028]将所述第二音频数据的频谱特征输入到所述音频分类模型中,得到所述音频分类模型输出的所述第二音频数据对应的类别预测结果;
[0029]根据所述第二音频数据对应的类别预测结果以及所述强标签,确定所述音频分类模型的损失函数值;
[0030]根据所述音频分类模型的损失函数值对所述音频分类模型进行训练。
[0031]在一个实施例中,所述根据所述音频分类模型的损失函数值对所述音频分类模型进行训练,包括:
[0032]在冻结所述音频分类模型中的所述特征提取网络的网络参数的情况下,根据所述音频分类模型的损失函数值对所述音频分类模型进行训练;
[0033]或者,
[0034]在不冻结所述音频分类模型中的所述特征提取网络的网络参数的情况下,根据所述音频分类模型的损失函数值对所述音频分类模型进行训练,以对所述特征提取网络的网络参数进行微调。
[0035]根据本公开实施例的第二方面,提供了一种音频分类模型训练装置,所述装置包括:
[0036]第一训练模块,用于利用弱标签音频数据集对神经网络模型进行训练,得到多标签分类模型;其中,所述弱标签音频数据集包括带有弱标签的第一音频数据,所述弱标签包括所述第一音频数据包含的各音频类别,且不包括各所述音频类别的时间信息;
[0037]迁移模块,用于将所述多标签分类模型中的特征提取网络迁移到用于特定任务的音频分类模型中;其中,所述特征提取网络用于提取音频数据的嵌入特征;
[0038]第二训练模块,用于利用所述特定任务对应的强标签音频数据集训练包含有所述特征提取网络的所述音频分类模型;其中,所述强标签音频数据集包括带有强标签的第二音频数据,所述强标签包括所述第二音频数据包含的各音频类别以及各所述音频类别的时间信息。
[0039]在一个实施例中,所述装置还包括:
[0040]构建模块,用于根据包含多个音频类别的开源数据集,构建所述弱标签音频数据集。
[0041]在一个实施例中,所述第一训练模块用于:
[0042]对所述弱标签音频数据集中带有弱标签的第一音频数据进行处理,得到所述第一音频数据的频谱特征;
[0043]将所述第一音频数据的频谱特征输入到所述神经网络模型中,得到所述神经模型输出的所述第一音频数据对应的类别预测结果;
[0044]根据所述第一音频数据对应的类别预测结果以及所述弱标签,确定所述神经网络模型的损失函数值;
[0045]根据所述神经网络模型的损失函数值对所述神经网络模型进行训练,得到所述多标签分类模型。
[0046]在一个实施例中,所述第一训练模块用于:
[0047]利本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种音频分类模型训练方法,其特征在于,所述方法包括:利用弱标签音频数据集对神经网络模型进行训练,得到多标签分类模型;其中,所述弱标签音频数据集包括带有弱标签的第一音频数据,所述弱标签包括所述第一音频数据包含的各音频类别,且不包括各所述音频类别的时间信息;将所述多标签分类模型中的特征提取网络迁移到用于特定任务的音频分类模型中;其中,所述特征提取网络用于提取音频数据的嵌入特征;利用所述特定任务对应的强标签音频数据集训练包含有所述特征提取网络的所述音频分类模型;其中,所述强标签音频数据集包括带有强标签的第二音频数据,所述强标签包括所述第二音频数据包含的各音频类别以及各所述音频类别的时间信息。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:根据包含多个音频类别的开源数据集,构建所述弱标签音频数据集。3.根据权利要求1所述的方法,其特征在于,所述利用弱标签音频数据集对神经网络模型进行训练,得到多标签分类模型,包括:对所述弱标签音频数据集中带有弱标签的第一音频数据进行处理,得到所述第一音频数据的频谱特征;将所述第一音频数据的频谱特征输入到所述神经网络模型中,得到所述神经模型输出的所述第一音频数据对应的类别预测结果;根据所述第一音频数据对应的类别预测结果以及所述弱标签,确定所述神经网络模型的损失函数值;根据所述神经网络模型的损失函数值对所述神经网络模型进行训练,得到所述多标签分类模型。4.根据权利要求1所述的方法,其特征在于,所述利用弱标签音频数据集对神经网络模型进行训练,得到多标签分类模型,包括:利用所述弱标签音频数据集对神经网络模型进行预训练,得到预训练后的所述神经网络模型;利用预训练后的所述神经网络模型对无标签的音频数据进行打标签处理,得到带有伪标签的所述音频数据;根据带有伪标签的所述音频数据,获取带有弱标签的所述音频数据;利用带有弱标签的所述音频数据对预训练后的所述神经网络模型进行训练,得到所述多标签分类模型。5.根据权利要求1至4任一项所述的方法,其特征在于,所述神经网络模型为轻量级神经网络模型。6.根据权利要求1至4任一项所述的方法,其特征在于,所述将所述多标签分类模型中的特征提取网络迁移到用于特定任务的音频分类模型中,包括:从所述多标签分类模型中抽取所述特征提取网络;将抽取的所述特征提取网络连接至所述音频分类模型中的输出网络;...

【专利技术属性】
技术研发人员:丁翰林闫志勇王永庆张俊博王育军
申请(专利权)人:北京小米松果电子有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1