一种基于类别间相互融合的声音数据增强方法技术

技术编号：23985380 阅读：16 留言：0更新日期：2020-04-29 13:16

本发明专利技术公开了一种基于类别之间相互融合的声音数据增强方法，包括将数据集向下聚类，利用聚类的大类结果辅助选择要拼接的频谱图的小类别，随后选出要拼接的频谱图；分别在选出的频谱图时域上截取连续的α、1‑α比例面积的频谱图，然后将截取出的频谱图在时域上进行拼接，并为拼接后的频谱图打上相应的标签；将拼接的频谱图和相应标签加入增强后的频谱图集中。利用增强后的频谱图训练神经网络，以达到更优的声音识别性能。本发明专利技术利用向下聚类，可控的选择出要拼接的频谱图类别，保证了数据分布的可控性；提出在时域上融合两张频谱图的方法，高效的利用了数据的信息，达到了增强数据的效果，进而提升了声音识别性能。

A method of sound data enhancement based on the fusion of categories

全部详细技术资料下载

【技术实现步骤摘要】
一种基于类别间相互融合的声音数据增强方法
本专利技术属于深度学习的
，具体涉及一种基于类别间相互融合的声音数据增强方法。
技术介绍
在机器学习和深度学习中经常遇到的一个难点是：可用的训练数据数量较少，这在一定程度上会导致模型的过拟合。常用的解决过拟合的方法有：DropOut、BatchNormalization、L1/L2正则化和数据增强等。在数据增强领域近几年涌现了许多不错的方法：文献1(SebastienC.Wong,AdamGatt,VictorStamatescuandMarkD.McDonnell.Understandingdataaugmentationforclassification:whentowarp？[C].DICTA2016.)对比了在数据空间和特征空间进行数据增强的结果，得出了在标签确定的情况下数据空间进行数据增强较好的结论。文献2(JustinSalamonandJuanPabloBello.DeepConvolutionalNeuralNetworksandDataAugmentationforEnvironmentalSoundClassification[J].IEEESignalProcessingLetters,2017,24:279-283)介绍了Timestretching、Pitchshifting、Pitchshifting、Dynamicrangecompression和Backgroundnoise这些在音频上进行数据增强的传统方法。文献3(ZhunZh...

【技术保护点】
1.一种基于类别间相互融合的声音数据增强方法，其特征在于，包括下述步骤：/nS1：从待增广集中随机选择一张频谱图作为待拼接的频谱图，记为SP_1，设其所属类别为i，i∈{1,2,…,N},N是频谱图集中类别个数；/nS2：根据设定的频谱图选择算法，从频谱图集中选择另外一张频谱图作为待拼接的频谱图，记为SP_2，设其类别为j，j∈{1,2,…,N},j≠i；/nS3：分别将SP_1、SP_2在时域上截取α、1-α比例面积的图像，记截取后的图像分别为CUT_1,CUT_2；/nS4：将CUT_1,CUT_2在时域上拼接在一起，记拼接后的图像为SP,将Label(0,…,α,…,1-α,…)作为SP的标签，其中Label是同时带有类别i、类别j的标签，Label[i]、Label[j]值分别为α，1-α，其余值均为0，这时SP、Label可以表示为：/nSP＝α⊙SP_1⊕(1-α)⊙SP_2/nLabel＝α×label_1+(1-α)×label_2/n⊙表示在时域上截取相应面积，⊕表示在时域上拼接，label_1、label_2分别是SP_1、SP_2对应的onehot标签/nS5：将...

【技术特征摘要】
1.一种基于类别间相互融合的声音数据增强方法，其特征在于，包括下述步骤：
S1：从待增广集中随机选择一张频谱图作为待拼接的频谱图，记为SP_1，设其所属类别为i，i∈{1,2,…,N},N是频谱图集中类别个数；
S2：根据设定的频谱图选择算法，从频谱图集中选择另外一张频谱图作为待拼接的频谱图，记为SP_2，设其类别为j，j∈{1,2,…,N},j≠i；
S3：分别将SP_1、SP_2在时域上截取α、1-α比例面积的图像，记截取后的图像分别为CUT_1,CUT_2；
S4：将CUT_1,CUT_2在时域上拼接在一起，记拼接后的图像为SP,将Label(0,…,α,…,1-α,…)作为SP的标签，其中Label是同时带有类别i、类别j的标签，Label[i]、Label[j]值分别为α，1-α，其余值均为0，这时SP、Label可以表示为：
SP＝α⊙SP_1⊕(1-α)⊙SP_2
Label＝α×label_1+(1-α)×label_2
⊙表示在时域上截取相应面积，⊕表示在时域上拼接，label_1、label_2分别是SP_1、SP_2对应的onehot标签
S5：将(SP,Label)加入增强后的频谱图集中；
S6：重复步骤S1-S5，得到大量的增强频谱图，利用增强的频谱图提升声音数据识别准确率。

2.根据权利要求1所述基于类别间相互融合的声音数据增强方法，其特征在于，步骤S2中，根据设定的频谱图选择算法具体为：
S21：将频谱图集进行向下谱聚类，设聚类前共有N个类别{1,2,…,N}，聚类后的大类别数为M(M<N)...

【专利技术属性】
技术研发人员：蒋大灿，郑伟平，
申请(专利权)人：华南师范大学，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人