一种基于类别间相互融合的声音数据增强方法技术

技术编号:23985380 阅读:16 留言:0更新日期:2020-04-29 13:16
本发明专利技术公开了一种基于类别之间相互融合的声音数据增强方法,包括将数据集向下聚类,利用聚类的大类结果辅助选择要拼接的频谱图的小类别,随后选出要拼接的频谱图;分别在选出的频谱图时域上截取连续的α、1‑α比例面积的频谱图,然后将截取出的频谱图在时域上进行拼接,并为拼接后的频谱图打上相应的标签;将拼接的频谱图和相应标签加入增强后的频谱图集中。利用增强后的频谱图训练神经网络,以达到更优的声音识别性能。本发明专利技术利用向下聚类,可控的选择出要拼接的频谱图类别,保证了数据分布的可控性;提出在时域上融合两张频谱图的方法,高效的利用了数据的信息,达到了增强数据的效果,进而提升了声音识别性能。

A method of sound data enhancement based on the fusion of categories

【技术实现步骤摘要】
一种基于类别间相互融合的声音数据增强方法
本专利技术属于深度学习的
,具体涉及一种基于类别间相互融合的声音数据增强方法。
技术介绍
在机器学习和深度学习中经常遇到的一个难点是:可用的训练数据数量较少,这在一定程度上会导致模型的过拟合。常用的解决过拟合的方法有:DropOut、BatchNormalization、L1/L2正则化和数据增强等。在数据增强领域近几年涌现了许多不错的方法:文献1(SebastienC.Wong,AdamGatt,VictorStamatescuandMarkD.McDonnell.Understandingdataaugmentationforclassification:whentowarp?[C].DICTA2016.)对比了在数据空间和特征空间进行数据增强的结果,得出了在标签确定的情况下数据空间进行数据增强较好的结论。文献2(JustinSalamonandJuanPabloBello.DeepConvolutionalNeuralNetworksandDataAugmentationforEnvironmentalSoundClassification[J].IEEESignalProcessingLetters,2017,24:279-283)介绍了Timestretching、Pitchshifting、Pitchshifting、Dynamicrangecompression和Backgroundnoise这些在音频上进行数据增强的传统方法。文献3(ZhunZhong,LiangZheng,GuoliangKang,ShaoziLiandYiYang.RandomErasingDataAugmentation[C].CVPR,2017.)采用类似于DropOut的方法,随机擦除掉训练集图像的一部分,而保持标签不变,从而达到数据增强的目的。文献4(ChristianSzegedy,VincentVanhoucke,SergeyIoffeandJonathonShlens.RethinkingtheInceptionArchitectureforComputerVision[C].CVPR,2016.)提出了标签平滑的方法,通过标签平滑可以让一张图像以不同权重对应不同类别的标签,这在一定程度上降低了模型过拟合的风险。受文献4启发,本专利技术提出一种基于类别间相互融合的声音数据增强方法:将不同类别的频谱图融合,同时标签随之平滑;这样使得数据的分布更加宽广和均匀,以达到较好的数据增强效果。
技术实现思路
本专利技术的主要目的在于克服现有技术的缺点与不足,提供一种基于类别间相互融合的声音数据增强方法,利用向下聚类,可控的选择出要拼接的频谱图,保证了数据分布的可控性,随后利用选择出的频谱图在时域上进行融合,得到增强后的频谱图。为了达到上述目的,本专利技术采用以下技术方案:一种基于类别间相互融合的声音数据增强方法,包括下述步骤:S1:从待增广集中随机选择一张频谱图作为待拼接的频谱图,记为SP_1,设其所属类别为i,i∈{1,2,…,N},N是频谱图集中类别个数;S2:根据设定的频谱图选择算法,从频谱图集中选择另外一张频谱图作为待拼接的频谱图,记为SP_2,设其类别为j,j∈{1,2,…,N},j≠i;S3:分别将SP_1、SP_2在时域上截取α、1-α比例面积的图像,记截取后的图像分别为CUT_1,CUT_2;S4:将CUT_1,CUT_2在时域上拼接在一起,记拼接后的图像为SP,将Label(0,…,α,…,1-α,…)作为SP的标签,其中Label是同时带有类别i、类别j的标签,Label[i]、Label[j]值分别为α,1-α,其余值均为0,这时SP、Label可以表示为:SP=α⊙SP_1⊕(1-α)⊙SP_2Label=α×label_1+(1-α)×label_2⊙表示在时域上截取相应面积,⊕表示在时域上拼接,label_1、label_2分别是SP_1、SP_2对应的onehot标签;S5:将(SP,Label)加入增强后的频谱图集中;S6:重复步骤S1-S5,得到大量的增强频谱图,利用增强的频谱图提升声音数据识别准确率。作为优选的技术方案,步骤S2中,根据设定的频谱图选择算法具体为:S21:将频谱图集进行向下谱聚类,设聚类前共有N个类别{1,2,…,N},聚类后的大类别数为M(M<N),则聚类后M个大类可表示为形如{C1=[2,3,6],C2=[1,7,5],…,CM=[8,4]}(即每个大类都包含若干个小类),其中Ck表示第k个大类,这时每一张频谱图都对应一个大类的标签Ck和一个小类标签i(聚类前的标签);S22:以概率p选择一个小类别j,j≠i,p表示类别j跟类别i同属于一个大类的概率,p的公式如下:并在小类别j中随机选择一张频谱图作为待拼接频谱图SP_2。作为优选的技术方案,步骤S3中,α∈U(0.7,0.9)。作为优选的技术方案,步骤S4中,将CUT_1,CUT_2在时域上拼接在一起,具体拼接方法如下:S41:分别将CUT_1、CUT_2转换成二维矩阵array1M×N、array2M×K;S42:从第一列开始,依次将array2的列并入array1最后一列后面,使得array1变成M行N+K列的矩阵array1M×(N+K);S43:将array1M×(N+K)转换成图片,作为CUT_1、CUT_2拼接后的图片。作为优选的技术方案,步骤S5中,将(SP,Label)加入增强后的频谱图集中,具体步骤如下:S51:将SP存储到增强后的频谱图集合中,将Label存储到增强后的标签集合中;S52:为SP和Label建立一个映射,使得在训练神经网络之前读入SP时,也读入相应的Label。本专利技术与现有技术相比,具有如下优点和有益效果:1、本专利技术将不同类别的频谱图进行融合,同时融合后的图像标签进行相应的平滑,使得数据在空间的分布向周围扩散,与现有技术相比,这样会使得数据覆盖更广,增强效果更佳。2、本专利技术通过向下聚类,将原来多个小类别聚成数量更少的大类别,通过大类别选择需要融合的频谱图,这样可控的选择信息更加相似或者不相似的两张频谱图。相比现有技术,这样可以控制数据在空间扩散的方向,达到更好的增强效果。附图说明图1是基于类别间相互融合的声音数据增强方法的总体流程图;图2是谱聚类的流程图;图3是实施例步骤S412中的网络模型结构,采用的是改进的VGG网络模型;图4是增强前频谱图样例;图5是增强后的频谱图样例。图6是用验证集得到的混淆矩阵W的图,混淆矩阵反应了预测结果跟真实结果的差异,W中第i行j列的元素Wij的值表示真实类别为j,但是预测类别为i的频谱图张数。具体实施方式下面结合实本文档来自技高网
...

【技术保护点】
1.一种基于类别间相互融合的声音数据增强方法,其特征在于,包括下述步骤:/nS1:从待增广集中随机选择一张频谱图作为待拼接的频谱图,记为SP_1,设其所属类别为i,i∈{1,2,…,N},N是频谱图集中类别个数;/nS2:根据设定的频谱图选择算法,从频谱图集中选择另外一张频谱图作为待拼接的频谱图,记为SP_2,设其类别为j,j∈{1,2,…,N},j≠i;/nS3:分别将SP_1、SP_2在时域上截取α、1-α比例面积的图像,记截取后的图像分别为CUT_1,CUT_2;/nS4:将CUT_1,CUT_2在时域上拼接在一起,记拼接后的图像为SP,将Label(0,…,α,…,1-α,…)作为SP的标签,其中Label是同时带有类别i、类别j的标签,Label[i]、Label[j]值分别为α,1-α,其余值均为0,这时SP、Label可以表示为:/nSP=α⊙SP_1⊕(1-α)⊙SP_2/nLabel=α×label_1+(1-α)×label_2/n⊙表示在时域上截取相应面积,⊕表示在时域上拼接,label_1、label_2分别是SP_1、SP_2对应的onehot标签/nS5:将(SP,Label)加入增强后的频谱图集中;/nS6:重复步骤S1-S5,得到大量的增强频谱图,利用增强的频谱图提升声音数据识别准确率。/n...

【技术特征摘要】
1.一种基于类别间相互融合的声音数据增强方法,其特征在于,包括下述步骤:
S1:从待增广集中随机选择一张频谱图作为待拼接的频谱图,记为SP_1,设其所属类别为i,i∈{1,2,…,N},N是频谱图集中类别个数;
S2:根据设定的频谱图选择算法,从频谱图集中选择另外一张频谱图作为待拼接的频谱图,记为SP_2,设其类别为j,j∈{1,2,…,N},j≠i;
S3:分别将SP_1、SP_2在时域上截取α、1-α比例面积的图像,记截取后的图像分别为CUT_1,CUT_2;
S4:将CUT_1,CUT_2在时域上拼接在一起,记拼接后的图像为SP,将Label(0,…,α,…,1-α,…)作为SP的标签,其中Label是同时带有类别i、类别j的标签,Label[i]、Label[j]值分别为α,1-α,其余值均为0,这时SP、Label可以表示为:
SP=α⊙SP_1⊕(1-α)⊙SP_2
Label=α×label_1+(1-α)×label_2
⊙表示在时域上截取相应面积,⊕表示在时域上拼接,label_1、label_2分别是SP_1、SP_2对应的onehot标签
S5:将(SP,Label)加入增强后的频谱图集中;
S6:重复步骤S1-S5,得到大量的增强频谱图,利用增强的频谱图提升声音数据识别准确率。


2.根据权利要求1所述基于类别间相互融合的声音数据增强方法,其特征在于,步骤S2中,根据设定的频谱图选择算法具体为:
S21:将频谱图集进行向下谱聚类,设聚类前共有N个类别{1,2,…,N},聚类后的大类别数为M(M<N)...

【专利技术属性】
技术研发人员:蒋大灿郑伟平
申请(专利权)人:华南师范大学
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1