一种基于多粒度切片的音频分割与分类方法技术

技术编号:38485215 阅读:10 留言:0更新日期:2023-08-15 17:01
本发明专利技术公开了一种基于多粒度切片的音频分割与分类方法,包括对音频进行预处理后得到统一采样率的音频文件;将音频文件在不同的时间粒度下分别按相应的时间粒度进行切片;对不同时间粒度下的每段切片进行MFCC特征提取后作图像化处理;建立图像分类卷积神经网络模型,并进行训练和验证;将待处理音频处理后输入图像分类卷积神经网络模型,得到每个切片的分类结果;根据分类结果进行聚合分析,得到音频文件的分割点和分段类型。本发明专利技术通过采用不同时间粒度对长音频进行切割,利用图像分类卷积神经网络模型进行类型判断和分类归集,最后进行聚合分析,从而可快速准确的找到不同类型音频之间的切割点,并判断切割点前后音频段的音频类型。音频类型。

【技术实现步骤摘要】
一种基于多粒度切片的音频分割与分类方法


[0001]本专利技术属于计算机听觉
,具体涉及一种基于多粒度切片的音频分割与分类方法。

技术介绍

[0002]音频分割与分类技术是指利用信号处理和模式识别方法,将长音频中连续的内容按段进行分割,并识别其内容所属类型。目前常用的音频分割方法一种是寻找音频数据或音频特征中的突变点进行分割,还有一种是对音频信号做局部相似性分析后,根据分析结果进行分割;而常用的分类方式主要采用神经网络分类模型,对分割后的音频进行分类管理。这种分割分类方法在针对不同长度、不同精度要求的音频时,不能做到自动分割。

技术实现思路

[0003]本专利技术所要解决的技术问题便是针对上述现有技术的不足,提供一种基于多粒度切片的音频分割与分类方法,它对音频进行不同时间粒度的分割并切片,再对切片分类后进行类型聚合,从而获取音频切割点和切割段类型,适于不同长度、不同精度要求的音频进行自动分割。
[0004]本专利技术所采用的技术方案是:一种基于多粒度切片的音频分割与分类方法,包括以下步骤:
[0005]S1:对音频进行预处理,得到统一采样率的的音频文件;
[0006]S2:对统一采样率的音频文件在不同的时间粒度下分别从头到尾依次按相应的时间粒度进行切片;
[0007]S3:对不同时间粒度下的每段切片进行MFCC特征提取,并将提取的特征数据图像化,得到MFCC特征图像;
[0008]S4:建立图像分类卷积神经网络模型,并构建样本集音频,将样本集中80%的音频按上述S1

S3步骤处理后与相应的分类类型标签关联,然后输入图像分类卷积神经网络模型中完成对图像分类卷积神经网络模型训练,并将样本集中20%的音频作为测试集对训练后的图像分类卷积神经网络模型进行校验,校验后得到最终的图像分类卷积神经网络模型;
[0009]S5:将待切割的音频按上述S1

S3步骤处理得到不同时间粒度下每个切片的MFCC特征图像,并将得到的MFCC特征图像输入最终的图像分类卷积神经网络模型中,得到每个切片的分类结果;
[0010]S6:通过对不同时间粒度下每个切片的分类结果进行聚合分析,得到音频基于最小粒度准确度的分割点和分段类型。
[0011]作为优选,步骤S1对音频的预处理包括以下步骤:
[0012]S11:根据音频文件的格式选用相应解码器解码,得到音频采样数据;
[0013]S12:将音频采样数据保存为WAV无压缩格式的音频文件;
[0014]S13:分析音频文件的采样率,保证音频文件的采用率统一,对不满足的音频实行重新采样。
[0015]作为优选,步骤S2中的时间粒度通过定义音频文件的音频帧长和帧数确定。
[0016]作为优选,步骤S2中不同时间粒度中定义的音频帧长相同,根据帧数确定最小时间粒度,其余时间粒度为最小时间粒度的倍数。
[0017]作为优选,步骤S3中的MFCC特征提取包括依次进行音频数据预加重、音频信号加窗、音频信号的离散傅里叶变换、梅尔滤波、计算Fbank特征、反离散余弦变换计算、差分和能量及组成MFCC特征。
[0018]作为优选,步骤S6中的分类结果聚合分析包括并行聚合分析和串行聚合分析。
[0019]作为优选,所述并行聚合分析包括:对不同时间粒度下的分类切片同时进行分类聚合分析。
[0020]作为优选,所述串行聚合分析包括:对不同时间粒度下的分类切片按最大时间粒度至最小时间粒度依次进行分类聚合分析。
[0021]本专利技术的有益效果在于:本专利技术通过采用不同时间粒度对长音频进行切割,对不同时间粒度下切割产生的音频切片进行类型判断后进行分类归集,最后将分类后的音频切片进行聚合分析,从而可快速准确的找到不同类型音频之间的切割点,并判断切割点前后音频段的音频类型。
附图说明
[0022]图1为本专利技术的处理流程框图;
[0023]图2为本专利技术实施例1的聚合分析示意图;
[0024]图3为本专利技术实施例2的聚合分析示意图。
具体实施方式
[0025]下面将结合附图及具体实施例对本专利技术作进一步详细说明。
[0026]实施例
[0027]如图1所示,本实施例提供的基于多粒度切片的音频分割与分类方法,包括以下步骤:
[0028]S1:对音频进行预处理:根据音频文件格式选用相应的解码器进行解码,得到音频采样数据,再将音频采样数据保存为WAV无压缩格式的音频文件;对保存为WAV无压缩格式的音频文件进行音频采样率分析,对不符合标准的音频文件进行重新采样,保证预处理后的音频文件的采样率统一;本实施例中采用44.1KHz采样率为音频文件的统一采样率;
[0029]S2:对统一采样率的音频文件在不同的时间粒度下分别从头到尾依次按相应的时间粒度进行切片;本实施例中不同的时间粒度通过定义相同的音频帧长和不同的帧数决定,同时采用其他帧数为最小帧数的倍数来取得不同的时间粒度,能有效提高后续聚合分析的效率;在本实施例中定义音频帧长为26ms,帧数选择10帧、20帧、40帧和80帧,即不同的四个时间粒度分别为:260ms、520ms、1040ms和2080ms,即按不同的时间粒度进行切片,即同一音频文件在260ms时间粒度下得到每段为260ms的音频切片,在520ms时间粒度下得到每段为520ms的音频切片,在1040ms时间粒度下得到每段为1040ms的音频切片,在2080ms时间
粒度下得到每段为2080ms的音频切片;由于音频在不同的时间粒度定义下从头至尾切分成若干片,则切片数为音频的总时长/每段切片的时长,算的的切片数结果向下取整,最后会存在一段特殊切片,其时长会小于每片切片的时长,若音频的总时长/每段切片的时长整除时,则尾端的特殊切片不存在;
[0030]S3:对不同时间粒度下的每段切片依次进行下述处理:
[0031]音频数据预加重处理:语音频谱中的高频能量在传播中存在比较明显的衰减,声音频率越高,衰减越重,所以需要使用预加重的方法对衰减部分进行强度补偿;对在n时刻的语音采样值k[n],预加重计算公式如下:
[0032]H[n]=k[n]‑
α*k[n

1]α∈[0.9,1][0033]预加重系数α一般的取值范围是0.9到1之间;
[0034]音频信号加窗处理:由于后续处理流程中的离散傅里叶变换操作是在音频信号为周期信号的假设下完成的,直接处理可能会出现频谱泄露效应,因此进行音频信号加窗的操作,可以使小片段的音频数据变得具有周期性,后续可以更好的使用离散傅里叶变换处理;
[0035]通过加窗操作将音频分割成M段长度为N的片段,采用如下汉明窗窗函数对片段进行处理,可以将每个片段处理成具有周期特征的信号数据:
[0036][0037]当h0=0.53836,L=N

1可以得到汉明窗函数;
[0038]假设在某个音频片本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多粒度切片的音频分割与分类方法,其特征在于:包括以下步骤:S1:对音频进行预处理,得到统一采样率的的音频文件;S2:对统一采样率的音频文件在不同的时间粒度下分别从头到尾依次按相应的时间粒度进行切片;S3:对不同时间粒度下的每段切片进行MFCC特征提取,并将提取的特征数据图像化,得到MFCC特征图像;S4:建立图像分类卷积神经网络模型,并构建样本集音频,将样本集中80%的音频按上述S1

S3步骤处理后与相应的分类类型标签关联,然后输入图像分类卷积神经网络模型中完成对图像分类卷积神经网络模型训练,并将样本集中20%的音频作为测试集对训练后的图像分类卷积神经网络模型进行校验,校验后得到最终的图像分类卷积神经网络模型;S5:将待切割的音频按上述S1

S3步骤处理得到不同时间粒度下每个切片的MFCC特征图像,并将得到的MFCC特征图像输入最终的图像分类卷积神经网络模型中,得到每个切片的分类结果;S6:通过对不同时间粒度下每个切片的分类结果进行聚合分析,得到音频基于最小粒度准确度的分割点和分段类型。2.根据权利要求1所述的一种基于多粒度切片的音频分割与分类方法,其特征在于:步骤S1对音频的预处理包括以下步骤:S11:根据音频文件的格式选用相应解码器解码,得到音频采样数据;S12:将音频采样数...

【专利技术属性】
技术研发人员:刘强郑铸
申请(专利权)人:四川中云智网科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1