本发明专利技术提供了一种基于CNN和LSTM结合的粤剧唱腔分类方法,包括:构建分类网络模型:设置级联卷积神经网络Inception
【技术实现步骤摘要】
一种基于CNN和LSTM结合的粤剧唱腔分类方法
[0001]本专利技术涉及粤剧唱腔分类
,具体涉及一种基于GRACE重力卫星及遥感影像数据,采用水储量平衡方法实现区域水源涵养量评估方法。
技术介绍
[0002]粤剧作为世界级非物质文化遗产,有着深厚的传统文化底蕴,充分利用人工智能技术优势去抢救、挖掘、整理、保护和传播传统文化,已经成为当今非物质文化遗产保护的方向。因此,通过现代化科学技术与传统文化产业的结合实现对中华传统文化的科学延续意义深远。
[0003]如何对海量音频信息进行处理、组织分析和利用是信息处理领域的一个重要部分,而音频分类更是其中的关键技术之一。近年来,基于深度学习开展音频/音乐风格分类的研究已有了突破性的进展,考虑到粤剧唱腔分类属于音乐风格分类领域的一个分支,对粤剧唱腔特征分析的研究得以借鉴现有的音乐风格分类技术,并在此基础上进一步考虑粤剧唱腔本身不同于音乐的特性,继而付诸实践。
[0004]近年来,音乐风格分类已经持续成长为一个蓬勃发展的研究领域。与此同时,这一研究领域内越来越多的活动受到了科学挑战和工业需求的推动。目前的戏曲唱腔分类仍存在以下技术问题:
[0005]由于粤剧不同唱腔的节奏、伴奏和使用乐器等乐律特征具有相似性,使得现有的音乐分类方法难以对其精准分类。
[0006]现有的音乐风格/音频分类技术只能提取到粤剧唱段内部的浅层特征,对于同一曲目不同唱段间的关联信息尚未分析研究,同时也难以结合粤剧唱腔特点提取多层级联的深层和浅层特征,存在一定信息缺失的可能性。
[0007]因此,如何提供一种表达全面且分类精准的基于CNN和LSTM结合的粤剧唱腔分类方法是本领域技术人员亟需解决的问题。
技术实现思路
[0008]有鉴于此,本专利技术针对粤剧不同唱腔的乐律特征具有相似性,传统的音乐分类方法难以精准分类的问题,提出了一种基于多层特征级联卷积神经网络(CNN)和长短时记忆单元(LSTM)结合的粤剧唱腔分类方法。
[0009]为了实现上述目的,本专利技术采用如下技术方案:
[0010]一种基于CNN和LSTM结合的粤剧唱腔分类方法,包括如下步骤:
[0011]构建分类网络模型的步骤:
[0012]设置级联卷积神经网络Inception
‑
CNN为一级网络,设置CNN
‑
双层LSTM神经网络为二级网络,一级网络的输出连接二级网络的输入;
[0013]利用分类网络模型进行粤剧唱腔分类的步骤:
[0014]通过特征工程对各唱段粤剧音频信号的梅尔频谱提取梅尔频谱MFCC特征;
[0015]将所述梅尔频谱MFCC特征输入至一级网络融合各唱段粤剧音频信号的浅层和深层特征,其输出信号输入至二级网络;
[0016]二级网络学习各唱段粤剧音频信号之间的内在特征,提取上下文关联语义,预测出粤剧唱腔类别。
[0017]优选的,所述一级网络包括二维卷积的CRMD block和多尺度特征提取器;
[0018]二维卷积的CRMD block将音频信号从时域转到频域,从时间和频率两个方向提取多层次特征;
[0019]多尺度特征提取器使用轻量化Inception结构经对称的双层堆叠卷积核结构对多层次特征进行拆分操作,提取不同层级的特征;
[0020]由Concat层连接各层级特征并输入至二级网络。
[0021]优选的,所述二级网络包括双层LSTM和多卷积层CNN堆叠形成的特征级联堆叠网络,采取双层LSTM的堆叠网络逐层提取深层可分性特征,每层输出一个特征向量作为后续层的输入。
[0022]优选的,利用分类网络模型进行粤剧唱腔分类的步骤还包括对粤剧音频数据样本集进行预处理,得到梅尔频谱的步骤,包括:
[0023]将粤剧音频数据样本集切片为多个等时长的音频文件;
[0024]对所述音频文件进行分帧操作,并采用预设重叠率对每相邻两帧信号进行加窗操作;
[0025]采用快速傅里叶变换对每帧信号做快速傅里叶变换,得到频谱图;
[0026]采用梅尔滤波器组对所述频谱图进行处理,得到梅尔频谱。
[0027]优选的,利用混淆矩阵对所述分类网络模型输出的预测结果进行可视化评判,通过多数投票算法预测出粤剧唱腔类别。
[0028]经由上述的技术方案可知,与现有技术相比,本专利技术的有益效果包括:
[0029]本专利技术以粤剧唱段对应的唱腔乐律声谱为模型输入,通过由2d
‑
CRMD block和多尺度特征提取器组成的一级网络(Inception
‑
CNN),获得各粤剧唱段浅层和深层的融合特征表达。再通过由CNN和堆叠的LSTM组成的二级网络(CNN
‑
2LSTM),学习各唱段之间的上下文关联语义以及各唱段之间的重要性。相比直接借鉴现有的音乐风格和音频分类算法,本专利技术提出的基于多层特征级联卷积神经网络(CNN)和长短时记忆单元(LSTM)结合的粤剧唱腔分类方法,更加贴合粤剧唱腔特性,充分提取粤剧特征,达到精准分类的效果,表达全面,更加符合实际应用需求。
附图说明
[0030]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图;
[0031]图1为本专利技术提供的基于CNN和LSTM结合的粤剧唱腔分类方法的流程图;
[0032]图2为本专利技术提供的对音频信号的分帧示意图;
[0033]图3为本专利技术提供的音频信号从频率标度到梅尔标度的映射图;
[0034]图4为本专利技术提供的音频信号的频谱图;
[0035]图5为本专利技术提供的梅尔频谱图的获取过程图;
[0036]图6为本专利技术提供的音频信号的梅尔频谱图;
[0037]图7为本专利技术提供的分类网络模型的网络结构图;
[0038]图8为本专利技术提供的分类网络模型的训练集准确率和测试集准确率的变化曲线图;
[0039]图9为本专利技术提供的分类网络模型的训练集误差和测试集误差的变化曲线图。
具体实施方式
[0040]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0041]目前主流的音乐分类技术,主要是针对音乐的风格特性。粤剧作为音乐形式的一种可以借鉴方法,但更需结合粤剧本身的唱腔特点提取多维度高层次的特征。参见附图1,本实施例公开的基于CNN和LSTM结合的粤剧唱腔分类方法的流程图,包括如下步骤:
[0042]S1、通过特征工程对各唱段粤剧音频本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种基于CNN和LSTM结合的粤剧唱腔分类方法,其特征在于,包括如下步骤:构建分类网络模型的步骤:设置级联卷积神经网络Inception
‑
CNN为一级网络,设置CNN
‑
双层LSTM神经网络为二级网络,一级网络的输出连接二级网络的输入;利用分类网络模型进行粤剧唱腔分类的步骤:通过特征工程对各唱段粤剧音频信号的梅尔频谱提取梅尔频谱MFCC特征;将所述梅尔频谱MFCC特征输入至一级网络融合各唱段粤剧音频信号的浅层和深层特征,其输出信号输入至二级网络;二级网络学习各唱段粤剧音频信号之间的内在特征,提取上下文关联语义,预测出粤剧唱腔类别。2.根据权利要求1所述的基于CNN和LSTM结合的粤剧唱腔分类方法,其特征在于,所述一级网络包括二维卷积的CRMD block和多尺度特征提取器;二维卷积的CRMD block将音频信号从时域转到频域,从时间和频率两个方向提取多层次特征;多尺度特征提取器使用轻量化Inception结构经对称的双层堆叠卷积核结构对多层次特征进行...
【专利技术属性】
技术研发人员:赵文锋,陈侨,王琴,赵娅雯,刘韵锋,林暖晨,刘小玲,刘易迪,梁升濠,
申请(专利权)人:华南农业大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。