一种多音轨音乐数据集的情感标注方法技术

技术编号：43103214 阅读：36 留言：0更新日期：2024-10-26 09:46

本发明专利技术公开一种多音轨音乐数据集的情感标注方法，涉及智能音乐情感识别技术领域。所述方法包括：使用指定的情感音乐数据集，训练一个情感音乐分类器；接着将一个多音轨数据集放入训练好的分类器中，从而得到一个多音轨的情感音乐数据集，然后人工对分好类的数据集的标签进行验证，验证五分之一的数据，人工将标签修改准确，将这部分确定标签的数据‑标签和先前用于训练的数据放在一起再次进行训练，得到新的训练好的模型，再将多音轨音频数据集放入分类器模型，生成全新的多音轨情感音乐数据集。该数据集适用范围广，普适性强，可用于情感音乐生成应用场景，可以生成特定的多个音轨的情感音乐。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于智能音乐生成领域，具体涉及一种多音轨音乐数据集的情感标注方法。

技术介绍

1、音乐是人情感抒发的最佳方式，已经成为人们日常生活中不可分割的一部分。随着互联网的飞速发展，数字音乐逐渐取代传统唱片成为主流的音乐产品形式，数字音乐相关产业也迅速成为音乐产业链的核心。情绪是一种心理感受，其反应可能受到身体、内心想法或环境的刺激。包括认知、生理和行为方面等各种各样的反应。现在主流的情绪分类方式是valence-arousal情绪表示，不同类型的情绪位于valence-arousal的二维平面上。valence代表积极或消极情绪的方向；唤醒度维度表示情绪的紧张或兴奋程度，从平静到紧张兴奋状态。

2、对于人们的喜好来说，多音轨的音乐是主流。现如今也有越来越多的多音轨音乐生成的模型，音乐生成已经成为计算机音乐学中的一个重要领域，为音乐创作、音乐教育和音乐产业等领域提供了新的可能性。而情感音乐是通过对不同音乐作品的音乐内容和音乐风格进行学习，从而产生具有指定情感的音乐。任何一首音乐都包含着丰富的情感信息，不同的音乐风格带给听众的感受不同，不同的旋律、节奏可以代表不同的情绪。情感音乐能够产生积极的心理和生理反应，如减轻焦虑、提高情绪、增强注意力等。

3、但目前缺少一种多音轨的情感音乐数据集，这对于生成多音轨的带情感的音乐是非常不利的，因此提出一种新颖的数据集，这个数据集是包含特定的乐器并且带有情感标签。

技术实现思路

1、为了解决现有技术中存在的问题，本专利技术提

2、为了实现上述目的，本专利技术采用的技术方案是：一种多音轨音乐数据集的情感标注方法，包括以下步骤：

3、使用指定的情感音乐数据集，训练情感音乐分类器；

4、将一个多音轨数据集放入训练完成的情感音乐分类器中，得到一个多音轨的情感音乐数据集，人工对已分类的数据集的标签进行验证，验证设定比例的数据，人工修改标签至符合要求；将所得标签符合要求的数据-标签和用于训练的数据一起进行训练，得到训练完成的情感音乐分类器模型；将多音轨音频数据集输入情感音乐分类器模型，生成全新的多音轨情感音乐数据集；

5、其中，所述情感音乐分类器包含两个部分，分别为音频训练部分和歌词训练部分，其中音频训练部分包括四个卷积模块四个通道注意力层和两个全连接层，输入为音频的对数梅尔频谱图；歌词训练部分使用bert模型进行训练，其中bert模型包含一个编码器和一个解码器，输入为歌词；所述音频训练部分和歌词训练部分接入两个全连接层，输出为valence-arousal情感标签。

6、进一步的，使用指定的情感音乐数据集，训练情感音乐分类器包括对指定的情感音乐数据集进行音频处理，包括：读取数据集中的已经标注情感标签的数据文件，得到所有音频文件的波形数据，情感标签包含音频的id以及valence-arousal标签；

7、将所有音频文件的波形数据及情感标签以张量的形式再结合音频文件的id得到一个字典的形式并存储到一个文件当中，再利用短时傅里叶变换提取器和对数梅尔特征的提取器处理得到音频文件的对数梅尔频谱图；

8、以音频文件的对数梅尔频谱图作为输入，通过四个卷积层以及注意力层，每个卷积块都会做一个残差连接，最后输出为1×512的特征张量，这个特征向量是音频信号的高维特征表示，它捕捉了音频信号中的重要信息和特征。

9、进一步的，所述音频训练部分和歌词训练部分接入两个全连接层，输出valence-arousal情感标签具体包括：将歌词数据转换为长整型的张量，将将音频和歌词的特征沿第二个维度拼接，两个全连接层将提取的特征映射到最终的分类结果；第一个全连接层和第二个全连接层之间使用relu激活函数，最后输出使用softmax函数生成最终分类结果，将最终分类结果与真实标签计算交叉熵损失，并进行反向传播，得到训练好的情感音乐分类模型。

10、进一步的，利用短时傅里叶变换提取器和对数梅尔特征的提取器处理得到音频文件的对数梅尔频谱图包括：

11、短时傅里叶变换提取器将一个较长的信号分成若干个较短的段，并对每个较短的段进行傅里叶变换，得到信号在不同时间和频率下的特征表示；

12、对数梅尔特征提取器将短时傅里叶变化之后得到的频谱通过一组模拟人耳对不同频率声音感知特性的滤波器称谓梅尔滤波器组，每个滤波器输出的是对应频率范围内的能量总和，对梅尔滤波器组的输出进行对数变换，最后对对数谱进行离散余弦变换得到对数梅尔特征，即，得到音频文件的对数梅尔频谱图，对得到的频谱图使用数据增强(specaugmentation)进行随机变换得到最终的频谱图。

13、进一步的，所述bert模型具体包括嵌入层、transformer encoder块和一个池化层，在bert模型中，输入序列经过多个transformer编码器的处理，每个单词都被转换成一个固定维度为1×768的特征向量，这个张量包含了歌词中的重要语义和情感信息，反映了文本的深层次特征。

14、进一步的，所述bert模型中嵌入层处理过程具体包括：将歌词文本经过分词处理，将文本分割成一系列的单词或子词单元，将每个单词或子词单元转换成固定维度的向量作为词嵌入向量；通过一个固定大小的位置嵌入矩阵得到位置嵌入向量来索引单词在序列中的位置信息；再通过一个固定大小的段嵌入矩阵得到段嵌入向量以区分不同句子，之后将词嵌入向量、位置嵌入向量以及段嵌入向量共同送入transformer encoder块中。

15、进一步的，所述bert模型中transformer encoder部分基于多头注意力机制和前馈神经网络；利用多头注意力机制捕获上下文依赖关系；前馈神经网络由两个全连接层组成，第一个全连接层接收多头注意力机制的输出，并对其进行线性变换，在第一个全连接层之后经过一个relu激活函数层，输入第二个全连接层对relu激活函数层的输出进行进一步的线性变换，得到bert模型的输出。

16、进一步的，所述情感音乐分类器部分具体包括：四个卷积层，所述卷积层内核大小为5×5，每两个卷积层之间有一个2×2池化层和一个批量归一化层，同时用一个挤压和激励网络用于实现注意力机制，挤压和激励网络通过全局平均池化得到每个通道的全局分布，通过一个relu激活函数和sigmoid激活函数学习通道之间的依赖能力，得到一个通道权重向量；

17、将学习到的通道权重向量乘以原始的特征图，得到经过调整的特征图；接着将调整过的特征图与原始特征图进行残差连接，作为输入传递到下一个卷积块中，最后一个卷积层后为一个全局池化层，全局池化层用于将特征映射为固定长度的向量。

18、进一步的，训练情感音乐分类器模型时，将处理好的音频的log-mel频谱图作为输入，使用5折交叉验证将数据集分割为训练集和测试集，然后对输入的频谱图进行批量归一化以提高训练时的收敛和稳定性，本文档来自技高网...

【技术保护点】

1.一种多音轨音乐数据集的情感标注方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的多音轨音乐数据集的情感标注方法，其特征在于，使用指定的情感音乐数据集，训练情感音乐分类器包括对指定的情感音乐数据集进行音频处理，包括：读取数据集中的已经标注情感标签的数据文件，得到所有音频文件的波形数据，情感标签包含音频的ID以及Valence-Arousal标签；

3.根据权利要求1所述的多音轨音乐数据集的情感标注方法，其特征在于，所述音频训练部分和歌词训练部分接入两个全连接层，输出Valence-Arousal情感标签具体包括：将歌词数据转换为长整型的张量，将音频和歌词的特征沿第二个维度拼接，两个全连接层将提取的特征映射到最终的分类结果；第一个全连接层和第二个全连接层之间使用ReLU激活函数，最后输出使用softmax函数生成最终分类结果，将最终分类结果与真实标签计算交叉熵损失，并进行反向传播，得到训练好的情感音乐分类模型。

4.根据权利要求3所述的多音轨音乐数据集的情感标注方法，其特征在于，利用短时傅里叶变换提取器和对数梅尔特征的提取器处理得到音频文件的对数梅尔频谱图包括：

5.根据权利要求1所述的多音轨音乐数据集的情感标注方法，其特征在于，所述BERT模型具体包括嵌入层、transformer encoder块和一个池化层，在BERT模型中，输入序列经过多个Transformer编码器的处理，每个单词都被转换成一个固定维度为1×768的特征向量，这个张量包含了歌词中的重要语义和情感信息，反映了文本的深层次特征。

6.根据权利要求5所述的多音轨音乐数据集的情感标注方法，其特征在于，所述BERT模型中嵌入层处理过程具体包括：将歌词文本经过分词处理，将文本分割成一系列的单词或子词单元，将每个单词或子词单元转换成固定维度的向量作为词嵌入向量；通过一个固定大小的位置嵌入矩阵得到位置嵌入向量用于索引单词在序列中的位置信息；再通过一个固定大小的段嵌入矩阵得到段嵌入向量以区分不同句子，之后将词嵌入向量、位置嵌入向量以及段嵌入向量共同送入transformer encoder块中。

7.根据权利要求5所述的多音轨音乐数据集的情感标注方法，其特征在于，所述BERT模型中transformer encoder部分基于多头注意力机制和前馈神经网络；利用多头注意力机制捕获上下文依赖关系；前馈神经网络由两个全连接层组成，第一个全连接层接收多头注意力机制的输出，并对其进行线性变换，在第一个全连接层之后经过一个Relu激活函数层，输入第二个全连接层对Relu激活函数层的输出进行进一步的线性变换，得到BERT模型的输出。

8.根据权利要求1所述的多音轨音乐数据集的情感标注方法，其特征在于，所述情感音乐分类器部分具体包括：四个卷积层，所述卷积层内核大小为5×5，每两个卷积层之间有一个2×2池化层和一个批量归一化层，同时用一个挤压和激励网络用于实现注意力机制，挤压和激励网络通过全局平均池化得到每个通道的全局分布，通过一个Relu激活函数和Sigmoid激活函数学习通道之间的依赖能力，得到一个通道权重向量；

9.根据权利要求1所述的多音轨音乐数据集的情感标注方法，其特征在于，训练情感音乐分类器模型时，将处理好的音频的log-Mel频谱图作为输入，使用5折交叉验证将数据集分割为训练集和测试集，然后对输入的频谱图进行批量归一化以提高训练时的收敛和稳定性，接着通过四个卷积块，每个卷积块用卷积层来提取特征中层次化的特征；对最后一个卷积块的输出取最大值和平均值，然后将最大值和平均值相加，得到融合后的特征作为输出。

10.根据权利要求1所述的多音轨音乐数据集的情感标注方法，其特征在于，将多音轨音频数据集输入情感音乐分类器模型，生成全新的多音轨情感音乐数据集：将一个多音轨MIDI文件的数据集转换为音频文件，以频谱图的形式放入训练完成的情感音乐分类器模型中，生成所述音频文件的情感标签，得到一个多音轨情感音乐数据集，之后人工验证设定比例分类后的数据，修正之后将人工验证后的正确数据和用于训练的数据再次放入分类器进行训练，得到一个准确率提高的模型，用于所述准确率提高的模型对多音轨数据集进行分类，最终得到需要的多音轨情感音乐数据集。

...

【技术特征摘要】

1.一种多音轨音乐数据集的情感标注方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的多音轨音乐数据集的情感标注方法，其特征在于，使用指定的情感音乐数据集，训练情感音乐分类器包括对指定的情感音乐数据集进行音频处理，包括：读取数据集中的已经标注情感标签的数据文件，得到所有音频文件的波形数据，情感标签包含音频的id以及valence-arousal标签；

3.根据权利要求1所述的多音轨音乐数据集的情感标注方法，其特征在于，所述音频训练部分和歌词训练部分接入两个全连接层，输出valence-arousal情感标签具体包括：将歌词数据转换为长整型的张量，将音频和歌词的特征沿第二个维度拼接，两个全连接层将提取的特征映射到最终的分类结果；第一个全连接层和第二个全连接层之间使用relu激活函数，最后输出使用softmax函数生成最终分类结果，将最终分类结果与真实标签计算交叉熵损失，并进行反向传播，得到训练好的情感音乐分类模型。

5.根据权利要求1所述的多音轨音乐数据集的情感标注方法，其特征在于，所述bert模型具体包括嵌入层、transformer encoder块和一个池化层，在bert模型中，输入序列经过多个transformer编码器的处理，每个单词都被转换成一个固定维度为1×768的特征向量，这个张量包含了歌词中的重要语义和情感信息，反映了文本的深层次特征。

6.根据权利要求5所述的多音轨音乐数据集的情感标注方法，其特征在于，所述bert模型中嵌入层处理过程具体包括：将歌词文本经过分词处理，将文本分割成一系列的单词或子词单元，将每个单词或子词单元转换成固定维度的向量作为词嵌入向量；通过一个固定大小的位置嵌入矩阵得到位置嵌入向量用于索引单词在序列中的位置信息；再通过一个固定大小的段嵌入矩阵得到段嵌入向量以区分不同句子，之后将词嵌入向量、位置嵌入向量以及段嵌入向量共同送入transf...

【专利技术属性】
技术研发人员：郭龙江，程智宇，李津，任美睿，张立臣，李鹏，
申请(专利权)人：陕西师范大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人