一种基于舞蹈的多乐器音乐生成方法技术

技术编号：38859691 阅读：20 留言：0更新日期：2023-09-17 10:02

本发明专利技术公开了一种基于舞蹈的多乐器音乐生成方法，立足于填补基于舞蹈生成多乐器音乐研究的空白，构建音乐舞蹈配对的数据集，提升了音乐和舞蹈两种模态的相关性，解决了基于舞蹈的音乐生成工作的主要瓶颈；其次，提供了一个端到端的简单高效的多乐器音乐架构，直接以舞蹈视频中提取的人体运动特征和配对的MIDI序列作为输入，预测下一个MIDI符号；最后，通过该架构生成的高质量多乐器音乐，验证了多乐器音乐生成的可行性，为多模态条件音乐生成提供了依据。了依据。了依据。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于舞蹈的多乐器音乐生成方法

[0001]本专利技术属于人工智能内容生成领域，具体涉及一种基于舞蹈的多乐器音乐生成方法。

技术介绍

[0002]本专利技术涉及人工智能的音乐创作领域，尤其涉及基于深度学习神经网络架构的生成模型。
[0003]计算机音乐生成主要分为两类：一类是基于算法合成音乐，一类是基于深度学习神经网络架构创作音乐。基于算法合成音乐是通过人为可控的程序按固定的顺序进行组合来合成音乐，该过程需要基于具有数学逻辑的算法组合，如马尔可夫模型、遗传算法、混沌理论等，但必须人为完成规则的定义，可推广性较差。基于深度学习神经网络架构创作音乐则是用深度神经网络对音乐进行建模，该方法的好处是能够快速生成高质量的音乐，同时具有多样性、独特性、创造性和艺术性等特点。该方法是通过深度学习算法训练计算机学习音乐的特征从而生成音乐，即将一些现有的音乐作品输入到深度学习算法中进行训练，让计算机学习音乐的特征，然后利用学习到的知识生成新的音乐作品。
[0004]基于深度学习神经网络架构音乐生成创作任务中最常用的神经网络架构是生成模型，例如变分自动编码器(VAE)或生成对抗网络(GAN)，以及基于自然语言处理(NLP)的模型，例如长短期记忆(LSTM)或Transformers。这些模型在音乐创作任务中表现出了非常好的性能。VAE模型使用编码器重构输入来产生连续的潜在空间，解码器将潜在空间中的采样点映射回原始输入进行重构，随后通过最小化潜在损失和重构损失进行推理，但VAE模型往往产生不真实的、有噪声的样本。GAN是...

【技术保护点】

【技术特征摘要】
1.一种基于舞蹈的多乐器音乐生成方法，其特征在于，包括以下步骤：步骤一、构建音乐与舞蹈相配对的视频数据集；步骤二、检测视频数据集中每一帧的有效性，筛选出有完整人体的有效视频片段，并分离出与之对应的音轨；步骤三、从包含完整人体的有效视频片段中获得人体动作序列，提取人体关节点的坐标并用无向图的形式表示人体骨骼模型；步骤四、使用空间图卷积神经网络对人体姿态特征进行编码，然后应用时间卷积来聚合时间特征，获得时空运动特征；步骤五、将预处理后的音频转录成MIDI音乐序列；步骤六、利用Transformer编码器构建的基于注意力机制的特征提取器捕捉人体姿态时空运动特征中的长距离依赖关系生成编码表示；步骤七、使用掩码自注意力机制计算得到编码的MIDI序列的注意力向量；步骤八、使用基于多头交叉注意力机制的模块，利用编码器提取的运动特征来指导MIDI序列的注意力学习过程；步骤九、对Transformer解码器以类似的自回归方式预测的MIDI符号进行序列排布得到音乐生成结果。2.如权利要求1所述的一种基于舞蹈的多乐器音乐生成方法，其特征在于：所述步骤五中，使用一个四元组来表示MIDI音乐序列，包括音乐事件、音符持续时间、音轨和乐器类型。3.根据权利要求1所述的一种基于舞蹈的多乐器音乐生成方法，其特征在于，所述步骤一包括：收集舞蹈视频，对视频中的音频转录得到多乐器符号MIDI音乐，从而构建一个舞蹈音乐配对的视频数据集，所述视频数据集包含不同类型的音乐和舞蹈样本持。4.根据权利要求3所述的基于舞蹈的多乐器音乐生成方法，其特征在于，所述步骤二包括：使用ffmpeg工具对视频和音频信号进行标准化处理；使用Mediapipe框架检测有效的视频片段并输出包含每个片段的开始帧和结束帧的数组；依据上述数组使用ffmpeg将对应的音频提出来。5.根据权利要求4所述的基于舞蹈的多乐器音乐生成方法，其特征在于，所述步骤三包括：使用人体关节点估计网络对人体图像进行特征提取和预测，将输入的图像进行预处理；使用卷积神经网络提取图像中包含了人体姿态信息的特征表示；使用CNN定位人体框架，其中包括人体的各个部位的位置和大小；利用人体框架信息以及之前提取的特征估计关键点位置；对估计得到的关键点进行后处理，得到最终的姿态估计结果并以无向图G＝(V,E)的形式表示运动的人体骨骼模型，每个节点vi∈V对应人体的一个关节点，边表示帧内和帧间的连接。6.根据权利要求5所述的基于舞蹈的多乐器音乐生成方法，其特征在于，所述步骤四包
括：以表示运动的人体骨骼模型的无向图作为输入的图结构；使用空间图卷积神经网络在图上进行卷积操作，将节点的特征向量与其周围节点的特征向量加权求和，其中权重由每个节点与其周围节点之间的距离计算得到，通过学习不同节点之间的相互作用，来计算每个节点的新特征表示；使用空间图卷积神经网络提取出每个关节点的新特征表示，并将它们拼接在一起，形成一个全局特征向量，该向量包含了所有关节点...

【专利技术属性】
技术研发人员：韩博，李雨恒，韩梁俭，
申请(专利权)人：浙江大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人