当前位置: 首页 > 专利查询>浙江大学专利>正文

一种基于舞蹈的多乐器音乐生成方法技术

技术编号:38859691 阅读:20 留言:0更新日期:2023-09-17 10:02
本发明专利技术公开了一种基于舞蹈的多乐器音乐生成方法,立足于填补基于舞蹈生成多乐器音乐研究的空白,构建音乐舞蹈配对的数据集,提升了音乐和舞蹈两种模态的相关性,解决了基于舞蹈的音乐生成工作的主要瓶颈;其次,提供了一个端到端的简单高效的多乐器音乐架构,直接以舞蹈视频中提取的人体运动特征和配对的MIDI序列作为输入,预测下一个MIDI符号;最后,通过该架构生成的高质量多乐器音乐,验证了多乐器音乐生成的可行性,为多模态条件音乐生成提供了依据。了依据。了依据。

【技术实现步骤摘要】
一种基于舞蹈的多乐器音乐生成方法


[0001]本专利技术属于人工智能内容生成领域,具体涉及一种基于舞蹈的多乐器音乐生成方法。

技术介绍

[0002]本专利技术涉及人工智能的音乐创作领域,尤其涉及基于深度学习神经网络架构的生成模型。
[0003]计算机音乐生成主要分为两类:一类是基于算法合成音乐,一类是基于深度学习神经网络架构创作音乐。基于算法合成音乐是通过人为可控的程序按固定的顺序进行组合来合成音乐,该过程需要基于具有数学逻辑的算法组合,如马尔可夫模型、遗传算法、混沌理论等,但必须人为完成规则的定义,可推广性较差。基于深度学习神经网络架构创作音乐则是用深度神经网络对音乐进行建模,该方法的好处是能够快速生成高质量的音乐,同时具有多样性、独特性、创造性和艺术性等特点。该方法是通过深度学习算法训练计算机学习音乐的特征从而生成音乐,即将一些现有的音乐作品输入到深度学习算法中进行训练,让计算机学习音乐的特征,然后利用学习到的知识生成新的音乐作品。
[0004]基于深度学习神经网络架构音乐生成创作任务中最常用的神经网络架构是生成模型,例如变分自动编码器(VAE)或生成对抗网络(GAN),以及基于自然语言处理(NLP)的模型,例如长短期记忆(LSTM)或Transformers。这些模型在音乐创作任务中表现出了非常好的性能。VAE模型使用编码器重构输入来产生连续的潜在空间,解码器将潜在空间中的采样点映射回原始输入进行重构,随后通过最小化潜在损失和重构损失进行推理,但VAE模型往往产生不真实的、有噪声的样本。GAN是由两个神经网络(生成器G和判别器D)组成的生成模型,G和D彼此进行博弈,G学习输入数据的分布进而生成样本数据,D试图区分训练数据中提取的样本和生成器中生成的样本,这两个神经网络必须需要调整通过各自的学习速率达到的相似的水平,所以GAN难以训练且需要很长时间。LSTM是一种递归神经网络(RNN),可以学习和记忆长期依赖关系,会随着时间的推移保留信息,基于RNN的方法虽然支持不定长度的输入和输出,但训练和推理时效率相对低下。Transformer基于现有的序列

序列模型,使用编码器

解码器架构,编码器将输入序列转换为一个连续的表达,然后解码器再基于该表达生成输出序列,其依赖的注意力机制会使用Q(Query)、K(Key)和V(Value)向量来表示特征,其中Q向量表示当前位置的特征,K向量表示其他位置的特征,Value向量则包含了所有位置的特征,
[0005]在计算过程中,Q与K进行相似度计算,然后将结果作为权重来加权求和V向量,生成最终的输出结果。基于Transformer的方法可以很好地解决上述模型存在的问题,Transformer中的全局注意力机制也更佳适合处理长期依赖关系,因此在音乐生成领域得到了广泛的应用。
[0006]此外,由于训练基于舞蹈生成音乐的模型需要音乐舞蹈配对的数据集,预处理出优质的音乐舞蹈配对数据成为了训练模型至关重要的一环。现有技术中,常用的人体运动
数据集只包含简单的运动,例如下述的公开文献:1.CMU:Carnegie

mellon motion capture database.http://mocap.cs.cmu.edu(2010);2.Adobe:Adobe mixamo dataset.https://www.mixamo.com(2017);3.SFU:Sfu motion capture database.http://mocap.cs.sfu.ca(2017);4.
[0007]Yun,K.,Honorio,J.,Chattopadhyay,D.,Berg,T.L.,Samaras,D.:Two

person interaction detection using body

pose features and multiple instance learning.In:2012IEEE Computer Society Conference on Computer Vision and Pattern Recognition Workshops.pp.28

35.IEEE(2012)。也有公开的现有技术包括舞蹈动作,但仅以2D的形式表示,例如:5.Lee,J.,Kim,S.,Lee,K.:Listen to dance:Music

driven choreography generation using autoregressive encoder

decoder network.arXiv preprint arXiv:1811.00818(2018)。;或者,有的现有技术收集的动作与实际的舞蹈场景相比缺乏真实性和多样性,例如:6.Tang,T.,Jia,J.,Mao,H.:Dance with melody:An lstm

autoencoder approach to music

oriented dance synthesis.In:2018ACM Multimedia Conference on Multimedia Conference.pp.1598

1606.ACM(2018)。现有技术中,AIST(Tsuchida S,Fukayama S,Hamasaki M,et al.AIST Dance Video Database:Multi

Genre,Multi

Dancer,and Multi

Camera Database for Dance Information Processing[C]//ISMIR.2019,1(5):6)提供了高质量的3D人体动作数据集,其包含1618个舞蹈动作,由于他们采用了约9个机位来进行录制,最终的视频总数为13940条。总共覆盖十个舞蹈流派,虽然他们包含了大量的3D舞蹈动作数据,但不重复的音乐片段仅有60首,即大部分舞蹈视频都是相同的乐曲伴奏,在音乐生成的任务中非常容易产生过拟合的现象。

技术实现思路

[0008]鉴于上述,本专利技术的目的是提供一种基于舞蹈的多乐器音乐生成方法,在构建音乐舞蹈配对的数据集的基础上,将视频流中的人体姿态进行编码作为生成条件并预测MIDI格式的音乐符号,验证了基于舞蹈的多乐器音乐生成的可行性。
[0009]为实现上述专利技术目的,实施例提供的一种基于舞蹈的多乐器音乐生成方法,包括以下步骤:
[0010]构建音乐舞蹈配对的视频数据集;
[0011]检测视频数据集中每一帧的有效性,筛选出有完整人体的有效视频片段,并分离出与之对应的音轨;
[0012]从视频中获得人体动作序列,提取人体关节点的坐标并用无向图的形式表示运动的人体骨骼模型;
[0013]使用空间图卷积网络(S本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于舞蹈的多乐器音乐生成方法,其特征在于,包括以下步骤:步骤一、构建音乐与舞蹈相配对的视频数据集;步骤二、检测视频数据集中每一帧的有效性,筛选出有完整人体的有效视频片段,并分离出与之对应的音轨;步骤三、从包含完整人体的有效视频片段中获得人体动作序列,提取人体关节点的坐标并用无向图的形式表示人体骨骼模型;步骤四、使用空间图卷积神经网络对人体姿态特征进行编码,然后应用时间卷积来聚合时间特征,获得时空运动特征;步骤五、将预处理后的音频转录成MIDI音乐序列;步骤六、利用Transformer编码器构建的基于注意力机制的特征提取器捕捉人体姿态时空运动特征中的长距离依赖关系生成编码表示;步骤七、使用掩码自注意力机制计算得到编码的MIDI序列的注意力向量;步骤八、使用基于多头交叉注意力机制的模块,利用编码器提取的运动特征来指导MIDI序列的注意力学习过程;步骤九、对Transformer解码器以类似的自回归方式预测的MIDI符号进行序列排布得到音乐生成结果。2.如权利要求1所述的一种基于舞蹈的多乐器音乐生成方法,其特征在于:所述步骤五中,使用一个四元组来表示MIDI音乐序列,包括音乐事件、音符持续时间、音轨和乐器类型。3.根据权利要求1所述的一种基于舞蹈的多乐器音乐生成方法,其特征在于,所述步骤一包括:收集舞蹈视频,对视频中的音频转录得到多乐器符号MIDI音乐,从而构建一个舞蹈音乐配对的视频数据集,所述视频数据集包含不同类型的音乐和舞蹈样本持。4.根据权利要求3所述的基于舞蹈的多乐器音乐生成方法,其特征在于,所述步骤二包括:使用ffmpeg工具对视频和音频信号进行标准化处理;使用Mediapipe框架检测有效的视频片段并输出包含每个片段的开始帧和结束帧的数组;依据上述数组使用ffmpeg将对应的音频提出来。5.根据权利要求4所述的基于舞蹈的多乐器音乐生成方法,其特征在于,所述步骤三包括:使用人体关节点估计网络对人体图像进行特征提取和预测,将输入的图像进行预处理;使用卷积神经网络提取图像中包含了人体姿态信息的特征表示;使用CNN定位人体框架,其中包括人体的各个部位的位置和大小;利用人体框架信息以及之前提取的特征估计关键点位置;对估计得到的关键点进行后处理,得到最终的姿态估计结果并以无向图G=(V,E)的形式表示运动的人体骨骼模型,每个节点vi∈V对应人体的一个关节点,边表示帧内和帧间的连接。6.根据权利要求5所述的基于舞蹈的多乐器音乐生成方法,其特征在于,所述步骤四包
括:以表示运动的人体骨骼模型的无向图作为输入的图结构;使用空间图卷积神经网络在图上进行卷积操作,将节点的特征向量与其周围节点的特征向量加权求和,其中权重由每个节点与其周围节点之间的距离计算得到,通过学习不同节点之间的相互作用,来计算每个节点的新特征表示;使用空间图卷积神经网络提取出每个关节点的新特征表示,并将它们拼接在一起,形成一个全局特征向量,该向量包含了所有关节点...

【专利技术属性】
技术研发人员:韩博李雨恒韩梁俭
申请(专利权)人:浙江大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1