一种用于为视频生成背景音乐的方法、装置、设备及介质制造方法及图纸

技术编号：42128324 阅读：9 留言：0更新日期：2024-07-25 00:43

本公开提供一种用于为视频生成背景音乐的方法、装置、设备及介质。其中，方法包括：对获取的待处理的视频进行预处理，得到与待处理的视频的内容相匹配的至少一组图像特征和运动特征；将至少一组图像特征和运动特征输入预先训练的矢量量化VQ生成模型，得到用于生成音频的VQ估计值序列；在预设VQ条目码本中，确定与VQ估计值序列中每一个VQ估计值距离最小的VQ条目，得到作为用于生成音频的VQ表示序列；利用预设音频合成器，将VQ表示序列合成为音频，作为待处理的视频的背景音乐。利用本公开实施例提供的方法，使得生成的背景音乐与视频更加契合。

全部详细技术资料下载

【技术实现步骤摘要】

本公开涉及自动化生成音乐，尤其涉及一种用于为视频生成背景音乐的方法、装置、电子设备、非暂态计算机可读存储介质以及计算机程序产品。

技术介绍

1、随着科技的发展，人工智能在音乐领域的应用不断增多，自动化生成音乐也逐渐成为研究的热点；越来越多的学者开始探索视频与音乐之间的关系，并利用深度学习模型自动生成音乐。但是，目前现有技术中，多数的音乐生成模型生成的音乐不能与视频很好的匹配。

2、因此，如何提供一种用于为视频生成背景音乐的方法，使得生成的背景音乐与视频内容很好的匹配，成为当前亟需解决的问题。

技术实现思路

1、本公开提供一种用于为视频生成背景音乐的方法，用以解决现有技术中音乐生成模型生成的音乐不能与视频很好的匹配的缺陷。

2、本公开提供一种用于为视频生成背景音乐的方法，包括：对获取的待处理的视频进行预处理，得到与所述待处理的视频的内容相匹配的至少一组图像特征和运动特征；将所述至少一组图像特征和运动特征输入预先训练的矢量量化vq生成模型，得到用于生成音频的vq估计值序列；其中，所述预先训练的vq生成模型中至少包括融合空间通道注意力机制的vq生成器网络和多尺度卷积的vq判别器网络；在预设vq条目码本中，确定与vq估计值序列中每一个vq估计值距离最小的vq条目，得到作为用于生成音频的vq表示序列；利用预设音频合成器，将所述vq表示序列合成为音频，作为所述待处理的视频的背景音乐。

3、本公开还提供一种用于为视频生成背景音乐的装置，包括：数据预处理模块，被

4、本公开还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述用于为视频生成背景音乐的方法。

5、本公开还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述用于为视频生成背景音乐的方法。

6、本公开还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述用于为视频生成背景音乐的方法。

7、如上所述，利用本公开实施例提供的用于为视频生成背景音乐的方法，通过对基于dm-gan模型的传统方案的改进——在vq生成器中融入空间通道自注意力机制，能让模型在提取视频特征时增强模型对重要信息的关注；在vq判别器中引入多尺度卷积，能让模型在判别阶段可以从多个尺度的判别音频信息——可以实现在数据建模的过程中充分考虑视频和音乐之间、以及作品在全局和局部之间的关联性，从而最终使得生成的背景音乐与视频更加契合。

本文档来自技高网...

【技术保护点】

1.一种用于为视频生成背景音乐的方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述对获取的待处理的视频进行预处理，得到与所述待处理的视频的内容相匹配的至少一组图像特征和运动特征，包括：

3.根据权利要求1所述的方法，其特征在于，所述预先训练的VQ生成模型的训练过程包括：

4.根据权利要求3所述的方法，其特征在于，所述多尺度卷积的VQ判别器网络包括判别网络D1、判别网络D2以及判别网络D3，

5.根据权利要求1所述的方法，其特征在于，所述在预设VQ条目码本中，确定与VQ估计值序列中每一个VQ估计值距离最小的VQ条目，得到作为用于生成音频的VQ表示序列，包括：

6.根据权利要求1所述的方法，其特征在于，所述预设音频合成器包括Jukebox解码器。

7.一种用于为视频生成背景音乐的装置，其特征在于，包括：

8.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至6任一项所述方法。

10.一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述方法。

...

【技术特征摘要】

1.一种用于为视频生成背景音乐的方法，其特征在于，包括：

3.根据权利要求1所述的方法，其特征在于，所述预先训练的vq生成模型的训练过程包括：

4.根据权利要求3所述的方法，其特征在于，所述多尺度卷积的vq判别器网络包括判别网络d1、判别网络d2以及判别网络d3，

5.根据权利要求1所述的方法，其特征在于，所述在预设vq条目码本中，确定与vq估计值序列中每一个vq估计值距离最小的vq条目，得到作为用于生成音频的vq表示序列...

【专利技术属性】
技术研发人员：王恒，王雪婷，郝森，姜益民，喻蕾，汪成龙，
申请(专利权)人：武汉轻工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人