一种音乐的多媒体产物的生成方法、设备及介质技术

技术编号：42360041 阅读：28 留言：0更新日期：2024-08-16 14:44

本申请涉及一种音乐的多媒体产物的生成方法、设备及介质，应用于人工智能领域，该方法包括：获取目标音乐以及目标音乐对应的目标多媒体产物类型；利用音乐描述模型确定目标音乐对应的音乐描述，音乐描述为对目标音乐的文本描述；根据目标多媒体产物类型以及音乐描述，构建大语言模型提问词；根据大语言模型提问词，利用对话式大语言模型，生成音乐条件文本提示；基于音乐条件文本提示，利用目标多媒体产物类型对应的文生产物模型，生成目标音乐对应的多媒体产物。本申请能够简便的得到与音乐适配度高的多媒体产物。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及人工智能，尤其是涉及一种音乐的多媒体产物的生成方法、设备及介质。

技术介绍

1、目前为音乐生成图像或者视频等多媒体产物主要是基于检索或者基于渲染手段生成多媒体产物。基于检索方式，构建较大的素材数据库，然后基于音乐片对于素材数据库中的图片进行匹配，以得到相应的图像；其需要构建音乐-图片配对的数据库以获得相似度估计函数，同时也需收集大量图片作为素材库，且生成视频的质量受素材库规模和素材质量影响较大。基于渲染方式，需要提取到音乐的节奏特征，然后基于节奏特征进行渲染，由于主要是基于节奏特征，导致生成的图像仅能反应音乐的音频属性，可能与音乐的适配度较低。

2、因此，如何提供一种简便的且与音乐适配度高的多媒体产物是本领域亟待解决的技术问题。

技术实现思路

1、本申请目的是提供一种音乐的多媒体产物的生成方法、设备及介质，能够简便的得到与音乐适配度高的多媒体产物。

2、第一方面，提供了一种音乐的多媒体产物的生成方法，包括：

3、获取目标音乐以及所述目标音乐对应的目标多媒体产物类型；

4、利用音乐描述模型确定所述目标音乐对应的音乐描述，所述音乐描述为对所述目标音乐的文本描述；

5、根据所述目标多媒体产物类型以及所述音乐描述，构建大语言模型提问词；

6、根据所述大语言模型提问词，利用对话式大语言模型，生成音乐条件文本提示；

7、基于所述音乐条件文本提示，利用所述目标多媒体产物类型对应的文生产物模型，生成所述目标音乐对应的多媒体产物。

8、通过上述技术方案，基于音乐描述模型确定目标音乐的音乐描述，该音乐描述具有音乐的语义信息，然后基于目标音乐对应的目标多媒体产物类型和音乐描述构建大语言模型提问词，并使用现有的对话式大语言模型来生成音乐条件文本提示，以驱动特定的生成式人工智能方法生成符合目标音乐的多媒体产物，该多媒体产物能够与音乐所表达的内容以及风格相关，并且，扩展了文生图、文生视频等使用文本驱动的生成式人工智能模型的应用场景，使其在不经过任何模型改动和训练的前提下支持根据音乐音频生成特定产物，方式更加简单，得到的多媒体产物和音乐的适配度更高。

9、在一种可能的实现方式中，所述根据所述目标多媒体产物类型以及所述音乐描述，构建大语言模型提问词，包括：

10、分析音乐描述中的属性信息，得到目标音乐的音乐属性，所述音乐属性包括：音乐类型、速度以及情感；

11、读取用户对多媒体产物的需求，所述需求包括画风、色调、场景中的至少一种；

12、根据所述音乐属性、所述需求以及目标多媒体产物类型，以及第一提示词模板，构建大语言模型提示词。

13、通过上述技术方案，对音乐描述进行分析得到目标音乐的音乐属性，然后结合音乐属性和用户的需求以及目标多媒体产物类型填充第一提示词模板，得到大语言模型提示词，使得大语言模型提示词中包括多维度信息，得到的多媒体产物质量更高。

14、在一种可能的实现方式中，所述分析音乐描述中的属性信息，得到目标音乐的音乐属性，包括：

15、根据所述音乐描述和第二提示词模板，构建属性信息提示词；

16、根据所述属性信息提示词，利用所述对话式大语言模型，提取所述音乐描述的音乐属性；

17、确定所述音乐属性是否符合要求，若不符合要求，则重复执行根据所述音乐描述和第一模板提示词，利用大语言模型，提取目标音乐的音乐属性的步骤，直至音乐属性符合要求。

18、通过上述技术方案，通过音乐描述构建属性信息提示词，并利用对话式大语言模型反馈提示词，得到音乐属性，利用对话式大语言模型能够精准高效的专区到音乐属性，并且在得到音乐属性后，需要验证是否符合要求，如果不符合要求，则重新进行提取，直至得到满足要求的音乐属性，采用循环验证的方式保证了音乐属性的准确性和符合度。

19、在一种可能的实现方式中，所述根据所述大语言模型提问词，利用对话式大语言模型，生成音乐条件文本提示，包括：

20、获取包括所述对话式大语言模型的第一api调用命令的第一api调用脚本，所述第一api调用命令中包括所述大语言模型提问词；

21、执行所述第一api调用脚本，将所述大语言模型提问词发送至所述对话式大语言模型对应的服务器；

22、接收所述对话式大语言模型对应的服务器返回的音乐条件文本提示。

23、通过上述技术方案，在对话式大语言模型是商业模型的情况下，通过脚本的形式调用对话式大语言模型得到音乐条件文本提示。

24、在一种可能的实现方式中，所述接收所述对话式大语言模型对应的服务器返回的音乐条件文本提示之后，还包括：

25、获取用户对所述音乐条件文本提示的反馈信息；

26、当所述反馈信息中包括改进信息时，根据所述改进信息，按照第三提示词模板，构建改进提示词；

27、获取包括所述对话式大语言模型的第二api调用命令的第二api调用脚本，所述第二api调用命令中包括所述改进提示词；

28、执行所述第二api调用脚本，将所述改进提示词发送至所述对话式大语言模型对应的服务器；

29、接收所述对话式大语言模型对应的服务器返回的新的音乐条件文本提示；并再次获取用户对新的音乐条件文本提示的反馈信息，直至反馈信息中不包括改进信息，得到最终的音乐条件文本提示。

30、通过上述技术方案，增加反馈机制，在得到返回的音乐条件文本提示后，获取用户对当前的音乐条件文本提示的反馈信息，当用户确定音乐条件文本提示需要改进时，能够构建改进提示词，并执行脚本以调用对话式语言大模型进行再次生成，重复执行上述步骤，知道用户确定音乐条件文本提示不需要改进，此时得到精准的最终的音乐条件文本提示。

31、在一种可能的实现方式中，所述获取目标音乐以及所述目标音乐对应的目标多媒体产物类型之前，还包括：

32、获取原音乐的目标多媒体产物类型；

33、当目标多媒体产物类型为视频类型时，确定原音乐的音乐时长是否大于所述文生产物模型所支持的最大可生成视频时长；

34、若是，则根据所述最大可生成视频时长对所述原音乐进行切分，得到多个子音乐，所述目标音乐为所述多个子音乐中的任一个；

35、相应的，所述基于所述音乐条件文本提示，利用所述目标多媒体产物类型对应的文生产物模型，生成所述目标音乐对应的多媒体产物之后，还包括：

36、将每个子音乐对应的多媒体产物进行拼接，得到与原音乐对应的音乐视频。

37、通过上述技术方案，在目标多媒体产物类型为视频类型时，受文生产物模型的视频时长的限制，所生成视频时长可能无法覆盖整首音乐，此时可根据所使用的文生产物模型所支持的最大可生成视频时长对原音乐音频进行切分，得到多条音乐文本提示。

38、在一种可能的实现方式中，所述基于所述音乐条件文本提示，利用所述目标多媒体本文档来自技高网...

【技术保护点】

1.一种音乐的多媒体产物的生成方法，其特征在于，包括：

2.根据权利要求1所述的音乐的多媒体产物的生成方法，其特征在于，所述根据所述目标多媒体产物类型以及所述音乐描述，构建大语言模型提问词，包括：

3.根据权利要求2所述的音乐的多媒体产物的生成方法，其特征在于，所述分析音乐描述中的属性信息，得到目标音乐的音乐属性，包括：

4.根据权利要求1所述的音乐的多媒体产物的生成方法，其特征在于，所述根据所述大语言模型提问词，利用对话式大语言模型，生成音乐条件文本提示，包括：

5.根据权利要求4所述的音乐的多媒体产物的生成方法，其特征在于，所述接收所述对话式大语言模型对应的服务器返回的音乐条件文本提示之后，还包括：

6.根据权利要求1至5任一项所述的音乐的多媒体产物的生成方法，其特征在于，所述获取目标音乐以及所述目标音乐对应的目标多媒体产物类型之前，还包括：

7.根据权利要求1至5任一项所述的音乐的多媒体产物的生成方法，其特征在于，所述基于所述音乐条件文本提示，利用所述目标多媒体产物类型对应的文生产物模型，生成所述目标音

8.根据权利要求7所述的音乐的多媒体产物的生成方法，其特征在于，所述确定所述音乐描述和所述产物描述的匹配程度，包括：

9.一种电子设备，其特征在于，其包括：

10.一种计算机可读存储介质，其特征在于，所述存储介质存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1至8任一项所述的音乐的多媒体产物的生成方法的步骤。

...

【技术特征摘要】

1.一种音乐的多媒体产物的生成方法，其特征在于，包括：

3.根据权利要求2所述的音乐的多媒体产物的生成方法，其特征在于，所述分析音乐描述中的属性信息，得到目标音乐的音乐属性，包括：

6.根据权利要求1至5任一项所述的音乐的多媒体产物的生成方法，...

【专利技术属性】
技术研发人员：刘祖渊，杨白云，
申请(专利权)人：星河视效科技北京有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人