基于多种人工智能技术生成逼真视频的方法及系统技术方案

技术编号：41578628 阅读：15 留言：0更新日期：2024-06-06 23:55

本申请公开了一种基于多种人工智能技术生成逼真视频的方法及系统，涉及视频生成技术领域，通过接收用户输入的自然语言数据；将自然语言数据进行预处理；将预处理后的自然语言数据输入到预先训练好的大型语言模型中生成相应的场景内容；将场景内容输入到预先训练好的稳定扩散模型中生成对应的高分辨率图像；将场景内容和高分辨率图像输入到预先训练好的XDSora模型中生成逼真的视频数据。本申请提供的基于多种人工智能技术生成逼真视频的方法及系统利用大型语言模型、稳定扩散模型以及XDSora模型能够生成高分辨率、视觉逼真的视频内容，解决了现有技术无法将多种人工智能技术集成在一起从而生成逼真视频的问题。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及视频生成，具体涉及一种基于多种人工智能技术生成逼真视频的方法及系统。

技术介绍

1、随着科技的不断发展，人工智能技术也取得了显著的进步。在人工智能技术中，大型语言模型(llm)和生成式对抗网络(gans)是两个重要的研究方向。

2、大型语言模型是指基于深度学习技术构建的能够处理和生成大规模自然语言文本的模型。这些模型通常由数十亿甚至上百亿参数组成，能够学习语言的模式、规律和语境，并生成具有逼真性和连贯性的文本。

3、生成式对抗网络是由生成器和判别器组成的一种深度学习模型。生成器试图生成逼真的数据样本，例如图像、音频或文本，而判别器则试图区分生成器生成的数据和真实数据。生成器和判别器之间通过对抗训练的方式相互竞争和提升，最终使生成器能够生成与真实数据难以区分的高质量数据样本。

4、然而，目前大多数llm模型无法直接应用于视频生成的任务中。这是因为：首先，大多数现有的llm是基于文本数据训练得到的，而视频的内容是由图像组成的；其次，目前gans在image-toimage task(指的是一种任务，其中，生成的内容以图像为单位，即输入和输出都是静止的图像)中已经得到了广泛的应用，但是它们在video-tovideo task(指的是另一种任务，其中，生成的内容是动态的视频，即输入和输出都是视频)中的应用还相对较少。

技术实现思路

1、为此，本申请提供一种基于多种人工智能技术生成逼真视频的方法、系统及计算机程序产品，以解决现有技术无法将多种人

2、为了实现上述目的，本申请提供如下技术方案：

3、第一方面，一种基于多种人工智能技术生成逼真视频的方法，包括：

4、步骤1：接收用户输入的自然语言数据；

5、步骤2：将所述自然语言数据进行预处理；

6、步骤3：将预处理后的所述自然语言数据输入到预先训练好的大型语言模型中生成相应的场景内容；

7、步骤4：将所述场景内容输入到预先训练好的稳定扩散模型中生成对应的高分辨率图像；

8、步骤5：将所述场景内容和所述高分辨率图像输入到预先训练好的xdsora模型中生成逼真的视频数据。

9、可选地，所述步骤2中，所述大型语言模型在训练时需求从各类视频中获取大量的文本数据和对应的真实视频数据作为训练集。

10、可选地，所述文本数据和所述真实视频数据需要经过切割、标注以及归一化处理。

11、可选地，所述大型语言模型在训练时通过调整预料库的大小来提高模型的准确性，通过减少训练时间来加快模型的收敛速度。

12、可选地，所述步骤3中，训练所述稳定扩散模型时其输入参数包括文本数据和对应的视频数据，其中，所述文本数据是利用训练好的所述大型语言模型进行优化后的数据。

13、可选地，所述步骤3中，所述稳定扩散模型在训练时通过扩散步数、采样率以及噪声强度来改变图像的风格和质量效果。

14、第二方面，一种基于多种人工智能技术生成逼真视频的系统，包括：

15、数据接收模块，用于接收用户输入的自然语言数据；

16、数据处理模块，用于将所述自然语言数据进行预处理；

17、场景内容生成模块，用于将预处理后的所述自然语言数据输入到预先训练好的大型语言模型中生成相应的场景内容；

18、图像生成模块，用于将所述场景内容输入到预先训练好的稳定扩散模型中生成对应的高分辨率图像；

19、视频生成模块，用于将所述场景内容和所述高分辨率图像输入到预先训练好的xdsora模型中生成逼真的视频数据。

20、第三方面，一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现一种基于多种人工智能技术生成逼真视频的方法的步骤。

21、第四方面，一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现一种基于多种人工智能技术生成逼真视频的方法的步骤。

22、第五方面，一种计算机程序产品，包括计算机程序/指令，该计算机程序/指令被处理器执行时实现一种基于多种人工智能技术生成逼真视频的方法的步骤。

23、相比现有技术，本申请至少具有以下有益效果：

24、本申请提供了一种基于多种人工智能技术生成逼真视频的方法及系统，通过接收用户输入的自然语言数据；将自然语言数据进行预处理；将预处理后的自然语言数据输入到预先训练好的大型语言模型中生成相应的场景内容；将场景内容输入到预先训练好的稳定扩散模型中生成对应的高分辨率图像；将场景内容和高分辨率图像输入到预先训练好的xdsora模型中生成逼真的视频数据。本申请提供的基于多种人工智能技术生成逼真视频的方法及系统利用大型语言模型、稳定扩散模型以及xdsora模型能够生成高分辨率、视觉逼真的视频内容，解决了现有技术无法将多种人工智能技术集成在一起从而生成逼真视频的问题。

本文档来自技高网...

【技术保护点】

1.一种基于多种人工智能技术生成逼真视频的方法，其特征在于，包括：

2.根据权利要求1所述的基于多种人工智能技术生成逼真视频的方法，其特征在于，所述步骤2中，所述大型语言模型在训练时需求从各类视频中获取大量的文本数据和对应的真实视频数据作为训练集。

3.根据权利要求2所述的基于多种人工智能技术生成逼真视频的方法，其特征在于，所述文本数据和所述真实视频数据需要经过切割、标注以及归一化处理。

4.根据权利要求2所述的基于多种人工智能技术生成逼真视频的方法，其特征在于，所述大型语言模型在训练时通过调整预料库的大小来提高模型的准确性，通过减少训练时间来加快模型的收敛速度。

5.根据权利要求1所述的基于多种人工智能技术生成逼真视频的方法，其特征在于，所述步骤3中，训练所述稳定扩散模型时其输入参数包括文本数据和对应的视频数据，其中，所述文本数据是利用训练好的所述大型语言模型进行优化后的数据。

6.根据权利要求1所述的基于多种人工智能技术生成逼真视频的方法，其特征在于，所述步骤3中，所述稳定扩散模型在训练时通过扩散步数、采样率以及噪声

7.一种基于多种人工智能技术生成逼真视频的系统，其特征在于，包括：

8.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述的方法的步骤。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。

10.一种计算机程序产品，包括计算机程序/指令，其特征在于，该计算机程序/指令被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。

...

【技术特征摘要】

1.一种基于多种人工智能技术生成逼真视频的方法，其特征在于，包括：

5.根据权利要求1所述的基于多种人工智能技术生成逼真视频的方法，其特征在于，所述步骤3中，训练所述稳定扩散模型时其输入参数包括文本数据和对应的视频数据，其中，所述文本...

【专利技术属性】
技术研发人员：李佳楠，
申请(专利权)人：小哆智能科技北京有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人