基于多模态输入的视频生成方法、装置及系统制造方法及图纸

技术编号：42757770 阅读：11 留言：0更新日期：2024-09-18 13:45

本发明专利技术公开了一种基于多模态输入的视频生成方法、装置及系统，该方法包括：接收用户的多模态输入；利用多模态输入获得用户输入的文本描述；利用文本描述生成目标字幕和对应的目标音频；根据文本描述生成多维度的第一嵌入向量表示；利用第一嵌入向量表示在预存的数据库中搜索匹配出至少一个目标视频素材；利用目标字幕、目标音频以及目标视频素材合成视频。利用本申请的技术方案，用户可以通过不同的交互方式轻松制作视频，与传统的只能以文字输入生成视频相比，本申请为用户提供了更多的交互选择，既能以文字输入生成视频，也能以诸如图像、视频以及语音的输入来生成视频，还可以结合多种输入来生成视频，视频质量以及稳定性均更高。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于视频合成，具体涉及一种基于多模态输入的视频生成方法、装置及系统。

技术介绍

1、在现代社会中，碎片化的时间使得人们更愿意追求简短而有趣的内容，而视频作为一种多模态媒体形式，正变得越来越受欢迎。目前主流的视频生成技术主要是基于文字输入的内容来生成视频技术，其视频的质量受制于自然语言处理和理解技术的水平。系统可能难以准确解读文本的深层含义和情感内涵。这可能导致生成的视频无法真实地传达原始文本所希望表达的情感和意境，导致视频效果不稳定，实际应用场景较少。

技术实现思路

1、为了解决上述问题，本专利技术提供一种基于多模态输入的视频生成方法、装置及系统。利用本申请的技术方案，用户可以通过不同的交互方式轻松制作视频，与传统的只能以文字输入生成视频相比，本申请为用户提供了更多的交互选择，既能以文字输入生成视频，也能以诸如图像、视频以及语音的输入来生成视频，还可以结合多种输入来生成视频，视频质量以及稳定性均更高。

2、本专利技术所采用的技术方案为：

3、在第一个方面，本申请公开了一种基于多模态输入的视频生成方法，包括：

4、接收用户的多模态输入，所述多模态输入包括文字输入、音频输入、视频输入和图像输入中的至少一种；

5、将所述音频输入、视频输入和/或图像输入转换为文字描述信息，利用转换的文字描述信息和/或所述文字输入构成用户输入的文本描述；

6、利用所述文本描述生成目标字幕和对应的目标音频；

7、根据所述文本描述

8、利用所述第一嵌入向量表示在预存的数据库中搜索匹配出至少一个目标视频素材；

9、利用所述目标字幕、目标音频以及目标视频素材合成视频。

10、作为一种可选的技术方案，将音频输入转换为文字描述信息包括：

11、调用通用语音识别whisper模型；

12、利用whisper模型将输入音频的语音信号按照t秒一段进行分割，每一段被转换成log-mel频谱图；

13、从语音信号的log-mel频谱图中提取特征梅尔频率倒谱系数，提取语音特征，进行后处理和解码预测相应的文本，转换为最终的文本序列；

14、利用所述文本序列获得音频输入的文字描述信息。

15、作为一种可选的技术方案，将视频输入转换为文字描述信息包括：

16、调用mplug模型；

17、利用mplug模型中的视频编码器，对视频输入进行分割，对视频帧进行卷积编码，提取视频图像特征，再利用注意力机制提取视频语义特征；

18、利用分词器和自回归的语言模型，将提取的视频图像特征和视频语义特征转换为第一pytorch张量，并对所述第一pytorch张量进行标记、编码；

19、输出视频输入的文字描述信息。

20、作为一种可选的技术方案，将图像输入转换为文字描述信息包括：

21、调用qwen-vl模型；

22、配置对应的量化参数和gpu参数；

23、利用分词器和自回归的语言模型，将图像输入转换为第二 pytorch 张量，并对第二pytorch张量进行标记、编码；

24、输出为图像输入的文字描述信息。

25、作为一种可选的技术方案，所述第一嵌入向量表示的生成包括：

26、通过调用sentence transformer中的bert模型分词器，对接收到的文本描述进行分词和编码，以将文本序列映射为一个高维度的嵌入空间，捕捉每个词语在语境中的含义；

27、利用sentence transformer中的池化模型，对单词嵌入进行降维，生成一个固定维度的向量表示；

28、输出多维度向量组，即第一嵌入向量表示。

29、作为一种可选的技术方案，所述搜索匹配出至少一个目标视频素材包括：

30、对数据库中存储的图像素材和视频素材进行预处理获得第二嵌入向量表示；

31、利用余弦相似度计算算法，比较所述第一嵌入向量与第二嵌入向量之间的相似度，以确定它们在嵌入空间中的相对位置，并对相似度进行排序，获取与输入文本描述最相似的目标视频素材。

32、在第二个方面，本申请公开了一种基于多模态输入的视频生成装置，包括：

33、接收模块，用于接收用户的多模态输入，所述多模态输入包括文字输入、音频输入、视频输入和图像输入中的至少一种；

34、文本描述生成模块，用于将所述音频输入、视频输入和/或图像输入转换为文字描述信息，并利用转换的文字描述信息和/或所述文字输入构成用户输入的文本描述；

35、字幕及音频生成模块，用于利用所述文本描述生成目标字幕和对应的目标音频；

36、第一嵌入向量表示生成模块，用于根据所述文本描述生成多维度的第一嵌入向量表示；

37、搜索匹配模块，用于利用所述第一嵌入向量表示在预存的数据库中搜索匹配出至少一个目标视频素材；

38、视频合成模块，用于利用所述目标字幕、目标音频以及目标视频素材合成视频。

39、作为一种可选的技术方案，所述文本描述生成模块包括音频输入转换单元、视频输入转换单元以及图像输入转换单元；

40、所述音频输入转换单元用于：调用通用语音识别whisper模型；利用whisper模型将输入音频的语音信号按照t秒一段进行分割，每一段被转换成log-mel频谱图；从语音信号的log-mel频谱图中提取特征梅尔频率倒谱系数，提取语音特征，进行后处理和解码预测相应的文本，转换为最终的文本序列；利用所述文本序列获得音频输入的文字描述信息；

41、所述视频输入转换单元用于：调用mplug模型；利用mplug模型中的视频编码器，对视频输入进行分割，对视频帧进行卷积编码，提取视频图像特征，再利用注意力机制提取视频语义特征；利用分词器和自回归的语言模型，将提取的视频图像特征和视频语义特征转换为第一pytorch张量，并对所述第一pytorch张量进行标记、编码；输出视频输入的文字描述信息；

42、所述图像输入转换单元用于：调用qwen-vl模型；配置对应的量化参数和gpu参数；利用分词器和自回归的语言模型，将图像输入转换为第二 pytorch 张量，并对第二pytorch 张量进行标记、编码；输出为图像输入的文字描述信息。

43、作为一种可选的技术方案，所述第一嵌入向量表示生成模块还用于：通过调用sentence transformer中的bert模型分词器，对接收到的文本描述进行分词和编码，以将文本序列映射为一个高维度的嵌入空间，捕捉每个词语在语境中的含义；利用sentencetransformer中的池化模型，对单词嵌入进行降维，生成一个固定维度的向量表示；输出多维度向量组，即第一嵌入向量表示。

44、作为一种可选的技术方案，所述搜索匹配模块还用于：对数据库中存本文档来自技高网...

【技术保护点】

1.基于多模态输入的视频生成方法，其特征在于，包括：

2.根据权利要求1所述的基于多模态输入的视频生成方法，其特征在于，将音频输入转换为文字描述信息包括：

3.根据权利要求1所述的基于多模态输入的视频生成方法，其特征在于，将视频输入转换为文字描述信息包括：

4.根据权利要求1所述的基于多模态输入的视频生成方法，其特征在于，将图像输入转换为文字描述信息包括：

5.根据权利要求1所述的基于多模态输入的视频生成方法，其特征在于，所述第一嵌入向量表示的生成包括：

6.根据权利要求1所述的基于多模态输入的视频生成方法，其特征在于，所述搜索匹配出至少一个目标视频素材包括：

7.基于多模态输入的视频生成装置，其特征在于，包括：

8.根据权利要求7所述的基于多模态输入的视频生成装置，其特征在于：所述文本描述生成模块包括音频输入转换单元、视频输入转换单元以及图像输入转换单元；

9.根据权利要求7所述的基于多模态输入的视频生成装置，其特征在于：

10.基于多模态输入的视频生成系统，其特征在于：

...

【技术特征摘要】

1.基于多模态输入的视频生成方法，其特征在于，包括：

2.根据权利要求1所述的基于多模态输入的视频生成方法，其特征在于，将音频输入转换为文字描述信息包括：

3.根据权利要求1所述的基于多模态输入的视频生成方法，其特征在于，将视频输入转换为文字描述信息包括：

4.根据权利要求1所述的基于多模态输入的视频生成方法，其特征在于，将图像输入转换为文字描述信息包括：

5.根据权利要求1所述的基于多模态输入的视频生成方法，其特征在于，所述第一嵌入向量表示的生成包括：

【专利技术属性】
技术研发人员：肖增玲，张棋光，凌玉飞，
申请(专利权)人：深圳市客一客信息科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人