【技术实现步骤摘要】
文生视频生成方法、装置、电子设备及可读存储介质
[0001]本专利技术涉及数据处理
,尤其涉及一种文生视频生成方法
、
装置
、
电子设备及可读存储介质
。
技术介绍
[0002]常见的深度文生视频的生成方法是基于扩散模型,如
Imagen video
,
Make
‑
a
‑
video
等,此类方案一般扩展自文生图方法
Stable Diffusion
,将文生图方案中有关2维生成的操作扩展到3维,并增加部分适应性改变,即可得到视频生成方案
。
[0003]此类方案为视频中的每一帧初始化一个随机向量,最终希望通过降噪过程,生成一个空间上一致
、
时序上连续的视频片段
。
但是此类方法随机初始化的多帧向量毫无关联,将时空一致性生成需求寄希望于降噪过程,需要大量的训练数据和计算资源,模型收敛困难
。
受限于模型结构和计算资源,此类方法无法生成较长的视频片段
。
技术实现思路
[0004]有鉴于此,本专利技术实施例提供了一种文生视频生成方法,以解决无法生成任意长度长视频的问题
。
[0005]根据本专利技术的一方面,提供了一种文生视频生成方法,包括:
[0006]接收第一输入,所述第一输入为与待生成视频对应的第一文本信息;
[0007]响应于所述第一输入,将所述第一文本信息编码 ...
【技术保护点】
【技术特征摘要】
1.
一种文生视频生成方法,其特征在于,包括:接收第一输入,所述第一输入为与待生成视频对应的第一文本信息;响应于所述第一输入,将所述第一文本信息编码为第一特征信息,经过扩散后生成所述第一特征信息的第一高斯噪声;接收第二输入,所述第二输入为所述第一文本信息和所述第一高斯噪声;响应于所述第二输入,在频谱隐空间生成与所述第一文本信息对应的第二特征信息,将所述第二特征信息解码生成所述待生成视频
。2.
根据权利要求1所述的文生视频生成方法,其特征在于,所述接收第一输入前,还包括:训练自编码器;所述训练自编码器包括:接收第三输入,所述第三输入为第一训练视频;响应于所述第三输入,将所述第一训练视频编码为第三特征信息,并对所述第三特征信息进行离散小波变换,利用不同映射器映射分解得到所述第一训练视频的低频图像特征
、
水平方向高频特征
、
垂直方向高频特征和对角线高频特征;接收第四输入,所述第四输入为上采样的待解码特征;响应于所述第四输入,将所述第一训练视频的低频图像特征
、
水平方向高频特征
、
垂直方向高频特征和对角线高频特征解码为第二训练视频,根据所述第一训练视频与所述第二训练视频确定重建损失
、
感知损失和对抗损失,优化所述自编码器的训练参数,输出训练后的所述自编码器
。3.
根据权利要求1所述的文生视频生成方法,其特征在于,所述接收第一输入前,还包括:训练文生视频模型;所述训练文生视频模型包括:接收第五输入,所述第五输入为第三训练视频和与所述第三训练视频对应的第二文本信息;响应于所述第五输入,将所述第二文本信息编码为第四特征信息,经过扩散后生成所述第四特征信息的第二高斯噪声;接收第六输入,所述第六输入为所述第二文本信息和所述第二高斯噪声;响应于所述第二输入,在频谱隐空间生成与所述第二文本信息对应的第五特征信息,将所述第五特征信息解码生成第四训练视频,根据所述第三训练视频和所述第四训练视频调整所述文生视频模型的参数
。4.
根据权利要求1所述的文生视频生成方法,其特征在于,所述响应于所述第二输入,在频谱隐空间生成与所述第一文本信息对应的第二特征信息,将所述第二特征信息解码生成所述待生成视频前,还包括:通过注意力机制对所述第一高斯噪声进行去噪
。5.
一种文生视频生成装置,其特征在于,包括:第一接收模块,用于接收第一输入,所述第一输入为与待生成视频对应的第一文本信息;第一编码模块,响应于所述第一输入,将所述第一文本信息编码为第一特征信息,经过扩散后生成所述第一特征信息的第一高斯噪声;...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。