当前位置: 首页 > 专利查询>度小满科技专利>正文

文生视频生成方法技术

技术编号:39396800 阅读:13 留言:0更新日期:2023-11-19 15:51
本发明专利技术提供一种文生视频生成方法

【技术实现步骤摘要】
文生视频生成方法、装置、电子设备及可读存储介质


[0001]本专利技术涉及数据处理
,尤其涉及一种文生视频生成方法

装置

电子设备及可读存储介质


技术介绍

[0002]常见的深度文生视频的生成方法是基于扩散模型,如
Imagen video

Make

a

video
等,此类方案一般扩展自文生图方法
Stable Diffusion
,将文生图方案中有关2维生成的操作扩展到3维,并增加部分适应性改变,即可得到视频生成方案

[0003]此类方案为视频中的每一帧初始化一个随机向量,最终希望通过降噪过程,生成一个空间上一致

时序上连续的视频片段

但是此类方法随机初始化的多帧向量毫无关联,将时空一致性生成需求寄希望于降噪过程,需要大量的训练数据和计算资源,模型收敛困难

受限于模型结构和计算资源,此类方法无法生成较长的视频片段


技术实现思路

[0004]有鉴于此,本专利技术实施例提供了一种文生视频生成方法,以解决无法生成任意长度长视频的问题

[0005]根据本专利技术的一方面,提供了一种文生视频生成方法,包括:
[0006]接收第一输入,所述第一输入为与待生成视频对应的第一文本信息;
[0007]响应于所述第一输入,将所述第一文本信息编码为第一特征信息,经过扩散后生成所述第一特征信息的第一高斯噪声;
[0008]接收第二输入,所述第二输入为所述第一文本信息和所述第一高斯噪声;
[0009]响应于所述第二输入,在频谱隐空间生成与所述第一文本信息对应的第二特征信息,将所述第二特征信息解码生成所述待生成视频

[0010]可选地,所述接收第一输入前,还包括:训练自编码器;
[0011]所述训练自编码器包括:
[0012]接收第三输入,所述第三输入为第一训练视频;
[0013]响应于所述第三输入,将所述第一训练视频编码为第三特征信息,并对所述第三特征信息进行离散小波变换,利用不同映射器映射分解得到所述第一训练视频的低频图像特征

水平方向高频特征

垂直方向高频特征和对角线高频特征;
[0014]接收第四输入,所述第四输入为上采样的待解码特征;
[0015]响应于所述第四输入,将所述第一训练视频的低频图像特征

水平方向高频特征

垂直方向高频特征和对角线高频特征解码为第二训练视频,根据所述第一训练视频与所述第二训练视频确定重建损失

感知损失和对抗损失,优化所述自编码器的训练参数,输出训练后的所述自编码器

[0016]可选地,所述接收第一输入前,还包括:训练文生视频模型;
[0017]所述训练文生视频模型包括:
[0018]接收第五输入,所述第五输入为第三训练视频和与所述第三训练视频对应的第二文本信息;
[0019]响应于所述第五输入,将所述第二文本信息编码为第四特征信息,经过扩散后生成所述第四特征信息的第二高斯噪声;
[0020]接收第六输入,所述第六输入为所述第二文本信息和所述第二高斯噪声;
[0021]响应于所述第二输入,在频谱隐空间生成与所述第二文本信息对应的第五特征信息,将所述第五特征信息解码生成第四训练视频,根据所述第三训练视频和所述第四训练视频调整所述文生视频模型的参数

[0022]可选地,所述响应于所述第二输入,在频谱隐空间生成与所述第一文本信息对应的第二特征信息,将所述第二特征信息解码生成所述待生成视频前,还包括:
[0023]通过注意力机制对所述第一高斯噪声进行去噪

[0024]根据本专利技术的第二方面,提供了一种文生视频生成装置,包括:
[0025]第一接收模块,用于接收第一输入,所述第一输入为与待生成视频对应的第一文本信息;
[0026]第一编码模块,响应于所述第一输入,将所述第一文本信息编码为第一特征信息,经过扩散后生成所述第一特征信息的第一高斯噪声;
[0027]第二接收模块,用于接收第二输入,所述第二输入为所述第一文本信息和所述第一高斯噪声;
[0028]第一解码模块,响应于所述第二输入,在频谱隐空间生成与所述第一文本信息对应的第二特征信息,将所述第二特征信息解码生成所述待生成视频

[0029]可选地,所述文生视频生成装置还包括:第一训练模块,用于训练自编码器;
[0030]所述第一训练模块包括:
[0031]第三接收模块,用于接收第三输入,所述第三输入为第一训练视频;
[0032]第二编码模块,响应于所述第三输入,将所述第一训练视频编码为第三特征信息,并对所述第三特征信息进行离散小波变换,利用不同映射器映射分解得到所述第一训练视频的低频图像特征

水平方向高频特征

垂直方向高频特征和对角线高频特征;
[0033]第四接收模块,用于接收第四输入,所述第四输入为上采样的待解码特征;
[0034]第一优化模块,响应于所述第四输入,将所述第一训练视频的低频图像特征

水平方向高频特征

垂直方向高频特征和对角线高频特征解码为第二训练视频,根据所述第一训练视频与所述第二训练视频确定重建损失

感知损失和对抗损失,优化所述自编码器的训练参数,输出训练后的所述自编码器

[0035]可选地,所述文生视频生成装置还包括:第二训练模块,用于训练文生视频模型;
[0036]所述第二训练模块包括:
[0037]第五接收模块,用于接收第五输入,所述第五输入为第三训练视频和与所述第三训练视频对应的第二文本信息;
[0038]第二编码模块,响应于所述第五输入,将所述第二文本信息编码为第四特征信息,经过扩散后生成所述第四特征信息的第二高斯噪声;
[0039]第六接收模块,用于接收第六输入,所述第六输入为所述第二文本信息和所述第二高斯噪声;
是“至少部分地基于”。
术语“一个实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”;术语“一些实施例”表示“至少一些实施例”。
其他术语的相关定义将在下文描述中给出

需要注意,本专利技术中提及的“第一”、“第二”等概念仅用于对不同的装置

模块或单元进行区分,并非用于限定这些装置

模块或单元所执行的功能的顺序或者相互依存关系

[0059]需要注意,本专利技术中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种文生视频生成方法,其特征在于,包括:接收第一输入,所述第一输入为与待生成视频对应的第一文本信息;响应于所述第一输入,将所述第一文本信息编码为第一特征信息,经过扩散后生成所述第一特征信息的第一高斯噪声;接收第二输入,所述第二输入为所述第一文本信息和所述第一高斯噪声;响应于所述第二输入,在频谱隐空间生成与所述第一文本信息对应的第二特征信息,将所述第二特征信息解码生成所述待生成视频
。2.
根据权利要求1所述的文生视频生成方法,其特征在于,所述接收第一输入前,还包括:训练自编码器;所述训练自编码器包括:接收第三输入,所述第三输入为第一训练视频;响应于所述第三输入,将所述第一训练视频编码为第三特征信息,并对所述第三特征信息进行离散小波变换,利用不同映射器映射分解得到所述第一训练视频的低频图像特征

水平方向高频特征

垂直方向高频特征和对角线高频特征;接收第四输入,所述第四输入为上采样的待解码特征;响应于所述第四输入,将所述第一训练视频的低频图像特征

水平方向高频特征

垂直方向高频特征和对角线高频特征解码为第二训练视频,根据所述第一训练视频与所述第二训练视频确定重建损失

感知损失和对抗损失,优化所述自编码器的训练参数,输出训练后的所述自编码器
。3.
根据权利要求1所述的文生视频生成方法,其特征在于,所述接收第一输入前,还包括:训练文生视频模型;所述训练文生视频模型包括:接收第五输入,所述第五输入为第三训练视频和与所述第三训练视频对应的第二文本信息;响应于所述第五输入,将所述第二文本信息编码为第四特征信息,经过扩散后生成所述第四特征信息的第二高斯噪声;接收第六输入,所述第六输入为所述第二文本信息和所述第二高斯噪声;响应于所述第二输入,在频谱隐空间生成与所述第二文本信息对应的第五特征信息,将所述第五特征信息解码生成第四训练视频,根据所述第三训练视频和所述第四训练视频调整所述文生视频模型的参数
。4.
根据权利要求1所述的文生视频生成方法,其特征在于,所述响应于所述第二输入,在频谱隐空间生成与所述第一文本信息对应的第二特征信息,将所述第二特征信息解码生成所述待生成视频前,还包括:通过注意力机制对所述第一高斯噪声进行去噪
。5.
一种文生视频生成装置,其特征在于,包括:第一接收模块,用于接收第一输入,所述第一输入为与待生成视频对应的第一文本信息;第一编码模块,响应于所述第一输入,将所述第一文本信息编码为第一特征信息,经过扩散后生成所述第一特征信息的第一高斯噪声;...

【专利技术属性】
技术研发人员:梁涛杨青
申请(专利权)人:度小满科技
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1