【技术实现步骤摘要】
本专利技术涉及数据处理,尤其涉及一种视频处理方法、装置、电子设备及存储介质。
技术介绍
1、视频生成是指通过对人工智能的训练,使其能够根据给定的文本、图像、视频等单模态或多模态数据,自动生成符合描述的、高保真的视频内容。
2、视频生成技术主要依赖于扩散模型和变分自动编码器的架构。目前,黑森林实验室公司开源了flux的文生图的空间变分自动编码器,该空间变分自动编码器只具有对空间降维的能力。
3、在实现本专利技术的过程中,发现现有技术中至少存在以下技术问题:现有变分自动编码器,存在视频降维效果差的问题。
技术实现思路
1、本专利技术提供了一种视频处理方法、装置、电子设备及存储介质,以实提升视频降维效果。
2、根据本专利技术的一方面,提供了一种视频处理方法,包括:
3、获取待处理视频;
4、将所述待处理视频输入至预先训练完成的时间-空间变分自编码器中,得到视频编码结果,所述视频编码结果的维度小于所述待处理视频的维度;
5、其中,所述时间-空间变分自编码器包括时间-空间三维卷积单元、时间-空间自注意力机制单元、时间-空间上采样单元和时间-空间下采样单元;
6、所述时间-空间三维卷积单元,用于从时间维度和空间维度对所述待处理视频进行卷积;
7、所述时间-空间自注意力机制单元,用于从时间维度和空间维度对所述待处理视频进行时空依赖关系捕捉;
8、所述时间-空间上采样单元,用于从时间维度和空
9、所述时间-空间下采样单元,用于从时间维度和空间维度通过三维卷积对所述待处理视频进行下采样。
10、根据本专利技术的另一方面,提供了一种视频处理装置,包括:
11、待处理视频获取模块,用于获取待处理视频;
12、时间-空间变分自编码器编码模块,用于将所述待处理视频输入至预先训练完成的时间-空间变分自编码器中,得到视频编码结果,所述视频编码结果的维度小于所述待处理视频的维度;
13、其中,所述时间-空间变分自编码器包括时间-空间三维卷积单元、时间-空间自注意力机制单元、时间-空间上采样单元和时间-空间下采样单元;
14、所述时间-空间三维卷积单元,用于从时间维度和空间维度对所述待处理视频进行卷积;
15、所述时间-空间自注意力机制单元,用于从时间维度和空间维度对所述待处理视频进行时空依赖关系捕捉;
16、所述时间-空间上采样单元,用于从时间维度和空间维度对所述待处理视频进行数值插值;
17、所述时间-空间下采样单元,用于从时间维度和空间维度通过三维卷积对所述待处理视频进行下采样。
18、根据本专利技术的另一方面,提供了一种电子设备,所述电子设备包括:
19、至少一个处理器;
20、以及与所述至少一个处理器通信连接的存储器;
21、其中,所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行本专利技术任一实施例所述的视频处理方法。
22、根据本专利技术的另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现本专利技术任一实施例所述的视频处理方法。
23、本专利技术实施例的技术方案,通过获取待处理视频,进而将待处理视频输入至预先训练完成的时间-空间变分自编码器中,得到视频编码结果,其中,时间-空间变分自编码器包括时间-空间三维卷积单元、时间-空间自注意力机制单元、时间-空间上采样单元和时间-空间下采样单元;时间-空间三维卷积单元,用于从时间维度和空间维度对待处理视频进行卷积;时间-空间自注意力机制单元,用于从时间维度和空间维度对所述待处理视频进行时空依赖关系捕捉;时间-空间上采样单元,用于从时间维度和空间维度对待处理视频进行数值插值;时间-空间下采样单元,用于从时间维度和空间维度通过三维卷积对待处理视频进行下采样。上述技术方案,通过时间-空间变分自编码器实现了时间维度和空间维度的视频降维,有效提升了视频降维效果。
24、应当理解,本部分所描述的内容并非旨在标识本专利技术的实施例的关键或重要特征,也不用于限制本专利技术的范围。本专利技术的其它特征将通过以下的说明书而变得容易理解。
本文档来自技高网...【技术保护点】
1.一种视频处理方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,在所述将所述待处理视频输入至预先训练完成的时间-空间变分自编码器中,得到视频编码结果之前,还包括:
3.根据权利要求2所述的方法,其特征在于,所述空间变分自动编码器的权重信息包括二维卷积核权重信息;初始时间-空间变分自编码器包括初始三维卷积核,所述初始三维卷积核包括目标位置和剩余位置;
4.根据权利要求3所述的方法,其特征在于,所述目标位置为初始三维卷积核的中心位置。
5.根据权利要求2所述的方法,其特征在于,所述空间变分自动编码器的权重信息包括二维自注意力机制的查询向量(Query)、二维自注意力机制的关键向量(Key)和二维自注意力机制的数值向量(Value);初始时间-空间变分自编码器包括初始三维自注意力机制单元,所述初始三维自注意力机制单元包括查询向量位置、关键向量位置和数值向量位置;
6.根据权利要求5所述的方法,其特征在于,所述初始三维自注意力机制单元的自注意力序列包含空间维度信息和时间维度信息。
7.根据权利要求
8.一种视频处理装置,其特征在于,包括:
9.一种电子设备,其特征在于,所述电子设备包括:
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现权利要求1-7中任一项所述的视频处理方法。
...【技术特征摘要】
1.一种视频处理方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,在所述将所述待处理视频输入至预先训练完成的时间-空间变分自编码器中,得到视频编码结果之前,还包括:
3.根据权利要求2所述的方法,其特征在于,所述空间变分自动编码器的权重信息包括二维卷积核权重信息;初始时间-空间变分自编码器包括初始三维卷积核,所述初始三维卷积核包括目标位置和剩余位置;
4.根据权利要求3所述的方法,其特征在于,所述目标位置为初始三维卷积核的中心位置。
5.根据权利要求2所述的方法,其特征在于,所述空间变分自动编码器的权重信息包括二维自注意力机制的查询向量(query)、二维自注意力机制的关键向量(key)和二维自注意力机制的数值向量(value);初始时...
【专利技术属性】
技术研发人员:申琛惠,柳泓鑫,卞正达,李永彬,麦思琪,崔子源,李彤,赵元亨,郑奘巍,彭翔宇,
申请(专利权)人:北京潞晨科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。