基于时空分解与对齐的端到端动作视频生成方法及系统技术方案

技术编号：40668497 阅读：23 留言：0更新日期：2024-03-18 19:03

本发明专利技术提出一种基于时空分解与对齐的端到端动作视频生成方法，包括：构建视频生成模型，以一组姿势关键点、参考前景及参考背景作为该视频生成模型的模型输入，以目标动作视频作为该视频生成模型的模型输出；将该目标动作视频的原始视频空间分解为多组时空子空间，通过动作流引导使各组时空子空间的子空间特征对齐；将对齐后的各组时空子空间恢复为该原始视频空间，并得到该目标动作视频。本发明专利技术还提出一种基于时空分解与对齐的端到端动作视频生成系统，以及一种用于实现基于时空分解与对齐的端到端动作视频生成的数据处理装置。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于动作视频生成，具体涉及一种基于时空分解与对齐的端到端动作视频生成方法及系统。

技术介绍

1、人工智能模型合成人类动作视频在多个领域具有深远的背景意义。首先，它为舞蹈艺术的传播和学习提供了新途径，推广了文化多样性。其次，对于艺术教育和培训领域，这项技术降低了学习舞蹈的门槛，培养了更多的舞蹈才华。同时，它为娱乐产业和数字创意领域带来了新的商机，创造了令人惊叹的视觉效果。综合而言，人工智能合成动作视频融合了技术与艺术，为文化交流和娱乐创新提供了强大支持，具有广泛的社会影响。

2、在动作视频生成研究领域，早期的工作使用了自回归模型、变分自编码器、生成对抗网络和归一化方法，取得了一定的生成效果。然而，最近基于扩散的生成模型取得了显著的突破，一些研究将这一模型扩展到动作生成领域，明显提高了生成图像的质量。尽管如此，这些工作仍然采用了逐帧生成的方式，因此存在明显的时空不一致问题，导致生成的视频出现明显的闪烁和抖动现象。在基于扩散模型的视频生成方案中，虽然提出了一些缓解时空一致性问题的方法，但由于难以完全捕捉整个时空空间的一致性，以及缺乏对精细动作的准确引导，生成的视频往往存在粘连、伪影和动作不连贯等问题。

技术实现思路

1、针对上述问题，本专利技术基于时空分解与对齐机制，提出一种端到端动作视频生成方法，包括：构建视频生成模型，以一组姿势关键点、参考前景及参考背景作为该视频生成模型的模型输入，以目标动作视频作为该视频生成模型的模型输出；将该目标动作视频的原始视频空间分解为

2、本专利技术所述的端到端动作视频生成方法，使用3du-net网络构建该视频生成模型；对该视频生成模型进行训练时，使用训练视频v'＝{i'1,i'2,...,i't'}以该视频生成模型进行重建任务，并输入随机采样的噪声图n＝{n1,n2,...,nt'}以该视频生成模型进行推理；i'为v'的视频帧，t'为v'的帧数。

3、本专利技术所述的端到端动作视频生成方法，将该原始视频空间分解为多组时空子空间；对各组时空子空间进行注意力计算，建模各组时空子空间的时空一致性；通过时空偏移，完成各组时空子空间之间的时空一致性传递；再次对各组时空子空间进行注意力计算，重新建模各组时空子空间的时空一致性；将各组时空子空间恢复为该原始视频空间。

4、本专利技术所述的端到端动作视频生成方法，对于一组姿势关键点p＝{p1,p2,...,pt}，通过光流提取方法提取任意两个视频帧之间的动作流m＝{mij|i＝1...t,j＝1...t}；其中，对于任意时空子空间内的特征χf以及其所属的子空间特征s＝{χ1,...,xf-1,χf,xf+1,...,xt}，获取s的中心点χcenter＝χt/2，并将s的所有特征χf与χcenter对齐，获得s对齐后的子空间特征salign：

5、

6、以及salign恢复后的的子空间特征srestore：

7、

8、warp代表基于光流的变换，warp-1代表反变换。

9、本专利技术还提出一种基于时空分解与对齐的端到端动作视频生成系统，包括：模型构建模块，用于构建视频生成模型，以一组姿势关键点、参考前景及参考背景作为该视频生成模型的模型输入，以目标动作视频作为该视频生成模型的模型输出；时空对齐模块，用于将该目标动作视频的原始视频空间分解为多组时空子空间，通过动作流引导使各组时空子空间的子空间特征对齐；将对齐后的各组时空子空间恢复为该原始视频空间，并得到该目标动作视频。

10、本专利技术所述的端到端动作视频生成系统，其中该模型构建模块中，使用3d u-net网络构建该视频生成模型；该模型构建模块还包括模型训练模块，用于对该视频生成模型进行训练，该模型训练模块使用训练视频v'＝{i'1,i'2,...,i't'}以该视频生成模型进行重建任务，并输入随机采样的噪声图n＝{n1,n2,...,nt'}以该视频生成模型进行推理；i'为v'的视频帧，t'为v'的帧数。

11、本专利技术所述的端到端动作视频生成系统，其中该时空对齐模块包括：时空分解模块，用于将该原始视频空间分解为多组时空子空间；子时空一致性注意力模块，用于对各组时空子空间进行注意力计算，建模各组时空子空间的时空一致性；并在完成时空偏移后，重新建模各组时空子空间的时空一致性；子时空偏移模块，用于通过时空偏移，完成各组时空子空间之间的时空一致性传递；时空合并模块，用于将各组时空子空间恢复为该原始视频空间。

12、本专利技术所述的端到端动作视频生成系统，该子时空一致性注意力模块包括：对于一组姿势关键点p＝{p1,p2,...,pt}，通过光流提取方法提取任意两个视频帧之间的动作流m＝{mij|i＝1...t,j＝1...t}；其中，对于任意时空子空间内的特征χf以及其所属的子空间特征s＝{χ1,...,χf-1,χf,χf+1,...,χt}，获取s的中心点χcenter＝χt/2，并将s的所有特征χf与χcenter对齐，获得s对齐后的子空间特征salign：

13、

14、以及salign恢复后的的子空间特征srestore：

15、

16、warp代表基于光流的变换，warp-1代表反变换。

17、本专利技术还提出一种计算机可读存储介质，存储有计算机可执行指令，其特征在于，当该计算机可执行指令被执行时，实现如前所述的基于时空分解与对齐的端到端动作视频生成方法。

18、本专利技术还提出一种数据处理装置，包括如前所述的计算机可读存储介质，当该数据处理装置的处理器调取并执行该计算机可读存储介质中的计算机可执行指令时，实现基于时空分解与对齐的端到端动作视频生成。

本文档来自技高网...

【技术保护点】

1.一种基于时空分解与对齐的端到端动作视频生成方法，其特征在于，包括：

2.如权利要求1所述的端到端动作视频生成方法，其特征在于，使用3DU-Net网络构建该视频生成模型；

3.如权利要求1所述的端到端动作视频生成方法，其特征在于，将该原始视频空间分解为多组时空子空间；

4.如权利要求3所述的端到端动作视频生成方法，其特征在于，对于一组姿势关键点P＝{p1，p2，...，pT}，通过光流提取方法提取任意两个视频帧之间的动作流M＝{Mij/i＝1...T，j＝1...T}；

5.一种基于时空分解与对齐的端到端动作视频生成系统，其特征在于，包括：

6.如权利要求5所述的端到端动作视频生成系统，其特征在于，该模型构建模块中，使用3D U-Net网络构建该视频生成模型；

7.如权利要求5所述的端到端动作视频生成系统，其特征在于，该时空对齐模块包括：

8.如权利要求7所述的端到端动作视频生成系统，其特征在于，该子时空一致性注意力模块包括：

9.一种计算机可读存储介质，存储有计算机可执行指令，其特

10.一种数据处理装置，包括如权利要求9所述的计算机可读存储介质，当该数据处理装置的处理器调取并执行该计算机可读存储介质中的计算机可执行指令时，实现基于时空分解与对齐的端到端动作视频生成。

...

【技术特征摘要】

1.一种基于时空分解与对齐的端到端动作视频生成方法，其特征在于，包括：

2.如权利要求1所述的端到端动作视频生成方法，其特征在于，使用3du-net网络构建该视频生成模型；

3.如权利要求1所述的端到端动作视频生成方法，其特征在于，将该原始视频空间分解为多组时空子空间；

4.如权利要求3所述的端到端动作视频生成方法，其特征在于，对于一组姿势关键点p＝{p1，p2，...，pt}，通过光流提取方法提取任意两个视频帧之间的动作流m＝{mij/i＝1...t，j＝1...t}；

5.一种基于时空分解与对齐的端到端动作视频生成系统，其特征在于，包括：

6.如权利要求5所述的端到端动作视频生成系统，...

【专利技术属性】
技术研发人员：唐胜，房海鹏，孙志豪，黄子尧，唐帆，曹娟，
申请(专利权)人：中国科学院计算技术研究所，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人