视频生成方法、装置、设备及存储介质制造方法及图纸

技术编号：41205449 阅读：5 留言：0更新日期：2024-05-07 22:31

本申请公开了一种视频生成方法、装置、设备及存储介质。所述方法包括：获取待处理图像和场景描述文本，所述待处理图像中包含目标对象；对所述待处理图像中除所述目标对象以外的图像区域进行掩码处理，得到掩码图像；基于所述掩码图像和所述场景描述文本进行图像处理，得到目标图像，所述目标图像中包含所述目标对象，且所述目标图像呈现的场景为所述场景描述文本所描述的场景；基于所述目标图像进行视频生成处理，得到目标合成视频。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及图像处理，尤其涉及一种视频生成方法、装置、设备及存储介质。

技术介绍

1、自媒体的出现大大提升了各类用户的曝光量，但是用户制作视频的成本较高，也无法成批次大批量地制作视频。因此，当前亟需一种能够快速、批量地生成优质视频的方案。

技术实现思路

1、本申请实施例的目的提供一种视频生成方法、装置、设备及存储介质，用于快速、批量地生成优质视频。

2、为了实现上述目的，本申请实施例采用下述技术方案：

3、第一方面，本申请实施例提供一种视频生成方法，包括：

4、获取待处理图像和场景描述文本，所述待处理图像中包含目标对象；

5、对所述待处理图像中除所述目标对象以外的图像区域进行掩码处理，得到掩码图像；

6、基于所述掩码图像和所述场景描述文本进行图像处理，得到目标图像，所述目标图像中包含所述目标对象，且所述目标图像呈现的场景为所述场景描述文本所描述的场景；

7、基于所述目标图像进行视频生成处理，得到目标合成视频。

8、第二方面，本申请实施例提供一种视频生成装置，包括：

9、获取单元，用于获取待处理图像和场景描述文本，所述待处理图像中包含目标对象；

10、掩码单元，用于对所述掩码图像中除所述目标对象以外的图像区域进行掩码处理，得到掩码图像；

11、处理单元，用于基于所述掩码图像和所述场景描述文本进行图像处理，得到目标图像，所述目标图像中包含所述目标对象，且所述目标图像呈现

12、合成单元，用于基于所述目标图像进行视频生成处理，得到目标合成视频。

13、第三方面，本申请实施例提供一种电子设备，包括：处理器；用于存储所述处理器可执行指令的存储器；其中，所述处理器被配置为执行所述指令，以实现如第一方面所述的视频生成方法。

14、第四方面，本申请实施例提供一种计算机可读存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如第一方面所述的视频生成方法。

15、本申请实施例采用的上述至少一个技术方案能够达到以下有益效果：

16、获取场景描述文本和包含目标对象的待处理图像，通过对待处理图像中除目标对象以外的图像区域进行掩码处理，得到仅包含目标对象的掩码图像，掩码图像可以完整、准确地反映目标对象的图像特征；然后，在掩码图像和场景描述文本的基础上进行图像处理，将场景描述文本所描述的场景作为背景迁移到掩码图像中，得到目标图像，目标图像中包含目标对象，且目标图像呈现的场景为场景描述文本所描述的场景；进一步，利用视频生成技术对目标图像进行视频生成处理，即可得到所需的合成视频。可见，本申请实施例的视频生成方法只需根据视频合成需求提供包含目标对象的图像以及用于描述场景的文本，便可利用图文生成图像技术，快速自动合成优质视频，大大减少生成视频的时间，不需要用户参与制作，能够满足成批次大批量的视频生成需求。

本文档来自技高网...

【技术保护点】

1.一种视频生成方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述掩码图像中除所述目标对象以外的图像区域的像素值为第一像素值；

3.根据权利要求1所述的方法，其特征在于，所述场景描述文本的数量为N个，所述目标图像的数量为N个，N个目标图像与N个场景描述文本一一对应，N为大于1的整数；

4.根据权利要求1所述的方法，其特征在于，所述基于所述掩码图像和所述场景描述文本进行图像处理，得到目标图像，包括：

5.根据权利要求4所述的方法，其特征在于，所述基于所述场景描述文本和所述边缘特征图像，对所述噪声图像进行降噪处理，得到所述目标图像，包括：

6.根据权利要求5所述的方法，其特征在于，所述噪声图像为对所述掩码图像进行编码后经过T级前向扩散处理得到，T为大于1的整数；

7.根据权利要求6所述的方法，其特征在于，所述基于T级注意力机制和所述融合特征图像，对所述噪声图像进行T级降噪处理，得到目标降噪图像，包括：

8.根据权利要求7所述的方法，其特征在于，所述基于第t级注意力机制、所述融合特

9.根据权利要求6所述的方法，其特征在于，所述噪声图像为通过图像处理模型的编码模块对所述掩码图像进行编码后经过T级前向扩散处理得到；所述目标降噪图像为所述融合特征图像和所述噪声图像经过所述图像处理模型的T级降噪模块进行降噪处理后得到；

10.根据权利要求9所述的方法，其特征在于，在基于所述融合特征图像，对所述噪声图像进行降噪处理，得到所述目标图像之前，所述方法还包括：

11.根据权利要求10所述的方法，其特征在于，所述基于所述样本图像和所述样本融合特征图像，对所述T级降噪模块进行训练，包括：

12.根据权利要求10所述的方法，其特征在于，所述基于训练后的T级降噪模块和所述样本图像，对所述编码模块和所述解码模块进行训练，包括：

13.一种视频生成装置，其特征在于，包括：

14.一种电子设备，其特征在于，包括：

15.一种计算机可读存储介质，其特征在于，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如权利要求1至12中任一项所述的视频生成方法。

...

【技术特征摘要】

1.一种视频生成方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述掩码图像中除所述目标对象以外的图像区域的像素值为第一像素值；

3.根据权利要求1所述的方法，其特征在于，所述场景描述文本的数量为n个，所述目标图像的数量为n个，n个目标图像与n个场景描述文本一一对应，n为大于1的整数；

4.根据权利要求1所述的方法，其特征在于，所述基于所述掩码图像和所述场景描述文本进行图像处理，得到目标图像，包括：

6.根据权利要求5所述的方法，其特征在于，所述噪声图像为对所述掩码图像进行编码后经过t级前向扩散处理得到，t为大于1的整数；

7.根据权利要求6所述的方法，其特征在于，所述基于t级注意力机制和所述融合特征图像，对所述噪声图像进行t级降噪处理，得到目标降噪图像，包括：

8.根据权利要求7所述的方法，其特征在于，所述基于第t级注意力机制、所述融合特征图像和第t...

【专利技术属性】
技术研发人员：杨杰之，周安通，马康哲，赵阔，
申请(专利权)人：马上消费金融股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人