一种图像处理方法、装置、设备、介质及程序产品制造方法及图纸

技术编号：42884459 阅读：6 留言：0更新日期：2024-09-30 15:06

本申请实施例公开了一种图像处理方法、装置、设备、介质及程序产品。其中的方法包括：获取参考图像和内容描述文本；对参考图像进行编码复制处理，得到N个待衰减图像编码特征；对N个待衰减图像编码特征进行特征衰减处理，得到N个衰减后图像编码特征；按照内容描述文本所描述的图像内容，对N个衰减后图像编码特征进行视频生成处理，得到目标视频。采用本申请实施例能够确保目标视频中各视频帧的图像内容，与参考图像的图像内容之间同时具有内容差异性和内容一致性。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及计算机，尤其涉及人工智能领域，具体涉及一种图像处理方法、装置、设备、介质及程序产品。

技术介绍

1、图像转视频是指基于单张图像生成与该单张图像的图像内容相匹配的视频的过程。

2、目前，支持采用扩散模型基于图像生成视频。例如，在扩散模型中添加时间序列维度的情况下，会导致参考图像中内容信息损失过多，造成视频中各帧视频帧的图像内容和参考图像的图像内容不能保持一致。再如，仅将针对参考图像的编码特征添加至潜空间特征（latent）的制作阶段，会存在降噪生成阶段无法和参考图像的图像内容保持一致的问题。并且，上述两种相关技术均存在生成的帧序列中每帧视频帧的图像内容完全相同的风险，导致生成的视频内容不具有内容变化效果。

3、因此，如何实现图像转视频成为研究热点。

技术实现思路

1、本申请实施例提供一种图像处理方法、装置、设备、介质及程序产品，能够在参考图像转目标视频的过程中，确保目标视频中各视频帧的图像内容与内容描述文本所描述目标视频中各帧视频帧的图像内容相匹配的同时，又能够与参考图像的图像内容之间具有内容差异性和内容一致性。

2、一方面，本申请实施例提供了一种图像处理方法，该方法包括：

3、获取参考图像和内容描述文本；参考图像用于生成目标视频，目标视频包括由n帧视频帧组成的帧序列；内容描述文本用于描述帧序列中各帧视频帧应当包含的图像内容；n为正整数；

4、对参考图像进行编码复制处理，得到n个待衰减图像编码特征，待衰减图像编码特

5、对n个待衰减图像编码特征进行特征衰减处理，得到n个衰减后图像编码特征；每个衰减后图像编码特征用于生成帧序列中的一帧视频帧；特征衰减处理用于控制帧序列中各帧视频帧的图像内容与参考图像的图像内容之间的内容差异性；

6、按照内容描述文本所描述的图像内容，对n个衰减后图像编码特征进行视频生成处理，得到目标视频；目标视频所包括的帧序列中每帧视频帧的图像内容均与内容描述文本所描述的图像内容相匹配，且与参考图像的图像内容之间具有内容差异性。

7、另一方面，本申请实施例提供了一种图像处理装置，该装置包括：

8、获取单元，用于获取参考图像和内容描述文本；参考图像用于生成目标视频，目标视频包括由n帧视频帧组成的帧序列；内容描述文本用于描述帧序列中各帧视频帧应当包含的图像内容；n为正整数；

9、处理单元，用于对参考图像进行编码复制处理，得到n个待衰减图像编码特征，待衰减图像编码特征用于表征参考图像的图像内容的内容特性；

10、处理单元，还用于对n个待衰减图像编码特征进行特征衰减处理，得到n个衰减后图像编码特征；每个衰减后图像编码特征用于生成帧序列中的一帧视频帧；特征衰减处理用于控制帧序列中各帧视频帧的图像内容与参考图像的图像内容之间的内容差异性；

11、处理单元，还用于按照内容描述文本所描述的图像内容，对n个衰减后图像编码特征进行视频生成处理，得到目标视频；目标视频所包括的帧序列中每帧视频帧的图像内容均与内容描述文本所描述的图像内容相匹配，且与参考图像的图像内容之间具有内容差异性。

12、在一种实现方式中，处理单元，用于对n个待衰减图像编码特征进行特征衰减处理，得到n个衰减后图像编码特征时，具体用于：

13、获取预设的衰减参数，衰减参数用于指示帧序列中相邻视频帧的图像内容之间的内容差异程度；

14、采用衰减参数计算n个衰减系数；n个衰减系数和n个待衰减图像编码特征一一对应；

15、将n个衰减系数分别和对应的待衰减图像编码特征进行乘积运算，得到n个衰减后图像编码特征。

16、在一种实现方式中，处理单元，用于对参考图像进行编码复制处理，得到n个待衰减图像编码特征时，具体用于：

17、对参考图像进行图像编码处理，得到待衰减图像编码特征；

18、将待衰减图像编码特征复制n份，得到n个待衰减图像编码特征。

19、在一种实现方式中，待衰减图像编码特征包括待衰减潜空间参考特征，处理单元，用于对参考图像进行图像编码处理，得到待衰减图像编码特征时，具体用于：

20、将参考图像映射至潜在空间，得到待衰减潜空间参考特征。

21、在一种实现方式中，待衰减图像编码特征包括待衰减图像特征向量，处理单元，用于对参考图像进行图像编码处理，得到待衰减图像编码特征时，具体用于：

22、对参考图像进行图像预处理，得到初始图像特征向量；初始图像特征向量中包含待衰减图像特征向量和预处理信息，预处理信息指示针对参考图像的图像分析信息；

23、对初始图像特征向量进行内容提取处理，得到待衰减图像特征向量。

24、在一种实现方式中，处理单元，用于对初始图像特征向量进行内容提取处理，得到待衰减图像特征向量时，具体用于：

25、获取预设的初始图像语义向量，初始图像语义向量用于指示从初始图像特征向量中进行内容提取处理的权重分布；

26、基于初始图像语义向量，对初始图像特征向量进行内容提取处理，得到待衰减图像特征向量；内容提取处理包括注意力运算和全连接运算。

27、在一种实现方式中，内容提取处理由内容提取模块执行，内容提取模块的数量为m，一个内容提取模块对应一次内容提取处理，m为正整数；内容提取模块的输入信息包括：

28、当m=1时，第一个内容提取模块的输入信息为：初始图像语义向量和初始图像特征向量；

29、当m=2时，第二个内容提取模块的输入信息为：第一个内容提取模块的输出信息和初始图像语义向量的拼接信息；

30、当m＞2时，第m个内容提取模块的输入信息为：第m-1个内容提取模块的输出信息和第m-2个内容提取模块的输出信息的拼接信息。

31、在一种实现方式中，处理单元，用于按照内容描述文本所描述的图像内容，对n个衰减后图像编码特征进行视频生成处理，得到目标视频时，具体用于：

32、获取n个潜空间噪声初始化特征，潜空间噪声初始化特征是在空白的潜空间参考特征上添加随机噪声得到的；一个潜空间噪声初始化特征用于生成帧序列中的一帧视频帧；以及，

33、对内容描述文本进行文本识别处理，得到文本识别向量；文本识别向量用于表征内容描述文本的语义信息；

34、调用视频生成模型对文本识别向量和n个潜空间噪声初始化特征进行视频生成处理，并在视频生成处理的过程中嵌入n个衰减后图像编码特征，以得到目标视频。

35、在一种实现方式中，衰减后图像编码特征包括衰减后潜空间参考特征，处理单元，用于调用视频生成模型对文本识别向量和n个潜空间噪声初始化特征进行视频生成处理，并在视频生成处理的过程中嵌入n个衰减后图像编码特征，以得到目标视频时，具体用于：

36、将n个衰减后潜空间参考特征分别嵌入至对应的潜空间噪声初始化特征，得本文档来自技高网...

【技术保护点】

1.一种图像处理方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，所述对N个所述待衰减图像编码特征进行特征衰减处理，得到N个衰减后图像编码特征，包括：

3.如权利要求1所述的方法，其特征在于，所述对所述参考图像进行编码复制处理，得到N个待衰减图像编码特征，包括：

4.如权利要求3所述的方法，其特征在于，所述待衰减图像编码特征包括待衰减潜空间参考特征，所述对所述参考图像进行图像编码处理，得到待衰减图像编码特征，包括：

5.如权利要求3或4所述的方法，其特征在于，所述待衰减图像编码特征包括待衰减图像特征向量，所述对所述参考图像进行图像编码处理，得到待衰减图像编码特征，包括：

6.如权利要求5所述的方法，其特征在于，所述对所述初始图像特征向量进行内容提取处理，得到所述待衰减图像特征向量，包括：

7.如权利要求6所述的方法，其特征在于，所述内容提取处理由内容提取模块执行，所述内容提取模块的数量为M，一个所述内容提取模块对应一次所述内容提取处理，M为正整数；所述内容提取模块的输入信息包括：

9.如权利要求8所述的方法，其特征在于，所述衰减后图像编码特征包括衰减后潜空间参考特征，所述调用视频生成模型对所述文本识别向量和N个所述潜空间噪声初始化特征进行视频生成处理，并在所述视频生成处理的过程中嵌入N个所述衰减后图像编码特征，以得到所述目标视频，包括：

10.如权利要求8或9所述的方法，其特征在于，所述视频生成模型中包括多层级的特征提取模块；

11.如权利要求10所述的方法，其特征在于，所述特征提取模块中包括文本对应的第一注意力子模块和图像对应的第二注意力子模块；多层级的所述特征提取模块中的任一层级所述特征提取模块表示为目标特征提取模块；所述将N个所述衰减后图像特征向量嵌入至所述视频生成模型中的每层级所述特征提取模块，包括：

12.如权利要求8所述的方法，其特征在于，所述视频生成模型中包括多层级的特征提取模块，每层级所述特征提取模块中嵌入有一个时空注意力模块；所述方法还包括：

13.一种图像处理装置，其特征在于，包括：

14.一种计算机设备，其特征在于，

15.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序适于被处理器加载并执行如权利要求1-12任一项所述的图像处理方法。

16.一种计算机程序产品，其特征在于，所述计算机程序产品包括计算机程序，所述计算机程序被处理器执行时，实现如权利要求1-12任一项所述的图像处理方法。

...

【技术特征摘要】

1.一种图像处理方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，所述对n个所述待衰减图像编码特征进行特征衰减处理，得到n个衰减后图像编码特征，包括：

3.如权利要求1所述的方法，其特征在于，所述对所述参考图像进行编码复制处理，得到n个待衰减图像编码特征，包括：

6.如权利要求5所述的方法，其特征在于，所述对所述初始图像特征向量进行内容提取处理，得到所述待衰减图像特征向量，包括：

7.如权利要求6所述的方法，其特征在于，所述内容提取处理由内容提取模块执行，所述内容提取模块的数量为m，一个所述内容提取模块对应一次所述内容提取处理，m为正整数；所述内容提取模块的输入信息包括：

8.如权利要求1所述的方法，其特征在于，所述按照所述内容描述文本所描述的图像内容，对n个所述衰减后图像编码特征进行视频生成处理，得到所述目标视频，包括：

9.如权利要求8所述的方法，其特征在于，所述衰减后图像编码...

【专利技术属性】
技术研发人员：冯鑫，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人