用于视频生成的方法、装置、设备、存储介质和程序产品制造方法及图纸

技术编号：44697515 阅读：5 留言：0更新日期：2025-03-19 20:47

本公开的实施例提供了用于视频生成的方法、装置、设备、存储介质和程序产品。该方法包括：通过在参考视频中对目标对象的预定区域执行掩码，得到掩码视频。分别确定参考视频的第一视频特征表示和掩码视频的第二视频特征表示。确定目标音频的音频特征表示。至少基于第一视频特征表示、第二视频特征表示和音频特征表示，利用经训练的视频生成模型生成包含目标对象的目标视频，目标视频表示目标对象以与目标音频相匹配的口型说出目标音频。由此，可以提高视频生成的质量。

全部详细技术资料下载

【技术实现步骤摘要】

本公开的示例实施例总体涉及计算机领域，特别地涉及用于视频生成的方法、装置、设备、存储介质和程序产品。

技术介绍

1、随着语音驱动的视频动作同步技术的不断发展，该技术在虚拟人物生成、配音和视频会议等应用场景中展现出广泛的潜力。唇动同步技术作为语音驱动视频生成领域的重要分支，其核心任务是根据对应的语音生成精确的唇部动作。如何满唇部动作和目标语言的时间一致性是目前需要解决的技术难题。

技术实现思路

1、在本公开的第一方面，提供了一种用于视频生成的方法。该方法可以包括：通过在参考视频中对目标对象的预定区域执行掩码，得到掩码视频。分别确定参考视频的第一视频特征表示和掩码视频的第二视频特征表示。确定目标音频的音频特征表示。至少基于第一视频特征表示、第二视频特征表示和音频特征表示，利用经训练的视频生成模型生成包含目标对象的目标视频，目标视频表示目标对象以与目标音频相匹配的口型说出目标音频。

2、在本公开的第二方面，提供了一种用于视频生成的装置。该装置可以包括：掩码视频确定模块，被配置为通过在参考视频中对目标对象的预定区域执行掩码，得到掩码视频。视频特征表示确定模块，被配置为分别确定参考视频的第一视频特征表示和掩码视频的第二视频特征表示。音频特征表示确定模块，被配置为确定目标音频的音频特征表示。目标视频生成模块，被配置为至少基于第一视频特征表示、第二视频特征表示和音频特征表示，利用经训练的视频生成模型生成包含目标对象的目标视频，目标视频表示目标对象以与目标音频相匹配的口型说出目标音频。

3、在本公开的第三方面，提供了一种电子设备。该设备包括至少一个处理单元；以及至少一个存储器，至少一个存储器被耦合到至少一个处理单元并且存储用于由至少一个处理单元执行的指令。指令在由至少一个处理单元执行时使电子设备执行第一方面的方法。

4、在本公开的第四方面，提供了一种计算机可读存储介质。介质上存储有计算机程序，计算机程序被处理器执行时实现第一方面的方法。

5、在本公开的第五方面，提供了一种计算机程序产品。该计算机程序产品包括计算机可执行指令，计算机可执行指令在被处理器执行时实现第一方面的方法。

6、应当理解，该部分中所描述的内容并非旨在限定本公开的实施例的关键特征或重要特征，也不用于限制本公开的范围。本公开的其他特征将通过以下的描述而变得容易理解。

本文档来自技高网...

【技术保护点】

1.一种用于视频生成的方法，包括：

2.根据权利要求1所述的方法，其中所述掩码包括利用多个掩码图对所述参考视频的各个视频帧中所述目标对象的所述预定区域执行掩码，所述方法还包括：

3.根据权利要求1所述的方法，其中确定所述参考视频帧的第一视频特征表示包括：

4.根据权利要求3所述的方法，其中得到掩码视频包括：

5.根据权利要求1所述的方法，其中所述视频生成模型的训练包括：

6.根据权利要求5所述的方法，其中更新所述视频生成模型包括：

7.根据权利要求6所述的方法，其中确定所述预测视频与所述第一音频样本之间的时间同步差异包括：

8.根据权利要求6所述的方法，其中所述同步网络是通过以下方式训练的：

9.根据权利要求5所述的方法，其中更新所述视频生成模型还包括：

10.根据权利要求5所述的方法，其中更新所述视频生成模型包括：

11.根据权利要求1所述的方法，其中所述预定区域至少包括所述目标对象的嘴部。

12.一种用于视频生成的装置，包括：

13.一种电子设备，包括：

14.一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序可由处理器执行以实现根据权利要求1至11中任一项所述的方法。

15.一种计算机程序产品，包括计算机可执行指令，所述计算机可执行指令被处理器执行时实现权利要求1至11任一项所述的方法。

...

【技术特征摘要】

1.一种用于视频生成的方法，包括：

3.根据权利要求1所述的方法，其中确定所述参考视频帧的第一视频特征表示包括：

4.根据权利要求3所述的方法，其中得到掩码视频包括：

5.根据权利要求1所述的方法，其中所述视频生成模型的训练包括：

6.根据权利要求5所述的方法，其中更新所述视频生成模型包括：

7.根据权利要求6所述的方法，其中确定所述预测视频与所述第一音频样本之间的时间同步差异包括：

8.根据权利要求6所述的方法，...

【专利技术属性】
技术研发人员：李淳誉，张超，许惟锴，谢静辉，冯伟国，
申请(专利权)人：北京有竹居网络技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人