System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种视频处理方法、装置、电子设备及存储介质制造方法及图纸_技高网

一种视频处理方法、装置、电子设备及存储介质制造方法及图纸

技术编号:42366401 阅读:3 留言:0更新日期:2024-08-16 14:48
本申请公开了一种视频处理方法、装置、电子设备及存储介质,涉及图像处理技术领域。所述方法包括:对目标视频所包括的至少两帧第一图像中的目标人物的目标部位分别进行处理,获得与所述至少两帧第一图像分别对应的第二图像,各所述第二图像中的所述目标人物的目标部位的相似度大于各所述第一图像中的所述目标人物的目标部位的相似度;基于目标音频信息,对各所述第二图像中的所述目标人物分别进行驱动,获得与各所述第二图像分别对应的目标驱动图像;基于各所述目标驱动图像,生成目标驱动视频。

【技术实现步骤摘要】

本申请涉及图像处理,尤其涉及一种视频处理方法、装置、电子设备及存储介质


技术介绍

1、随着互联网的不断发展,视频已经成为信息传递的新载体。但不同语种的客观存在,使信息在交流中遇到了较大阻碍,而目前的解决方法大多是基于视频翻译技术,将原始视频的音频信息进行翻译后再叠加在原始视频上,此种情况下,原始视频中的人物的目标部位(尤其是嘴唇部位)在翻译后的音频信息驱动下会产生变化。

2、然而,相关技术通常是根据翻译后的音频信息,通过动作捕捉技术直接调整或修改原始视频中人物的不同目标部位。例如,当原始视频中存在正在张嘴说话的人物的视频帧时,通过动作捕捉技术直接对正在张嘴说话的人物唇形进行修改,这样往往会将该人物张嘴说话时的脸部肌肉动作保留下来,导致再驱动人物唇形时人物脸部肌肉运行不自然,从而导致较差的用户观感。


技术实现思路

1、针对上述技术问题,本申请实施例提供一种视频处理方法、装置、电子设备及存储介质。

2、本申请实施例的技术方案是这样实现的:

3、第一方面,本申请实施例提供一种视频处理方法,包括:

4、对目标视频所包括的至少两帧第一图像中的目标人物的目标部位分别进行处理,获得与所述至少两帧第一图像分别对应的第二图像,各所述第二图像中的所述目标人物的目标部位的相似度大于各所述第一图像中的所述目标人物的目标部位的相似度;

5、基于目标音频信息,对各所述第二图像中的所述目标人物分别进行驱动,获得与各所述第二图像分别对应的目标驱动图像;

6、基于各所述目标驱动图像,生成目标驱动视频。

7、在一些实施例中,所述目标人物的目标部位为嘴唇部位;

8、所述对目标视频所包括的至少两帧第一图像中的目标人物的目标部位分别进行处理,获得与所述至少两帧第一图像分别对应的第二图像,包括:

9、对所述目标视频所包括的至少两帧第一图像中的所述目标人物的嘴唇部位分别进行嘴唇闭合处理,获得与所述至少两帧第一图像分别对应的第二图像。

10、在一些实施例中,所述对所述目标视频所包括的至少两帧第一图像中的所述目标人物的嘴唇部位分别进行嘴唇闭合处理,获得与所述至少两帧第一图像分别对应的第二图像,包括:

11、针对所述至少两帧第一图像中的任意一个目标图像,确定所述目标图像中的所述目标人物的嘴唇部位对应的第一嘴唇特征点;

12、对所述第一嘴唇特征点进行所述嘴唇闭合处理,获得第二嘴唇特征点;

13、基于所述第二嘴唇特征点和所述目标图像,获得与所述目标图像对应的所述第二图像;

14、确定所述至少两帧第一图像中的各所述目标图像分别对应的所述第二图像。

15、在一些实施例中,所述基于所述第二嘴唇特征点和所述目标图像,获得与所述目标图像对应的所述第二图像,包括:

16、将所述第二嘴唇特征点和所述目标图像输入目标生成模型,获得所述目标生成模型输出的与所述目标图像对应的所述第二图像;

17、其中,所述目标生成模型是基于样本数据训练得到的,所述样本数据包括所述目标人物的说话样本数据和不说话样本数据。

18、在一些实施例中,所述目标生成模型是基于回归损失函数和感知损失函数联合训练得到的。

19、在一些实施例中,所述基于目标音频信息,对各所述第二图像中的所述目标人物分别进行驱动,获得与各所述第二图像分别对应的目标驱动图像,包括:

20、对所述目标人物的个性化特征进行学习,获得所述目标人物的个性化特征信息;

21、将所述目标音频信息、所述个性化特征信息和各所述第二图像输入唇形驱动模型,获得所述唇形驱动模型输出的在所述目标音频信息和所述个性化特征信息驱动下的与各所述第二图像分别对应的目标驱动图像;

22、其中,所述目标人物的个性化特征包括以下至少一项:

23、所述目标人物的面部表情特征、所述目标人物的肢体动作特征。

24、在一些实施例中,在所述基于目标音频信息,对各所述第二图像中的所述目标人物分别进行驱动,获得与各所述第二图像分别对应的目标驱动图像之前,所述方法还包括:

25、确定所述目标视频对应的目标视频音频;

26、对所述目标视频音频进行翻译,获得目标翻译内容;

27、基于所述目标翻译内容,生成所述目标音频信息。

28、第二方面,本申请实施例提供一种视频处理装置,包括:

29、处理模块,用于对目标视频所包括的至少两帧第一图像中的目标人物的目标部位分别进行处理,获得与所述至少两帧第一图像分别对应的第二图像,各所述第二图像中的所述目标人物的目标部位的相似度大于各所述第一图像中的所述目标人物的目标部位的相似度;

30、驱动模块,用于基于目标音频信息,对各所述第二图像中的所述目标人物分别进行驱动,获得与各所述第二图像分别对应的目标驱动图像;

31、生成模块,用于基于各所述目标驱动图像,生成目标驱动视频。

32、第三方面,本申请实施例提供一种电子设备,包括存储器和处理器,所述存储器用于存储可执行数据指令;所述处理器用于执行所述存储器中存储的可执行数据指令时,实现如第一方面所述的视频处理方法。

33、第四方面,本申请实施例提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,当所述计算机程序被处理器运行时,实现如第一方面所述的视频处理方法。

本文档来自技高网...

【技术保护点】

1.一种视频处理方法,包括:

2.根据权利要求1所述的视频处理方法,所述目标人物的目标部位为嘴唇部位;

3.根据权利要求2所述的视频处理方法,所述对所述目标视频所包括的至少两帧第一图像中的所述目标人物的嘴唇部位分别进行嘴唇闭合处理,获得与所述至少两帧第一图像分别对应的第二图像,包括:

4.根据权利要求3所述的视频处理方法,所述基于所述第二嘴唇特征点和所述目标图像,获得与所述目标图像对应的所述第二图像,包括:

5.根据权利要求4所述的视频处理方法,所述目标生成模型是基于回归损失函数和感知损失函数联合训练得到的。

6.根据权利要求1至5任一项所述的视频处理方法,所述基于目标音频信息,对各所述第二图像中的所述目标人物分别进行驱动,获得与各所述第二图像分别对应的目标驱动图像,包括:

7.根据权利要求1至5任一项所述的视频处理方法,在所述基于目标音频信息,对各所述第二图像中的所述目标人物分别进行驱动,获得与各所述第二图像分别对应的目标驱动图像之前,所述方法还包括:

8.一种视频处理装置,包括:

9.一种电子设备,包括:

10.一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,当所述计算机程序被处理器运行时,实现权利要求1至7任一项所述的视频处理方法。

...

【技术特征摘要】

1.一种视频处理方法,包括:

2.根据权利要求1所述的视频处理方法,所述目标人物的目标部位为嘴唇部位;

3.根据权利要求2所述的视频处理方法,所述对所述目标视频所包括的至少两帧第一图像中的所述目标人物的嘴唇部位分别进行嘴唇闭合处理,获得与所述至少两帧第一图像分别对应的第二图像,包括:

4.根据权利要求3所述的视频处理方法,所述基于所述第二嘴唇特征点和所述目标图像,获得与所述目标图像对应的所述第二图像,包括:

5.根据权利要求4所述的视频处理方法,所述目标生成模型是基于回归损失函数和感知损失函数联合训练得到的。

6.根据权利要...

【专利技术属性】
技术研发人员:常新峰宋旭颖刘磊
申请(专利权)人:联想北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1