System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 多人对话视频生成方法、装置、电子设备和存储介质制造方法及图纸_技高网

多人对话视频生成方法、装置、电子设备和存储介质制造方法及图纸

技术编号:41621301 阅读:2 留言:0更新日期:2024-06-13 02:22
本发明专利技术实施例公开了一种多人对话视频生成方法、装置、电子设备和存储介质,所述方法包括获取至少一个目标图片,对所述目标图片进行人脸检测,确定所述目标图片中的至少一个目标人脸,对各所述目标人脸进行音频驱动,生成对应角色的视频图像,对各所述视频图像进行拼接,生成多数字人对话的目标视频,由此,通过对至少一个目标图片中的目标人脸进行处理生成多数字人对话的目标视频,能够实现根据图片生成多数字人对话视频,并降低视频制作成本。

【技术实现步骤摘要】

本专利技术涉及计算机,具体涉及一种多人对话视频生成方法、装置、电子设备和存储介质


技术介绍

1、随着短视频平台的流行,视频制作成为一项越来越重要的工作。同时,随着数字人热度的升高,将数字人应用于视频制作已逐渐成为趋势,能够在传统视频制作基础上降低录制成本并带来多样性。


技术实现思路

1、有鉴于此,本专利技术实施例的目的在于提供一种多人对话视频生成方法,以生成多数字人对话视频,降低视频制作成本。

2、第一方面,本专利技术实施例旨在提供一种多人对话视频生成方法,所述方法包括:

3、获取至少一个目标图片;

4、对所述目标图片进行人脸检测,确定所述目标图片中的至少一个目标人脸;

5、对各所述目标人脸进行音频驱动,生成对应角色的视频图像;

6、对各所述视频图像进行拼接,生成多数字人对话的目标视频。

7、进一步地,所述对各所述目标人脸进行音频驱动,生成对应角色的视频图像包括:

8、获取音频信息,所述音频信息包括多个音频段和所述音频段对应的角色标识;

9、根据所述目标人脸对应的角色标识确定对应的音频段;

10、使用所述音频段对对应的所述目标人脸进行音频驱动,生成对应角色的视频图像。

11、进一步地,所述对各所述目标人脸进行音频驱动,生成对应角色的视频图像还包括:

12、确定所述音频段对应的动态人脸,所述动态人脸为所述音频段对应的目标人脸之外的其它目标人脸;

13、为所述动态人脸生成对应音频段的动作表情。

14、进一步地,所述对各所述视频图像进行拼接,生成多数字人对话的目标视频包括:

15、对不同角色对应的视频图像进行横向拼接,生成多数字人对话的目标视频。

16、进一步地,所述视频图像包括多个驱动图像,各所述驱动图像对应有时间帧,所述对各所述视频图像进行拼接,生成多数字人对话的目标视频包括:

17、将各所述驱动图像与所述目标图片进行融合,确定对应的融合帧图像;

18、按照时间帧的顺序对各所述融合帧图像进行拼接,生成多数字人对话的目标视频。

19、进一步地,所述将各所述驱动图像与所述目标图片进行融合,确定对应的融合帧图像包括:

20、基于柏松融合对所述驱动图像和所述目标图片进行融合,确定对应的融合帧图像。

21、进一步地,所述对所述目标图片进行人脸检测,确定所述目标图片中的至少一个目标人脸包括:

22、基于人脸定位技术对所述目标图片进行人脸特征的提取和检测,确定所述目标图片中的至少一个目标人脸。

23、第二方面,本专利技术实施例旨在提供一种多人对话视频生成装置,所述方法包括:

24、获取单元,用于获取至少一个目标图片;

25、检测单元,用于对所述目标图片进行人脸检测,确定所述目标图片中的至少一个目标人脸;

26、驱动单元,用于对各所述目标人脸进行音频驱动,生成对应角色的视频图像;

27、生成单元,用于对各所述视频图像进行拼接,生成多数字人对话的目标视频。

28、第三方面,本专利技术实施例旨在提供一种电子设备,包括存储器和处理器,所述存储器用于存储一条或多条计算机程序指令,其中,所述一条或多条计算机程序指令被所述处理器执行以实现如上任一项所述的方法。

29、第四方面,本专利技术实施例旨在提供一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现如上任一项所述的方法步骤。

30、本专利技术实施例的技术方案通过获取至少一个目标图片,对目标图片进行人脸检测,确定目标图片中的至少一个目标人脸,对各所述目标人脸进行音频驱动,生成对应角色的视频图像,对各视频图像进行拼接,生成多数字人对话的目标视频,能够实现生成多数字人对话视频。同时,由于本实施例中是根据图片中的人脸图像生成多数字人对话的目标视频,能够降低视频制作成本。

本文档来自技高网
...

【技术保护点】

1.一种多人对话视频生成方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述对各所述目标人脸进行音频驱动,生成对应角色的视频图像包括:

3.根据权利要求2所述的方法,其特征在于,所述对各所述目标人脸进行音频驱动,生成对应角色的视频图像还包括:

4.根据权利要求1所述的方法,其特征在于,所述对各所述视频图像进行拼接,生成多数字人对话的目标视频包括:

5.根据权利要求1所述的方法,其特征在于,所述视频图像包括多个驱动图像,各所述驱动图像对应有时间帧,所述对各所述视频图像进行拼接,生成多数字人对话的目标视频包括:

6.根据权利要求5所述的方法,其特征在于,所述将各所述驱动图像与所述目标图片进行融合,确定对应的融合帧图像包括:

7.根据权利要求1所述的方法,其特征在于,所述对所述目标图片进行人脸检测,确定所述目标图片中的至少一个目标人脸包括:

8.一种多人对话视频生成装置,其特征在于,所述方法包括:

9.一种电子设备,包括存储器和处理器,其特征在于,所述存储器用于存储一条或多条计算机程序指令,其中,所述一条或多条计算机程序指令被所述处理器执行以实现权利要求1-7中任一项所述的方法。

10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-7中任一项所述的方法步骤。

...

【技术特征摘要】

1.一种多人对话视频生成方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述对各所述目标人脸进行音频驱动,生成对应角色的视频图像包括:

3.根据权利要求2所述的方法,其特征在于,所述对各所述目标人脸进行音频驱动,生成对应角色的视频图像还包括:

4.根据权利要求1所述的方法,其特征在于,所述对各所述视频图像进行拼接,生成多数字人对话的目标视频包括:

5.根据权利要求1所述的方法,其特征在于,所述视频图像包括多个驱动图像,各所述驱动图像对应有时间帧,所述对各所述视频图像进行拼接,生成多数字人对话的目标视频包括:

6.根据权利要求5所述的方法,其特征在...

【专利技术属性】
技术研发人员:吕达候学东唐旻杰陈云琳
申请(专利权)人:上海墨百意信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1