虚拟人视频生成方法和装置制造方法及图纸

技术编号:39327758 阅读:21 留言:0更新日期:2023-11-12 16:05
本申请公开了一种虚拟人视频生成方法和装置,该方法包括:获取驱动文本;基于驱动文本和第一视频的动作标注,获取与驱动文本对应的动作类型,其中,动作标注中包括第一视频中的人物的多个动作类型;基于动作类型,从第一视频中提取出与驱动文本对应的动作表示;基于动作表示,生成虚拟人视频。通过本申请,可以自动生成人物动作准确、可控并符合预设动作规范的虚拟人视频,且可以通过调整动作规范来实现虚拟人动作的个性化定制。拟人动作的个性化定制。拟人动作的个性化定制。

【技术实现步骤摘要】
虚拟人视频生成方法和装置


[0001]本申请涉及大数据中的人工智能(Artificial Intelligence,AI)
,尤其涉及一种虚拟人视频生成方法和装置。

技术介绍

[0002]人工智能AI是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式作出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
[0003]随着大数据、人工智能、物联网等互联网技术的快速发展,各行各业都在逐渐实现数字化和智能化,以助于提升服务效率和服务质量。其中,在金融、电商、医疗、教育、多媒体等各领域中逐渐出现了数字人、虚拟人等交互方式。
[0004]虚拟人(Virtual Human,VH)采用语音交互、虚拟形象模型生成等多项AI技术,实现唇形语音同步和表情动作拟人等效果,广泛应用于虚拟形象播报和实时语音交互两大场景。虚拟形象播报根据文本内容快速合成音视频文件,落地于媒体、教育、会展服务等场景;实时语音交互支持即时在线对话,可赋能智能客服、语音助理等场景。
[0005]现有技术在生成虚拟人的过程中通常需要人工插入与驱动文本对应的动作子序列,或者直接通过深度学习模型来预测驱动语音对应的3D虚拟人视频。
[0006]然而,利用上述方式生成的虚拟人动作不可控、准确性较差,且生成的虚拟人动作单一。

技术实现思路

[0007]本申请实施例提供了一种虚拟人视频生成方法和装置,可以自动生成人物动作准确、可控并符合预设动作规范的虚拟人视频,且可以通过调整动作规范来实现虚拟人动作的个性化定制。
[0008]第一方面,本申请提供了一种虚拟人视频生成方法,其特征在于,所述方法包括:获取驱动文本;基于所述驱动文本和第一视频的动作标注,获取与所述驱动文本对应的动作类型,其中,所述动作标注中包括所述第一视频中的人物的多个动作类型;基于所述动作类型,从所述第一视频中提取出与所述驱动文本对应的动作表示;基于所述动作表示,生成虚拟人视频。
[0009]从技术效果上看,本申请通过对基础视频(即第一视频)添加动作标注,并基于驱动文本与动作标注中动作类型之间对应关系,可以自动提取出对应视频帧中的动作表示,在生成虚拟人视频过程中无需人工参与;同时,基于驱动文本与动作类型这种文本与文本之间的对应关系来提取对应动作表示的过程,相比于现有技术中基于文本与图像对应关系提取动作表示的过程而言,本申请所提取的动作表示会更加准确和可控,进而基于动作表
示生成的虚拟人视频中的动作也会更加准确,效果更好。
[0010]在一种可行的实施方式中,所述基于所述驱动文本和第一视频的动作标注,获取与所述驱动文本对应的动作类型,包括:基于映射关系模型,从所述动作标注中搜索出与所述驱动文本的语义对应的动作类型;其中,所述映射关系模型用于表征文本语义和动作类型之间的映射关系。
[0011]从技术效果上看,本申请可以基于预先建立的映射关系模型快速且自动地识别出驱动文本在动作标注中对应的动作类型,然后基于该动作类型在第一视频中对应的视频帧进行动作表示提取,相比于人工插入驱动文本对应的视频帧而言,可以有效节省人力成本。
[0012]在一种可行的实施方式中,所述基于所述驱动文本和第一视频的动作标注,获取与所述驱动文本对应的动作类型,包括:基于深度学习模型,从所述动作标注中确定与所述驱动文本的语义对应的动作类型。
[0013]其中,所述深度学习模型的训练数据包括第二视频、第二视频的动作标注和所述第二视频中的人物语音,所述第二视频的动作标注对应的动作规范和所述第一视频的动作标注对应的动作规范相同。
[0014]从技术效果上看,本申请还可以通过深度学习模型来学习文本语义信息与动作类型之间这种文本与文本之间的对应关系,进而基于此对应关系来提取驱动文本在第一视频中对应的动作表示。此种基于文本与文本之间对应关系的提取方式,相对于现有技术中直接基于文本与视频帧之间对应关系进行动作表示提取的过程,更加符合客观自然规律,因而准确率更高。同时,通过保持训练过程第二视频的动作标注对应的动作规范和推理时使用的第一视频的动作标注对应的动作规范相同,使得基于深度学习模型推理得到的虚拟人视频中人物动作也符合动作标注所对应的动作规范,即虚拟人视频中的人物动作更加规范可控。
[0015]在一种可行的实施方式中,所述基于所述动作类型,从所述第一视频中提取出与所述驱动文本对应的动作表示,包括:基于所述动作类型在所述第一视频中对应的视频帧,提取所述动作表示。
[0016]从技术效果上看,在确定了驱动文本在动作标注中对应的动作类型后,便可基于动作标注准确且快速定位到驱动文本在第一视频中对应的视频帧,进而地进行动作表示提取,因而动作表示的提取准确且可控。
[0017]在一种可行的实施方式中,所述动作标注中的动作类型是基于动作规范划分得到的;其中,基于所述动作规范划分出的动作类型包括左手在前、右手在前和双手合并,或者基于所述动作规范划分出的动作类型包括开始介绍动作和详细介绍动作,所述开始介绍动作包括左手在前和/或右手在前,所述详细介绍动作包括双手合并。
[0018]从技术效果上看,可以基于不同的动作规范来划分对应的动作类型,这样便可基于特定场景的需求设计不同的动作规范,进而使得生成的虚拟人视频中的人物动作满足预设的动作规范,即进行人物动作规范的个性化定制,场景兼容性高。
[0019]在一种可行的实施方式中,所述基于所述动作表示生成与所述驱动文本对应的所述虚拟人视频,包括:获取与所述驱动文本对应的驱动语音;基于所述驱动语音和所述第一视频生成与所述驱动语音对应的头部表示,并利用所述头部表示和所述动作表示合成所述虚拟人视频;其中,所述头部表示用于表征人物的头部动作和人脸动作,所述头部表示包括
头部图片或人脸关键点信息中的至少一种。
[0020]其中,上述基于驱动语音和第一视频生成与驱动语音对应的头部表示的过程可以是基于音唇同步算法、说话者头像生成算法或其它深度学习算法得到的,本申请对此不限定。
[0021]从技术效果上看,通过将头部表示和动作表示进行合成,便可得到准确,且符合相应动作规范的虚拟人视频。
[0022]在一种可行的实施方式中,所述动作表示用于表征人物的肢体动作,所述动作表示包括肢体动作视频帧或肢体关键点信息中的至少一种。
[0023]从技术效果上看,动作表示用于表征人物肢体动作,即通过上述实施例可以提取出准确且符合规范的人物肢体动作信息,进而生成符合特定场景需求的虚拟人视频。
[0024]在一种可行的实施方式中,所述动作标注通过时间段和所述第一视频在所述时间段内包含视频帧的动作类型进行表征。
[0025]从技术效果上看,动作标注用于描述第一视频中本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种虚拟人视频生成方法,其特征在于,所述方法包括:获取驱动文本;基于所述驱动文本和第一视频的动作标注,获取与所述驱动文本对应的动作类型,其中,所述动作标注中包括所述第一视频中的人物的多个动作类型;基于所述动作类型,从所述第一视频中提取出与所述驱动文本对应的动作表示;基于所述动作表示,生成虚拟人视频。2.根据权利要求1所述的方法,其特征在于,所述基于所述驱动文本和第一视频的动作标注,获取与所述驱动文本对应的动作类型,包括:基于映射关系模型,从所述动作标注中搜索出与所述驱动文本的语义对应的动作类型;其中,所述映射关系模型用于表征文本语义和动作类型之间的映射关系。3.根据权利要求1所述的方法,其特征在于,所述基于所述驱动文本和第一视频的动作标注,获取与所述驱动文本对应的动作类型,包括:基于深度学习模型,从所述动作标注中确定与所述驱动文本的语义对应的动作类型。4.根据权利要求1

3中任一项所述的方法,其特征在于,所述基于所述动作类型,从所述第一视频中提取出与所述驱动文本对应的动作表示,包括:基于所述动作类型在所述第一视频中对应的视频帧,提取所述动作表示。5.根据权利要求1

4中任一项所述的方法,其特征在于,所述动作标注中的动作类型是基于动作规范划分得到的;其中,基于所述动作规范划分出的动作类型包括左手在前、右手在前和双手合并,或者基于所述动作规范划分出的动作类型包括开始介绍动作和详细介绍动作,所述开始介绍动作包括左手在前和/或右手在前,所述详细介绍动作包括双手合并。6.根据权利要求1

5中任一项所述的方法,其特征在于,所述基于所述动作表示,生成虚拟人视频,包括:获取与所述驱动文本对应的驱动语音;基于所述驱动语音和所述第一视频生成与所述驱动语音对应的头部表示,并利用所述头部表示和所述动作表示合成所述虚拟人视频;其中,所述头部表示用于表征人物的头部动作和人脸动作,所述头部表示包括头部图片或人脸关键点信息中的至少一种。7.根据权利要求1

6中任一项所述的方法,其特征在于,所述动作表示用于表征人物的肢体动作,所述动作表示包括肢体动作视频帧或肢体关键点信息中的至少一种。8.根据权利要求1

7中任一项所述的方法,其特征在于,所述动作标注通过时间段和所述第一视频在所述时间段内包含视频帧的动作类型进行表征。9.一种虚拟人视频生成装置,其特征在于,所述装置包括:获取单元,用于获取驱动文本;处理单元,用于基于所述驱动文本和第一视频的动作标注,获取与所述驱动文本对应的动作类型,其中,所述动作标注中包括所述第一视频中的人物的多个动作类型;以及还用于基于所述动作类型,从所述第一视频中提取出与所述驱动文本对应的动作表示;生成单元,用于基于所述动作表示,生成虚拟人视频。10.根据权利要求...

【专利技术属性】
技术研发人员:陈志毅李明磊曹艳怀宝兴
申请(专利权)人:华为云计算技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1