虚拟人视频生成方法和装置制造方法及图纸

技术编号：39327758 阅读：26 留言：0更新日期：2023-11-12 16:05

本申请公开了一种虚拟人视频生成方法和装置，该方法包括：获取驱动文本；基于驱动文本和第一视频的动作标注，获取与驱动文本对应的动作类型，其中，动作标注中包括第一视频中的人物的多个动作类型；基于动作类型，从第一视频中提取出与驱动文本对应的动作表示；基于动作表示，生成虚拟人视频。通过本申请，可以自动生成人物动作准确、可控并符合预设动作规范的虚拟人视频，且可以通过调整动作规范来实现虚拟人动作的个性化定制。拟人动作的个性化定制。拟人动作的个性化定制。

全部详细技术资料下载

【技术实现步骤摘要】
虚拟人视频生成方法和装置

[0001]本申请涉及大数据中的人工智能(Artificial Intelligence，AI)
，尤其涉及一种虚拟人视频生成方法和装置。

技术介绍

[0002]人工智能AI是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个分支，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式作出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。
[0003]随着大数据、人工智能、物联网等互联网技术的快速发展，各行各业都在逐渐实现数字化和智能化，以助于提升服务效率和服务质量。其中，在金融、电商、医疗、教育、多媒体等各领域中逐渐出现了数字人、虚拟人等交互方式。
[0004]虚拟人(Virtual Human，VH)采用语音交互、虚拟形象模型生成等多项AI技术，实现唇形语音同步和表情动作拟人等效果，广泛应用于虚拟形象播报和实时语音交互两大场景。虚拟形象播报根据文本内容快速合成音视频文件，落地于媒体、教育、会展服务等场景；实时语音交互支持即时在线对话，可赋能智能客服、语音助理等场景。
[0005]现有技术在生成虚拟人的过程中通常需要人工插入与驱动文本对应的动作子序列，或者直接通过深度学习模型来预测驱动语音对应的3D虚拟人视频。
[0006]然而，利用上述方式生成的虚拟人动作不可控、准确性较差，...

【技术保护点】

【技术特征摘要】
1.一种虚拟人视频生成方法，其特征在于，所述方法包括：获取驱动文本；基于所述驱动文本和第一视频的动作标注，获取与所述驱动文本对应的动作类型，其中，所述动作标注中包括所述第一视频中的人物的多个动作类型；基于所述动作类型，从所述第一视频中提取出与所述驱动文本对应的动作表示；基于所述动作表示，生成虚拟人视频。2.根据权利要求1所述的方法，其特征在于，所述基于所述驱动文本和第一视频的动作标注，获取与所述驱动文本对应的动作类型，包括：基于映射关系模型，从所述动作标注中搜索出与所述驱动文本的语义对应的动作类型；其中，所述映射关系模型用于表征文本语义和动作类型之间的映射关系。3.根据权利要求1所述的方法，其特征在于，所述基于所述驱动文本和第一视频的动作标注，获取与所述驱动文本对应的动作类型，包括：基于深度学习模型，从所述动作标注中确定与所述驱动文本的语义对应的动作类型。4.根据权利要求1
‑
3中任一项所述的方法，其特征在于，所述基于所述动作类型，从所述第一视频中提取出与所述驱动文本对应的动作表示，包括：基于所述动作类型在所述第一视频中对应的视频帧，提取所述动作表示。5.根据权利要求1
‑
4中任一项所述的方法，其特征在于，所述动作标注中的动作类型是基于动作规范划分得到的；其中，基于所述动作规范划分出的动作类型包括左手在前、右手在前和双手合并，或者基于所述动作规范划分出的动作类型包括开始介绍动作和详细介绍动作，所述开始介绍动作包括左手在前和/或右手在前，所述详细介绍动作包括双手合并。6.根据权利要求1
‑
5中任一项所述的方法，其特征在于，所述基于所述动作表示，生成虚拟人视频，包括：获取与所述驱动文本对应的驱动语音；基于所述驱动语音和所述第一视频生成与所述驱动语音对应的头部表示，并利用所述头部表示和所述动作表示合成所述虚拟人视频；其中，所述头部表示用于表征人物的头部动作和人脸动作，所述头部表示包括头部图片或人脸关键点信息中的至少一种。7.根据权利要求1
‑
6中任一项所述的方法，其特征在于，所述动作表示用于表征人物的肢体动作，所述动作表示包括肢体动作视频帧或肢体关键点信息中的至少一种。8.根据权利要求1
‑
7中任一项所述的方法，其特征在于，所述动作标注通过时间段和所述第一视频在所述时间段内包含视频帧的动作类型进行表征。9.一种虚拟人视频生成装置，其特征在于，所述装置包括：获取单元，用于获取驱动文本；处理单元，用于基于所述驱动文本和第一视频的动作标注，获取与所述驱动文本对应的动作类型，其中，所述动作标注中包括所述第一视频中的人物的多个动作类型；以及还用于基于所述动作类型，从所述第一视频中提取出与所述驱动文本对应的动作表示；生成单元，用于基于所述动作表示，生成虚拟人视频。10.根据权利要求...

【专利技术属性】
技术研发人员：陈志毅，李明磊，曹艳，怀宝兴，
申请(专利权)人：华为云计算技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人