数字人说话视频生成方法、系统、终端设备及介质技术方案

技术编号:35299919 阅读:13 留言:0更新日期:2022-10-22 12:48
本发明专利技术公开了一种数字人说话视频生成方法、系统、终端设备以及计算机可读存储介质,该数字人说话视频生成方法的步骤包括:获取预设语音信息的语音特征,将所述语音特征输入第一深度学习模型得到人脸关键点坐标偏移值,并基于所述人脸关键点坐标偏移值得到对应的人脸关键点;基于所述人脸关键点确定人脸轮廓视频,并将所述人脸轮廓视频输入第二深度学习模型得到包括面部运动形象和头部姿态变化的具备照片级真实感的数字人说话视频。本发明专利技术能够提升数字人说话视频的视频质量。提升数字人说话视频的视频质量。提升数字人说话视频的视频质量。

【技术实现步骤摘要】
数字人说话视频生成方法、系统、终端设备及介质


[0001]本专利技术涉及人工智能
,尤其是涉及一种数字人说话视频生成方法、系统、终端设备以及计算机可读存储介质。

技术介绍

[0002]随着人工智能、虚拟现实等新技术浪潮的发展,虚拟数字人的生产门槛进一步降低,各方面的性能获得了飞跃式的提升,开始从外观的数字化逐渐深入到行为的交互化、思想的智能化。以虚拟主播、虚拟员工等为代表的数字人成功进入大众视野,并以多元的姿态在影视、游戏、传媒、文旅、金融等众多领域大放异彩。
[0003]语音驱动数字人形象技术是虚拟数字人应用的基础,其目标是根据输入的语音信息合成目标人物的音频同步视频帧。它对于交互式应用程序(如数字化身、视频会议、视觉效果、虚拟现实、视频配音和计算机游戏)很有价值。随着目前多模态技术研究的发展热潮,语音驱动数字人形象技术作为一种跨模态领域的研究课题,受到了研究人员的广泛关注,已经涌现了一些相关的研究成果和应用。然而,合成出逼真且富有表现力的目标人物音频同步数字人视频仍然是一个开放的挑战。
[0004]目前语音驱动数字人形象技术按照输出的视频质量可以分为非照片级真实的和照片级真实两种技术路线。非照片级真实的语音驱动数字人形象技术重点关注如何学习输入语音信息到对应的人脸面部运动的映射关系,其输出通常为人脸三维模型的顶点坐标变化或者人脸模型表情参数和头部运动参数。然后利用现有的三维模型渲染引擎将驱动后的三维人脸模型序列渲染成音频同步说话的视频。然而这种技术路线需要事先通过硬件设备获取高质量的4D人脸捕捉数据,或通过3D建模人员人工调整人脸模型参数。同时,通过渲染3D模型得到的数字人音频同步说话视频的质量与模型精度有关,往往无法达到照片级的以假乱真的效果。另一类技术路线旨在输出照片级真实感的数字人视频,按照技术方案又可以分为基于视频编辑的方法和基于图像生成的方法。基于视频编辑的方法需要事先获取目标人物的一段说话视频数据,通过将视频中人物的嘴部区域根据输入的语音信息进行编辑修改,实现口型与输入语音的同步。但是这种方法的缺陷在于输出的视频受限于原视频的长度,并且人物头部运动姿态只能保持与原视频中的相同,导致可能出现的头部运动与语音要表达的情绪态度等冲突。另一类基于图像生成的方法只需要一张或少量的目标人物的图像,就能通过神经网络根据输入语音生成对应的说话人视频。但由于要生成整张图像,这类方法往往不能生成具有高质量的面部运动细节、整体头部动态和稳定的背景的数字人视频,且生成的视频帧之间缺乏时间一致性,导致输出的视频出现抖动、面部扭曲等不良情况。
[0005]综上所述,现有的数字人说话视频生成技术存在数字人音频同步说话视频质量低、视频帧之间缺乏时间一致性、头部运动与语音要表达的情绪态度容易冲突以及视频抖动、面部扭曲等问题。

技术实现思路

[0006]本专利技术的主要目的在于提供一种数字人说话视频生成方法、系统、终端设备以及计算机可读存储介质,旨在提升数字人说话视频的视频质量。
[0007]为实现上述目的,本专利技术提供一种数字人说话视频生成方法,所述数字人说话视频生成包括:
[0008]获取预设语音信息的语音特征,将所述语音特征输入第一深度学习模型得到人脸关键点坐标偏移值,并基于所述人脸关键点坐标偏移值得到对应的人脸关键点;
[0009]基于所述人脸关键点确定人脸轮廓视频,并将所述人脸轮廓视频输入第二深度学习模型得到包括面部运动形象和头部姿态变化的具备照片级真实感的数字人说话视频。
[0010]可选地,所述第一深度学习模型包括:第一多层传感器、第二多层传感器和双向长短期记忆网络;
[0011]所述将所述语音特征输入第一深度学习模型得到人脸关键点坐标偏移值,并基于所述人脸关键点坐标偏移值得到包含面部运动信息的人脸关键点的步骤,包括:
[0012]将所述语音特征输入所述多层传感器得到升维的语音特征,并将所述升维的语音特征输入所述双向长短期记忆网络得到基础人脸关键点;
[0013]将所述基础人脸关键点与预设的静态人脸关键点坐标进行级联,并将级联后的所述基础人脸关键点和所述静态人脸关键点输入至所述第二多层传感器得到坐标偏移值;
[0014]将所述坐标偏移值与所述静态人脸关键点的坐标相加得到人脸关键点。可选地,在所述将所述语音特征输入第一深度学习模型得到人脸关键点坐标偏移值的步骤之前,还包括:
[0015]基于预设的第一数据集,通过预设优化器对第一初始深度学习模型进行训练得到所述第一深度学习模型。
[0016]可选地,在所述基于预设的第一数据集,通过预设优化器对初始深度学习模型进行训练得到所述第一深度学习模型的步骤之前,还包括:
[0017]构建所述第一数据集;
[0018]所述构建所述第一数据集的步骤,包括:
[0019]通过人脸对齐算法提取预设样本视频中各个帧的多个3D人脸关键点,将所述各个帧的多个3D人脸关键点进行二维投影得到人脸关键点集;
[0020]将所述人脸关键点集作为第一数据集,以完成对所述第一数据集的构建。
[0021]可选地,在所述将所述人脸轮廓视频输入第二深度学习模型得到包括面部运动形象和头部姿态变化的具备照片级真实感的数字人说话视频的步骤之前,还包括:
[0022]通过预设的第二数据集对预设第二初始深度学习模型进行训练得到所述第二深度学习模型;
[0023]在所述通过预设的第二数据集对预设第二初始深度学习模型进行训练得到所述第二深度学习模型之前,还包括:
[0024]构建所述第二数据集;
[0025]所述构建所述第二数据集的步骤,包括:
[0026]将所述人脸关键点集中各个帧的人脸关键点进行连线得到对应的人脸轮廓图,并确定各个所述人脸轮廓图所对应的视频帧;
[0027]将所述人脸轮廓图与所述视频帧组成数据对,并将多个所述数据对作为第二数据集,以完成对所述第二数据集的构建。
[0028]可选地,所述第二深度学习模型包括:vid2vid深度网络模型,所述将所述人脸轮廓视频输入第二深度学习模型得到包括面部运动形象和头部姿态变化的具备照片级真实感的数字人说话视频的步骤,包括:
[0029]将所述人脸关键点轮廓图输入所述vid2vid深度网络模型得到包括面部运动形象和头部姿态变化的具备照片级真实感的数字人说话视频。
[0030]可选地,所述获取预设语音信息的语音特征的步骤,包括:
[0031]对预设语音信息进行离散傅里叶变换,并根据多个预设的三角梅尔尺度滤波器对离散傅里叶变换后的所述语音信息进行过滤得到对应的梅尔频率谱系数;
[0032]对所述梅尔频率谱系数取对数,并将对数化的梅尔频率谱系数进行一维正则化得到语音特征。
[0033]为实现上述目的,本专利技术还提供一种数字人说话视频生成系统,所述数字人说话视频生成系统,包括:
[0034]确定人脸关键点模块,用于获取预设语音信息的语音特征,将所述语音特征输入第一深本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数字人说话视频生成方法,其特征在于,所述数字人说话视频生成方法应用于机器人,所述数字人说话视频生成方法包括以下步骤:获取预设语音信息的语音特征,将所述语音特征输入第一深度学习模型得到人脸关键点坐标偏移值,并基于所述人脸关键点坐标偏移值得到对应的人脸关键点;基于所述人脸关键点确定人脸轮廓视频,并将所述人脸轮廓视频输入第二深度学习模型得到包括面部运动形象和头部姿态变化的具备照片级真实感的数字人说话视频。2.如权利要求1所述的数字人说话视频生成方法,其特征在于,所述第一深度学习模型包括:第一多层传感器、第二多层传感器和双向长短期记忆网络;所述将所述语音特征输入第一深度学习模型得到人脸关键点坐标偏移值,并基于所述人脸关键点坐标偏移值得到对应的人脸关键点的步骤,包括:将所述语音特征输入所述第一多层传感器得到升维的语音特征,并将所述升维的语音特征输入所述双向长短期记忆网络得到基础人脸关键点;将所述基础人脸关键点与预设的静态人脸关键点坐标进行级联,并将级联后的所述基础人脸关键点和所述静态人脸关键点输入至所述第二多层传感器得到坐标偏移值;将所述坐标偏移值与所述静态人脸关键点的坐标相加得到人脸关键点。3.如权利要求1所述的数字人说话视频生成方法,其特征在于,在所述将所述语音特征输入第一深度学习模型得到人脸关键点坐标偏移值的步骤之前,还包括:基于预设的第一数据集,通过预设优化器对第一初始深度学习模型进行训练得到所述第一深度学习模型。4.如权利要求3所述的数字人说话视频生成方法,其特征在于,在所述基于预设的第一数据集,通过预设优化器对预设第一初始深度学习模型进行训练得到所述第一深度学习模型的步骤之前,还包括:构建所述第一数据集;所述构建所述第一数据集的步骤,包括:通过人脸对齐算法提取预设样本视频中各个帧的多个3D人脸关键点,将所述各个帧的多个3D人脸关键点进行二维投影得到人脸关键点集;将所述人脸关键点集作为第一数据集,以完成对所述第一数据集的构建。5.如权利要求4所述的数字人说话视频生成方法,其特征在于,在所述将所述人脸轮廓视频输入第二深度学习模型得到包括面部运动形象和头部姿态变化的具备照片级真实感的数字人说话视频的步骤之前,还包括:通过预设的第二数据集对预设第二初始深度学习模型进行训练得到所述第二深度学习...

【专利技术属性】
技术研发人员:潘涛李国鸣朱勰戎钱学成
申请(专利权)人:招商银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1