一种实时音频驱动人脸生成方法、装置及服务器制造方法及图纸

技术编号:31377705 阅读:13 留言:0更新日期:2021-12-15 11:17
一种实时音频驱动人脸生成方法、装置及服务器,方法包括:获取训练视频的图像信息和与训练视频同步的音频信息;对图像信息进行特征提取,得到每帧图像的人脸姿态特征和像素位置特征;对音频信息进行特征提取,得到每帧图像的音频特征;构建神经辐射场模型,根据每帧图像的人脸姿态特征、像素位置特征和所述音频特征训练神经辐射场模型,以获取目标神经辐射场模型;输入与目标视频同步的音频信息至目标神经辐射场模型中进行图像渲染,以生成当前视角及音频条件下的目标图像。本申请通过使用包括编码器和解码器结构的卷积神经网络作为神经辐射场模型,以及将图像像素位置特征作为输入训练神经辐射场,从而达到实时语音驱动人脸视频的生成。频的生成。频的生成。

【技术实现步骤摘要】
据每帧图像的所述人脸姿态特征、像素位置特征和所述音频特征训练所述神经辐射场模 型,以获取目标神经辐射场模型;
[0042]渲染模块,用于将输入地与目标视频同步的音频信息作为条件信息,使用所述目标 神经辐射场模型进行图像渲染,以生成当前视角及音频条件下的目标图像。
[0043]第三方面,本申请提供了一种服务器,包括存储器和处理器,所述存储器中存储有 程序指令,所述处理器通过运行所述程序指令,执行下述步骤:
[0044]获取训练视频的图像信息和与所述训练视频同步的音频信息;
[0045]对所述图像信息进行特征提取,得到每帧图像的人脸姿态特征和像素位置特征;
[0046]对所述音频信息进行特征提取,得到每帧图像的音频特征;
[0047]构建神经辐射场模型,所述神经辐射场模型用于生成渲染图像;
[0048]根据每帧图像的所述人脸姿态特征、像素位置特征和所述音频特征训练所述神经辐 射场模型,以获取目标神经辐射场模型;
[0049]将输入地与目标视频同步的音频信息作为条件信息,使用所述目标神经辐射场模型 进行图像渲染,以生成当前视角及音频条件下的目标图像。
[0050]由以上技术方案可知,基于本申请提供的实时音频驱动人脸生成方法,通过使用包 括编码器和解码器结构的卷积神经网络作为神经辐射场模型,以及使用图像像素位置特 征作为输入用于训练神经辐射场。显著提升了音频驱动人脸生成过程的运算速度,达到 实时语音驱动人脸视频的生成。
附图说明
[0051]为了更清楚地说明本申请的技术方案,下面将对实施例中所需要使用的附图作简单 的介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下, 还可以根据这些附图获得其他的附图。
[0052]图1示例性示出了本申请实施例提供的实时音频驱动人脸生成方法的流程示意图;
[0053]图2示例性示出了本申请实施例提供的神经辐射场模型的结构示意图;
[0054]图3示例性示出了本申请实施例提供的神经辐射场模型训练过程的流程示意图;
[0055]图4示例性示出了本申请实施例提供的神经辐射场模型推断过程的流程示意图。
具体实施方式
[0056]为使本申请的目的和实施方式更加清楚,下面将结合本申请示例性实施例中的附图, 对本申请示例性实施方式进行清楚、完整地描述,显然,描述的示例性实施例仅是本申 请一部分实施例,而不是全部的实施例。
[0057]需要说明的是,本申请中对于术语的简要说明,仅是为了方便理解接下来描述的实 施方式,而不是意图限定本申请的实施方式。除非另有说明,这些术语应当按照其普通 和通常的含义理解。
[0058]本申请中说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三
”ꢀ
等是用于区别类似或同类的对象或实体,而不必然意味着限定特定的顺序或先后次序, 除非另外注明。应该理解这样使用的用语在适当情况下可以互换。术语“包括”和“具 有”以及他们
观察,手动划定出一固定图像区域,使视频每帧图像中的人脸区域均被包含在此手动划 定的区域,将视频每帧图像中的此人工划定区域提取出来,产生新的仅包含人脸区域的 视频。自动裁剪是通过人脸检测算法,自动检测视频每一帧图像中的人脸区域,然后根 据所有帧图像的人脸检测区域,计算出一更大的图像区域,使得所有帧图像的人脸检测 区域均为此更大区域的子集,将视频每帧图像中的此更大区域提取出来,产生新的仅包 含人脸区域的视频。
[0067]进一步地,获取包含人脸区域的视频集合,人脸视频集合包括多个区域子集合;使 用人脸分割模型,对多个区域子集合逐帧进行分割,获得视频每帧图像不同区域的掩模。 不同区域子集合包括非人脸区域(背景、人体躯干部分等),不包含唇部的人脸区域,上 唇、下唇及双唇所包围的区域。将每个区域得到的视频每帧图像的分割结果使用不同的 数值进行对应标记。
[0068]在一些实施例中,S1还包括:对每帧分割结果进行人脸关键点检测,得到二维人脸 关键点;将二维人脸关键点与预设三维人脸模型进行关键点匹配,得到对应的三维人脸 关键点;根据二维人脸关键点和对应的三维人脸关键点确定关键点转换关系;根据关键 点转换关系获取当前图像的人脸姿态特征;将人脸姿态特征进行特征变换,得到对应的 摄像机姿态特征;摄像机姿态特征包括摄像机相对人脸的旋转矩阵和平移向量。
[0069]示例性的,获取视频每帧图像包括人脸区域子集合,可以理解的是,使用仅包含人 脸区域的视频。从视频每帧图像中检测二维人脸关键点,将二维人脸关键点匹配至一固 定的三维人脸模型的关键点,对应求解三维关键点和对应二维关键点的转换关系,估计 出当前视频帧图像中人脸相对摄像机的旋转矩阵和平移向量,用以获得当前视频帧图像 的人脸姿态特征。对视频中每一帧均计算出人脸姿态特征。记每帧人脸姿态特征的旋转 矩阵为平移向量为其中均为列向量。根据第一公式, 变换此人脸特征,获得摄像机相对人脸的姿态特征,获得的旋转矩阵为R
c
,平移向量为在视频拍摄过程中,摄像机姿态固定,人脸姿态是动态变化的。经过此变换后,人脸姿 态是固定的,相对地,摄像机姿态是动态变化的。即得到人脸区域视频中每帧图像的摄 像机姿态特征。
[0070]第一公式为:
[0071][0072]其中,R
f
为人脸姿态特征的旋转矩阵;为人脸姿态特征的平移向量;R
c
为摄像机姿 态特征的旋转矩阵;为摄像机姿态特征的平移向量。
[0073]在一些实施例中,S1还包括,像素位置特征由以下步骤得到:根据图像信息获取每 帧图像的图像尺寸,图像尺寸对应的图像包括多个像素,像素对应有原始像素位置特征; 将每个像素利用预设公式进行编码,得到每个像素对应编码后的像素位置特征;将编码 后的像素位置特征与原始像素位置特征进行拼接并更新所述原始像素位置特征,以获得 更新后的像素位置特征。
[0074]示例性的,由于视频帧图像的尺寸是固定的且图像尺寸对应的图像包括多个像
素。 在给定射线采样深度的前提下,每帧图像的像素位置特征是固定的,每个像素的位置特 征包含像素所在的行、列及深度。使用预设公式,如正余弦周期函数对像素的位置特征 进行编码,将编码后的特征作为像素的位置特征。
[0075]正余弦周期函数如下:
[0076]γ(p)=(sin(20πp),cos(20πp),

,sin(2
L
‑1πp),cos(2
L
‑1πp));
[0077]其中,p为像素各位置特征;L为特征编码组数;L取值为10。
[0078]进一步地,对每一个像素的各个位置特征进行正余弦周期函数编码后,将编码后的 像素位置特征与原始的位置特征拼接,并更新原始像素位置特征,拼接后生成新的位置 特征,即作为最终输入至神经辐射场模型中的像素位置特征。需要说明的是,预设公式 还包括傅里叶编码或MIP编码等,以对每一个像素本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种实时音频驱动人脸生成方法,其特征在于,包括:获取训练视频的图像信息和与所述训练视频同步的音频信息;对所述图像信息进行特征提取,得到每帧图像的人脸姿态特征和像素位置特征;对所述音频信息进行特征提取,得到每帧图像的音频特征;构建神经辐射场模型,所述神经辐射场模型用于生成渲染图像;根据每帧图像的所述人脸姿态特征、像素位置特征和所述音频特征训练所述神经辐射场模型,以获取目标神经辐射场模型;将输入地与目标视频同步的音频信息作为条件信息,使用所述目标神经辐射场模型进行图像渲染,以生成当前视角及音频条件下的目标图像。2.根据权利要求1所述的方法,其特征在于,所述像素位置特征由以下步骤得到:根据所述图像信息获取每帧图像的图像尺寸,所述图像尺寸对应的图像包括多个像素,所述像素对应有原始像素位置特征;将每个所述像素利用预设公式进行编码,得到每个所述像素对应编码后的像素位置特征;将所述编码后的像素位置特征与所述原始像素位置特征进行拼接并更新所述原始像素位置特征,以获得更新后的像素位置特征。3.根据权利要求1所述的方法,其特征在于,所述神经辐射场模型包括卷积网络编码器和卷积网络解码器;所述卷积网络编码器包括卷积层、激活层、池化层和归一化层,所述卷积网络解码器包括卷积层、激活层、归一化层、升采样层和反卷积层。4.根据权利要求1所述的方法,其特征在于,将所述图像信息进行特征提取,得到每帧图像的人脸姿态特征;包括:获取人脸视频集合,所述人脸视频集合包括多个区域子集合;所述多个区域子集合包括图像非人脸区域、不包含唇部的人脸区域和上唇、下唇及双唇所包围的区域;对多个所述区域子集合逐帧进行分割得到多个所述区域子集合对应的每帧分割结果;将多个所述区域子集合对应的每帧分割结果采用不同数值进行对应标记。5.根据权利要求4所述的方法,其特征在于,还包括:对所述每帧分割结果进行人脸关键点检测,得到二维人脸关键点;将所述二维人脸关键点与预设三维人脸模型进行关键点匹配,得到对应的三维人脸关键点;根据所述二维人脸关键点和对应的所述三维人脸关键点确定关键点转换关系;根据所述关键点转换关系获取当前图像的人脸姿态特征;将所述人脸姿态特征进行特征变换,得到对应的摄像机姿态特征;所述摄像机姿态特征包括摄像机相对人脸的旋转矩阵和平移向量。6.根据权利要求5所述的方法,其特征在于,还包括:获取全部帧的所述平移向量,根据全部帧的所述平移向...

【专利技术属性】
技术研发人员:司马华鹏屈奇勋范宏伟李佳斌
申请(专利权)人:宿迁硅基智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1