一种实时音频驱动人脸生成方法、装置及服务器制造方法及图纸

技术编号：31377705 阅读：13 留言：0更新日期：2021-12-15 11:17

一种实时音频驱动人脸生成方法、装置及服务器，方法包括：获取训练视频的图像信息和与训练视频同步的音频信息；对图像信息进行特征提取，得到每帧图像的人脸姿态特征和像素位置特征；对音频信息进行特征提取，得到每帧图像的音频特征；构建神经辐射场模型，根据每帧图像的人脸姿态特征、像素位置特征和所述音频特征训练神经辐射场模型，以获取目标神经辐射场模型；输入与目标视频同步的音频信息至目标神经辐射场模型中进行图像渲染，以生成当前视角及音频条件下的目标图像。本申请通过使用包括编码器和解码器结构的卷积神经网络作为神经辐射场模型，以及将图像像素位置特征作为输入训练神经辐射场，从而达到实时语音驱动人脸视频的生成。频的生成。频的生成。

全部详细技术资料下载

【技术实现步骤摘要】
据每帧图像的所述人脸姿态特征、像素位置特征和所述音频特征训练所述神经辐射场模型，以获取目标神经辐射场模型；
[0042]渲染模块，用于将输入地与目标视频同步的音频信息作为条件信息，使用所述目标神经辐射场模型进行图像渲染，以生成当前视角及音频条件下的目标图像。
[0043]第三方面，本申请提供了一种服务器，包括存储器和处理器，所述存储器中存储有程序指令，所述处理器通过运行所述程序指令，执行下述步骤：
[0044]获取训练视频的图像信息和与所述训练视频同步的音频信息；
[0045]对所述图像信息进行特征提取，得到每帧图像的人脸姿态特征和像素位置特征；
[0046]对所述音频信息进行特征提取，得到每帧图像的音频特征；
[0047]构建神经辐射场模型，所述神经辐射场模型用于生成渲染图像；
[0048]根据每帧图像的所述人脸姿态特征、像素位置特征和所述音频特征训练所述神经辐射场模型，以获取目标神经辐射场模型；
[0049]将输入地与目标视频同步的音频信息作为条件信息，使用所述目标神经辐射场模型进行图像渲染，以生成当前视角及音频条件下的目标图像。
[0050]由以上技术方案可知，基于本申请提供的实时音频驱动人脸生成方法，通过使用包括编码器和解码器结构的卷积神经网络作为神经辐射场模型，以及使用图像像素位置特征作为输入用于训练神经辐射场。显著提升了音频驱动人脸生成过程的运算速度，达到实时语音驱动人脸视频的生成。
附图说明
[0051]为了更清楚地说明本申请的技术方案，下面...

【技术保护点】

【技术特征摘要】
1.一种实时音频驱动人脸生成方法，其特征在于，包括：获取训练视频的图像信息和与所述训练视频同步的音频信息；对所述图像信息进行特征提取，得到每帧图像的人脸姿态特征和像素位置特征；对所述音频信息进行特征提取，得到每帧图像的音频特征；构建神经辐射场模型，所述神经辐射场模型用于生成渲染图像；根据每帧图像的所述人脸姿态特征、像素位置特征和所述音频特征训练所述神经辐射场模型，以获取目标神经辐射场模型；将输入地与目标视频同步的音频信息作为条件信息，使用所述目标神经辐射场模型进行图像渲染，以生成当前视角及音频条件下的目标图像。2.根据权利要求1所述的方法，其特征在于，所述像素位置特征由以下步骤得到：根据所述图像信息获取每帧图像的图像尺寸，所述图像尺寸对应的图像包括多个像素，所述像素对应有原始像素位置特征；将每个所述像素利用预设公式进行编码，得到每个所述像素对应编码后的像素位置特征；将所述编码后的像素位置特征与所述原始像素位置特征进行拼接并更新所述原始像素位置特征，以获得更新后的像素位置特征。3.根据权利要求1所述的方法，其特征在于，所述神经辐射场模型包括卷积网络编码器和卷积网络解码器；所述卷积网络编码器包括卷积层、激活层、池化层和归一化层，所述卷积网络解码器包括卷积层、激活层、归一化层、升采样层和反卷积层。4.根据权利要求1所述的方法，其特征在于，将所述图像信息进行特征提取，得到每帧图像的人脸姿态特征；包括：获取人脸视频集合，所述人脸视频集合包括多个区域子集合；所述多个区域子集合包括图像非人脸区域、不包含唇部的人脸区域和上唇、下唇及双唇所包围的区域；对多个所述区域子集合逐帧进行分割得到多个所述区域子集合对应的每帧分割结果；将多个所述区域子集合对应的每帧分割结果采用不同数值进行对应标记。5.根据权利要求4所述的方法，其特征在于，还包括：对所述每帧分割结果进行人脸关键点检测，得到二维人脸关键点；将所述二维人脸关键点与预设三维人脸模型进行关键点匹配，得到对应的三维人脸关键点；根据所述二维人脸关键点和对应的所述三维人脸关键点确定关键点转换关系；根据所述关键点转换关系获取当前图像的人脸姿态特征；将所述人脸姿态特征进行特征变换，得到对应的摄像机姿态特征；所述摄像机姿态特征包括摄像机相对人脸的旋转矩阵和平移向量。6.根据权利要求5所述的方法，其特征在于，还包括：获取全部帧的所述平移向量，根据全部帧的所述平移向...

【专利技术属性】
技术研发人员：司马华鹏，屈奇勋，范宏伟，李佳斌，
申请(专利权)人：宿迁硅基智能科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人