一种提高视频质量的语音驱动方法及系统技术方案

技术编号：43710557 阅读：19 留言：0更新日期：2024-12-18 21:23

本发明专利技术公开了一种提高视频质量的语音驱动方法及系统，方法包括：对包含中文视频的人脸说话视频进行预处理，得到人脸视频数据集；使用人脸视频数据集预训练唇形同步鉴别器；重构生成器的损失函数与网络架构，使用人脸视频数据集训练生成器，训练过程中引入预训练后的唇形同步鉴别器，交替优化生成器和唇形同步鉴别器来提升训练效果，使得训练后的生成器生成高质量高同步率的语音驱动人脸视频。本发明专利技术可以对唇形区域画面模糊等质量问题实现有效改善，生成清晰度更高的人脸视频。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机信息，具体涉及一种提高视频质量的语音驱动方法及系统。

技术介绍

1、语音驱动人脸生成主要基于深度学习技术。该方法通过构造一个神经网络，神经网络能够对输入的某段视频和音频的特征进行编码，并不断学习视频特征和音频特征，从而生成新的与音频相匹配的说话人脸视频。该方法在网红直播行业可以得到有效的应用，虚拟主播的研发可以给企业和人力资源带来极大的便利；在实际应用中，只需输入文本信息或者语音信息，就可以通过合成系统合成新的视频应用。

2、近些年来，基于语音驱动人脸视频的生成技术已经渗透到包括但并不限于虚拟动漫人物、虚拟主播带货、人脸智能识别、视频换脸特效、美妆应用等领域。目前，基于语音驱动人脸视频生成的具体实现方法主要分为两大类：基于人脸特征点到说话人脸的生成方法，基于人脸图像到说话人脸的生成方法。

3、基于人脸特征点的人脸视频生成方法使用递归神经网络学习。该方法将原始音频功能映射到嘴巴形状，合成高质量的嘴巴纹理，并生成嘴形的高质量同步面部视频。但是，该方法要求必须获得大量特定人物的数据集来进行训练，才能生成该特定人物逼真的人脸视频。基于人脸图像到说话人脸的生成方法使用编码器-解码器卷积神经网络模型，该模型使用了人脸和音频的联合嵌入，其特征分别由身份编码器和音频编码器提取，并用人脸像生成解码器将人物特征和音频特征重构，从而生成说话人脸的视频帧。该方法只对每帧视频帧计算l1损失，导致输出图像会比较模糊，视觉质量较差。

4、总的来说，在语音驱动人脸视频生成的任务中，当前主要研究内容集中在音

技术实现思路

1、本专利技术要解决的技术问题：针对现有技术的上述问题，提供一种提高视频质量的语音驱动方法及系统，能够生成清晰度更高的人脸视频。

2、为了解决上述技术问题，本专利技术采用的技术方案为：

3、一种提高视频质量的语音驱动方法，包括以下步骤：

4、对包含中文视频的人脸说话视频进行预处理，得到人脸视频数据集；

5、使用人脸视频数据集预训练唇形同步鉴别器；

6、重构生成器的损失函数与网络架构，使用人脸视频数据集训练生成器，训练过程中引入预训练后的唇形同步鉴别器，交替优化生成器和唇形同步鉴别器来提升训练效果，使得训练后的生成器生成高质量高同步率的语音驱动人脸视频。

7、进一步的，对包含中文视频的人脸说话视频进行预处理时，包括：

8、剔除低质量视频，然后进行视频帧率统一，对具有背景噪声的视频进行去噪处理，同时剪去视频中的无关片段；

9、将视频进行片段划分，并删除时长不满足要求的视频片段，将同一个人的视频片段保存至同一人脸文件夹下；

10、使用训练好的音频-视频同步检测模型检测每个视频片段的音视频同步情况，删除音视频偏移信息或者人脸尺寸不满足要求的视频片段；

11、使用训练好的人脸检测器对每个视频片段中的人脸图像进行检测和切割。

12、进一步的，所述唇形同步鉴别器包括面部编码器，所述面部编码器使用堆叠的卷积模块对输入特征图进行特征提取，其中卷积模块1采用7x7卷积核将通道数增加，特征图尺寸不变，卷积模块2将特征图宽度缩小1/2，通道数翻倍，卷积模块3至卷积模块8逐模块将特征图尺寸缩小1/2，同时通道数逐层翻倍至卷积模块7后不变，卷积模块3至卷积模块8使用堆叠的3x3卷积核来捕捉更高级和全局的特征；卷积模块9通过0填充进一步缩放特征图；最后一个卷积层将通道数压缩，并应用sigmoid作为激活函数输出二分类结果。

13、进一步的，使用人脸视频数据集预训练唇形同步鉴别器时，唇形同步鉴别器的损失函数使用具有二元交叉熵的余弦相似度损失函数，同时唇形同步鉴别器使用relu激活函数计算视频和语音嵌入之间的点积，得到人脸样本的输入音频-视频的同步率psync，表达式如下：

14、

15、其中v和s分别代表视频和音频的特征向量，psync表示在这个时间序列中，视频和音频是同步的概率。

16、进一步的，重构生成器的损失函数与网络架构时，重构的生成器损失函数如下：

17、ltotal＝α1lsync+α2lperceptual+α3lms+(1-α1-α2-α3)l1

18、其中，lsync代表同步损失函数，lperceptual代表感知损失函数，l1代表重构损失函数，lms为多尺度结构相似性损失函数，α1、α2、α3分别为超参数权重。

19、进一步的，所述多尺度结构相似性损失函数将输入的人脸图像拆解为不同的尺度，并计算每个尺度下的ssim损失，表达式如下：

20、

21、其中，lm(x,y)表示原始图像最高尺度时的对比度，cj(x,y)表示原始图像第j次迭代的尺度的结构相似度，sj(x,y)表示原始图像第j次迭代的尺度的亮度相似度，αm，βj，γj表示用于调整不同分量的相对重要性的指数。

22、进一步的，重构生成器的损失函数与网络架构时，重构的生成器网络架构包括面部图像编码器，所述面部图像编码器使用堆叠的卷积层子模块对拼接的图像进行特征提取，其中子模块1使用7x7卷积核将通道数增加；子模块2至子模块8逐步将空间尺寸缩小2倍、通道数增加2倍；子模块9通过0填充进一步对特征图进行缩放，子模块2至子模块8分别使用堆叠的3x3卷积核并引入残差连接，以帮助梯度传播和学习复杂特征。

23、进一步的，重构生成器的损失函数与网络架构时，重构的生成器网络架构还包括解码器，所述解码器使用堆叠的反卷积模块层逐步将输入的特征图进行上采样操作，以恢复原始面部图像的尺寸，其中反卷积模块层1至反卷积模块层7均首先通过反卷积层对特征图进行上采样操作，特征图尺寸翻倍，通道数减少，再通过堆叠的3x3卷积层进行特征图处理，所述解码器的输出模块将通道数进一步减少，并通过tanh激活函数将输出限制在指定范围内。

24、进一步的，使用人脸视频数据集训练生成器，训练过程中引入预训练后的唇形同步鉴别器，交替优化生成器和唇形同步鉴别器来提升训练效果时，包括：

25、在当前训练迭代中，冻结唇形同步鉴别器的参数并训练生成器，根据定义的损失函数，计算生成器网络中可训练参数的梯度，使用反向传播算法将梯度传播回生成器网络更新网络参数，以最小化总体损失函数；

26、在下一次训练迭代中，冻结生成器的参数并训练唇形同步鉴别器，通过计算损失函数本文档来自技高网...

【技术保护点】

1.一种提高视频质量的语音驱动方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的提高视频质量的语音驱动方法，其特征在于，对包含中文视频的人脸说话视频进行预处理时，包括：

3.根据权利要求1所述的提高视频质量的语音驱动方法，其特征在于，所述唇形同步鉴别器包括面部编码器，所述面部编码器使用堆叠的卷积模块对输入特征图进行特征提取，其中卷积模块1采用7x7卷积核将通道数增加，特征图尺寸不变，卷积模块2将特征图宽度缩小1/2，通道数翻倍，卷积模块3至卷积模块8逐模块将特征图尺寸缩小1/2，同时通道数逐层翻倍至卷积模块7后不变，卷积模块3至卷积模块8使用堆叠的3x3卷积核来捕捉更高级和全局的特征；卷积模块9通过0填充进一步缩放特征图；最后一个卷积层将通道数压缩，并应用Sigmoid作为激活函数输出二分类结果。

4.根据权利要求1所述的提高视频质量的语音驱动方法，其特征在于，使用人脸视频数据集预训练唇形同步鉴别器时，唇形同步鉴别器的损失函数使用具有二元交叉熵的余弦相似度损失函数，同时唇形同步鉴别器使用Relu激活函数计算视频和语音嵌入之间的点积，得到

5.根据权利要求1所述的提高视频质量的语音驱动方法，其特征在于，重构生成器的损失函数与网络架构时，重构的生成器损失函数如下：

6.根据权利要求5所述的提高视频质量的语音驱动方法，其特征在于，所述多尺度结构相似性损失函数将输入的人脸图像拆解为不同的尺度，并计算每个尺度下的SSIM损失，表达式如下：

7.根据权利要求1所述的提高视频质量的语音驱动方法，其特征在于，重构生成器的损失函数与网络架构时，重构的生成器网络架构包括面部图像编码器，所述面部图像编码器使用堆叠的卷积层子模块对拼接的图像进行特征提取，其中子模块1使用7x7卷积核将通道数增加；子模块2至子模块8逐步将空间尺寸缩小2倍、通道数增加2倍；子模块9通过0填充进一步对特征图进行缩放，子模块2至子模块8分别使用堆叠的3x3卷积核并引入残差连接，以帮助梯度传播和学习复杂特征。

8.根据权利要求1所述的提高视频质量的语音驱动方法，其特征在于，重构生成器的损失函数与网络架构时，重构的生成器网络架构还包括解码器，所述解码器使用堆叠的反卷积模块层逐步将输入的特征图进行上采样操作，以恢复原始面部图像的尺寸，其中反卷积模块层1至反卷积模块层7均首先通过反卷积层对特征图进行上采样操作，特征图尺寸翻倍，通道数减少，再通过堆叠的3x3卷积层进行特征图处理，所述解码器的输出模块将通道数进一步减少，并通过Tanh激活函数将输出限制在指定范围内。

9.根据权利要求1所述的提高视频质量的语音驱动方法，其特征在于，使用人脸视频数据集训练生成器，训练过程中引入预训练后的唇形同步鉴别器，交替优化生成器和唇形同步鉴别器来提升训练效果时，包括：

10.一种提高视频质量的语音驱动系统，其特征在于，包括互相连接的微处理器和计算机可读存储介质，所述微处理器被编程或者配置以执行权利要求1～9任一项所述的提高视频质量的语音驱动方法。

...

【技术特征摘要】

1.一种提高视频质量的语音驱动方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的提高视频质量的语音驱动方法，其特征在于，对包含中文视频的人脸说话视频进行预处理时，包括：

4.根据权利要求1所述的提高视频质量的语音驱动方法，其特征在于，使用人脸视频数据集预训练唇形同步鉴别器时，唇形同步鉴别器的损失函数使用具有二元交叉熵的余弦相似度损失函数，同时唇形同步鉴别器使用relu激活函数计算视频和语音嵌入之间的点积，得到人脸样本的输入音频-视频的同步率psync，表达式如下：

5.根据权利要求1所述的提高视频质量的语音驱动方法，其特征在于，重构生成器的损失函数与网络架构时，重构的生成器损失函数如下：

6.根据权利要求5所述的提高视频质量的语音驱动方法，其特征在于，所述多尺度结构相似性损失函数将输入的人脸图像拆解为不同的尺度，并计算每个尺度下...

【专利技术属性】
技术研发人员：周庆华，张龙，唐帅，陈云翔，
申请(专利权)人：长沙理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人