基于对抗网络与关键帧的视频生成优化方法、装置及设备制造方法及图纸

技术编号：42325183 阅读：23 留言：0更新日期：2024-08-14 16:04

本发明专利技术公开了一种基于对抗网络与关键帧的视频生成优化方法、装置及设备，包括结合关键帧获取视频中执行目标动作的人脸图像，检测人脸图像中执行目标动作的人脸特征数据；选取人脸特征数据中的超参量，基于标准正态分布建立随机特征矢量，确定判别器内部参量，生成执行目标动作的人脸视频；基于真实视频与生成的人脸视频中已知区域之间的差异信息定义损失函数，并以损失函数最小化为目标，对执行目标动作的人脸视频进行优化，以修正差异信息，获得符合真实视频的优化结果。上述方案能够有效提高生成视频的真实感和自然度，更准确地反映说话人的语音内容和面部表情。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及视频生成优化技术，具体涉及一种基于对抗网络与关键帧的视频生成优化方法、装置及设备。

技术介绍

1、人脸视频图像是网络环境下的重要信息载体，因其具有获取方便、易获取等优点，已逐步成为一种主流的识别方式。由于获得人脸信息的传感器和途径的不同，说话人脸视频图像也呈现出多种多样的形式，可以利用可见光相机、红外相机等方法获得多模态的人脸图像。采用同样的装置和方法获得的人脸图像具有相同的通道，从而生成相似模态。说话人脸视频生成技术是将某种人脸图像转化为特定模态下的人脸图像，在公共安全、数字娱乐等领域有广阔的应用前景。因为人脸包括肤色、脸型、五官的形状、表情等多种复杂特征，所以如何在原始模式下最大程度地保持人脸特征，是生成说话人脸视频的关键。

2、为此，技术人员提出了利用四元数的人脸视频生成算法。通过孪生四元数u-net提取噪声指纹特征，基于噪声的指纹分类模块，完成面部检测，用逻辑回归与交叉熵损失函数对参量进行优化，实现人脸视频生成优化。但该方法中四元数以及孪生四元数u-net需要进行大量的计算，视频生成效率还需提升。

3、此外，有人提出了基于深度学习的人脸视频生成优化算法。通过全卷积网络的生成式对抗网络判别结构，以改善人脸的局部一致性。该算法采用u-net结构化的编码器作为输入，从多个层面上对信息进行处理。使用star-gan模型，引入示例规范化层，确保图像的独立性，完成人脸视频生成优化。但该方法中的深度学习模型需要调整大量的超参数，如学习率、批量大小、优化器选择等，如果这些超参数设置不当，可能会影响模

技术实现思路

1、基于此，有必要针对上述技术问题，提供一种基于对抗网络与关键帧的视频生成优化方法、装置及设备。

2、为了实现上述目的，本专利技术采用了如下技术方案：

3、第一方面，本申请提供了一种基于对抗网络与关键帧的视频生成优化方法，包括：

4、结合关键帧获取视频中执行目标动作的人脸图像，检测人脸图像中执行目标动作的人脸特征数据；

5、选取人脸特征数据中的超参量，基于标准正态分布建立随机特征矢量，确定判别器内部参量，生成执行目标动作的人脸视频；

6、基于真实视频与生成的人脸视频中已知区域之间的差异信息定义损失函数，并以损失函数最小化为目标，对执行目标动作的人脸视频进行优化，以修正差异信息，获得符合真实视频的优化结果。

7、优选的，所述获取视频中执行目标动作的人脸图像包括：基于预设时间，在预先采集的视频序列中选取一帧视频图像作为关键帧；

8、对关键帧中的视频图像进行人脸特征识别，获得包含人脸特征的图像，并捕捉图像中的人脸表情和动作，获得执行目标动作的人脸图像。

9、优选的，所述检测人脸图像中执行目标动作的人脸特征数据包括：

10、将执行目标动作的人脸图像输入预先建立的全卷积神经网络p-net模型，通过所述全卷积神经网络p-net模型中的人脸分类的交叉熵损失函数，计算人脸图像中包含人脸特征区域的可能性；

11、基于可能性分布情况，确定图像中的人脸区域；在人脸区域标注人脸候选窗对所述人脸候选窗进行调整，使得调整后的人脸候选窗中的人脸区域缩放到全卷积神经网络p-net模型检测的尺寸条件，剔除人脸候选窗重叠部分采用边框回归矢量对调整后人脸候选窗进一步筛选，获得目标人脸区域和相应的特征点位置；

12、计算人脸区域相应特征点位置与实际特征点坐标值之间的欧氏距离，以最小化欧氏距离为目标，确定特征点的中心损失值，并根据对应的中心损失值获得特征值的中心距离，更新惩罚函数，检测人脸特征信息。

13、进一步地，通过下式计算输入人脸图像i包含人脸特征区域的可能性：

14、

15、式中，pi为输入视频图像i是人脸的可能性，为输入视频图像的真实标记。

16、进一步地，通过下式计算相应的特征点位置与实际特征点坐标值之间的欧氏距离：

17、

18、式中，为网络预测坐标，为真实坐标；为回归损失；r为全部视频；

19、所述回归损失的计算如下式：

20、

21、式中，为预测的输入视频图像坐标，为真实输入视频图像坐标；

22、通过下式计算中心损失值：

23、

24、式中，χi为第i幅视频图像的人脸特征值，为视频图像所在特征值的中心。

25、优选的，所述基于标准正态分布建立随机特征矢量，确定判别器内部参量，生成执行目标动作的人脸视频包括：

26、构建密集卷积生成对抗网络；

27、所述密集卷积生成对抗网络包括一个生成器和一个判别器；所述生成器，用于生成接近真实数据分布的数据样本；

28、判别器，用于区分生成的数据样本与视频真实样本；

29、通过生成器对真实视频图像的随机特征矢量进行编码和计算，生成数据样本；

30、定义所述生成的数据样本与视频真实样本之间的误差函数，计算判别器内部参量，生成执行目标动作的人脸视频。

31、进一步地，所述通过生成器对真实视频图像的随机特征矢量进行编码和计算，生成数据样本包括：

32、设视频真实样本x，利用编码器对其进行编码，获得其均值μ、方差σ，基于标准正态分布建立随机特征矢量c；

33、设为生成器生成的数据样本，将输入判别器，获得输出结果为ζ∈[0,1]；

34、所述通过生成器处理随机特征矢量，如下式：

35、

36、式中，g(·)为生成函数，θg为生成器参量，通过判别器输入的视频数据特征，定义原视频为生成视频为x＝df(x,θf)。

37、进一步地，通过下式获得所述生成的执行目标动作的人脸视频：

38、

39、式中，d(x)为视频实际样本分布，为投射到生成器的噪声分布，由此获取判别器内部参量θd＝(θf,θc)；值越大，则表示生成网络拟合能力强，生成视频的清晰度高；

40、所述误差函数如下式：

41、

42、优选的，所述基于真实视频与生成的人脸视频中已知区域之间的差异信息定义损失函数包括：

43、基于生成的执行目标动本文档来自技高网...

【技术保护点】

1.一种基于对抗网络与关键帧的视频生成优化方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述获取视频中执行目标动作的人脸图像包括：基于预设时间，在预先采集的视频序列中选取一帧视频图像作为关键帧；

3.根据权利要求1所述的方法，其特征在于，所述检测人脸图像中执行目标动作的人脸特征数据包括：

4.根据权利要求3所述的方法，其特征在于，通过下式计算输入人脸图像i包含人脸特征区域的可能性：

5.根据权利要求4所述的方法，其特征在于，通过下式计算相应的特征点位置与实际特征点坐标值之间的欧氏距离：

6.根据权利要求1所述的方法，其特征在于，所述基于标准正态分布建立随机特征矢量，确定判别器内部参量，生成执行目标动作的人脸视频包括：

7.根据权利要求6所述的方法，其特征在于，所述通过生成器对真实视频图像的随机特征矢量进行编码和计算，生成数据样本包括：

8.根据权利要求6所述的方法，其特征在于，通过下式获得所述生成的执行目标动作的人脸视频：

9.根据权利要求1所述的方法，其特征在于

10.根据权利要求9所述的方法，其特征在于，所述损失函数通过下式确定：

11.一种基于对抗网络与关键帧的视频生成优化装置，其特征在于，包括：

12.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至10中任一项所述的方法的步骤。

...

【技术特征摘要】

1.一种基于对抗网络与关键帧的视频生成优化方法，其特征在于，包括：

3.根据权利要求1所述的方法，其特征在于，所述检测人脸图像中执行目标动作的人脸特征数据包括：

4.根据权利要求3所述的方法，其特征在于，通过下式计算输入人脸图像i包含人脸特征区域的可能性：

5.根据权利要求4所述的方法，其特征在于，通过下式计算相应的特征点位置与实际特征点坐标值之间的欧氏距离：

6.根据权利要求1所述的方法，其特征在于，所述基于标准正态分布建立随机特征矢量，确定判别器内部参量，生成执行目标动作的人脸视频包括...

【专利技术属性】
技术研发人员：季渊，虞雅淇，
申请(专利权)人：无锡唐古半导体有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人