一种基于VAE-GAN框架的多模态人脸识别与原型重建方法技术

技术编号：42707760 阅读：1 留言：0更新日期：2024-09-13 12:00

本发明专利技术涉及数据处理技术领域，特别涉及一种基于VAE‑GAN框架的多模态人脸识别与原型重建方法，旨在解决多模态情况下的人脸识别问题，其中注册人脸来自域A，而待检索目标人脸可能涵盖域A、域B和域C。同时，该方法具备多模态人脸原型重建功能，即接受“污染”人脸数据(来自域A、域B和域C)，并能够根据需求重建其在特定域(域A、域B或域C)中的脸部原型图像。本发明专利技术可提升人脸识别系统的安全性和适用范围。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及数据处理，特别涉及一种基于vae-gan框架的多模态人脸识别与原型重建方法。

技术介绍

1、人脸识别系统已经在现实生活中被广泛应用，然而，它仍然面临两个主要的挑战：

2、①注册人脸照片与待检索目标人脸照片可能属于不同的模态(域)。例如，注册人脸照片可能是通过可见光摄像头拍摄的高分辨率图像，而待检索人脸图片可能来自不同的域，例如红外域(红外摄像头所拍摄的近红外图片)或者素描域，由于不同模态(域)的图片存在巨大差异，因此这种跨模态人脸识别的情况会显著增加系统的识别和匹配难度，导致识别准确率的降低。目前，虽然有一些先进的解决方案能够处理双模态异质人脸识别(即系统能够同时处理两种不同模态的人脸图像，如可见光和红外光)，但却无法处理更复杂的多模态情况(即系统需要同时处理多种不同模态的人脸图像，如可见光、红外光、素描等不同的数据类型)。

3、②在某些场景下，待检索的目标人脸照片可能存在表情变化(微笑、张嘴等)、姿态变化(侧脸、俯视等)、光照变化(亮度、对比度等)、遮挡变化(戴眼镜、口罩等)，这些因素会影响系统对人脸特征的提取和匹配，从而降低人脸识别的准确率。

4、变分自编码器(variational autoencoder，vae)是一种深度学习模型，包含编码器和解码器两个主要部分。编码器将输入数据映射到潜在空间中的概率分布，解码器则将潜在空间的样本解码为原始数据。vae旨在学习数据的概率分布，实现有效的数据生成和样本插值。表征解耦是vae模型的一个重要功能，通过将输入数据映射到潜在空间，并

5、生成对抗网络(gan)是一种深度学习模型，由生成器(generator)和判别器(discriminator)两个网络组成。生成器负责生成数据样本，而判别器则负责区分生成的样本和真实数据。gan的核心思想是通过对抗训练，让生成器不断生成逼真的样本，同时让判别器不断提高辨别真实和生成样本的能力。在训练过程中，生成器和判别器相互竞争，通过优化目标的最小最大化来达到平衡。最终，生成器生成的样本会越来越接近真实数据分布，而判别器将无法准确地区分生成样本和真实样本。gan的核心思想是通过生成器和判别器的对抗学习，使得生成器能够学习到目标数据分布的结构，从而实现高质量目标分布数据的生成。

6、基于此，本专利技术提出一种多模态人脸识别和原型重建的方法，利用vae-gan框架的表征解耦能力，将多种不同模态的人脸图像映射到一个共享的潜在空间，解耦出与模态无关的身份特征。

技术实现思路

1、针对现有技术中的上述不足，本专利技术提供了一种基于vae-gan框架的多模态人脸识别与原型重建方法，旨在解决多模态情况下的人脸识别问题，其中注册人脸来自域a，而待检索目标人脸可能涵盖域a、域b和域c。同时，该方法具备多模态人脸原型重建功能，即接受“污染”人脸数据(来自域a、域b和域c)，并能够根据需求重建其在特定域(域a、域b或域c)中的脸部原型图像。

2、一种基于vae-gan框架的多模态人脸识别与原型重建方法，包括以下步骤：

3、s1、模型训练集准备：

4、假设一个训练集包含来自域a、域b和域c的n个身份类别样本；每张图片x在训练集中被标记为其中表示x的域信息标签，表示图片x属于域a，即x～pdataa，同理值为2或3分别表示属于域b、域c；表示x的身份标签，而表示图片x是否存在面部变化，表示存在面部变化，表示图片x不存在面部变化即为正常人脸图片；随后，根据的值从训练数据集中挑选那些未带有面部变化的人脸样本构建原型库，原型库中的图片记为xrp，其中表示xrp的域信息标签，表示xrp的身份标签，表示xrp是否带有面部变化；

5、s2、模型结构：

6、s2.1、生成器g：g由一个编码器genc和一个解码器gdec组成；genc负责从输入x中解耦出与模态无关的身份特征信息px；gdec接收px和控制掩码v，将其拼接后作为输入，然后生成与v中控制信息相符合的输出xv；

7、s2.2、判别器d和特征向量域分类器dc：d包括三个子判别器dgan、ddom和dvar；dgan是一个与gan相关的子判别器，用于区分真实原型和生成的原型；ddom是一个域信息相关的子判别器，用于推断输入图片所属的域；dvar用于检测输入图片是否存在变化；特征向量域分类器dc用于进一步去除genc所解耦的身份特征信息px中可能存在的域信息，dc接收px作为输入，并输出其所预测的域；

8、s3、模型训练：

9、s3.1、阶段1：提取与模态无关的身份特征信息px；首先将人脸图片x输入到genc从中解耦出身份特征信息px＝genc(x)，并将px输入到特征向量域分类器dc中，dc的目标是预测域代码，即所以dc的目标函数如下：

10、

11、其中pre为dc所预测的域代码，为人脸图片x的域代码，p是域pre上的概率分布；

12、相比之下编码器genc则旨在混淆dc正确预测域代码；

13、s3.2、阶段2：重构学习保持生成原型的身份特征信息；解码器gdec学习通过解码以原始属性掩码vp为条件的px来重建输入人脸图像x，即其中vp与控制掩码v一样，也是用来控制解码器gdec生成的图像内容，vp值由和确定；重构学习保持生成原型的身份特征信息在于其与后续的原型学习共用解码器gdec，这会使得在后续原型学习生成原型的过程中也能保持输入图像x中的特征信息；重构学习的目标函数如下：

14、

15、s3.3、阶段3：原型学习生成指定域人脸原型；在这个阶段中生成器g和判别器d进行对抗性训练，通过相互竞争来提升彼此的性能；使得生成器能够进行多模态人脸原型重构；对于判别器d＝[dgan，ddom，dvar],它有三个训练目标：

16、1)给定的生成器g所生成的虚假原型和原型库中的真实原型xrp,dgan期望将归类为虚假原型，同时将xrp归类为真实原型，因此dgan的目标函数如下：

17、

18、2)给定某个域的真实原型图片xrp，ddom期望正确预测其域信息标签因此ddom的目标函数如下：

19、

20、其中pdom为ddom所预测的域代码；

21、3)给定输入图片x,dvar期待正确预测其标签，判断人脸图片是否存在变化；因此dvar的目标函数如下：

22、

23、所以判别器d的最终目标函数如下：

24、

25本文档来自技高网...

【技术保护点】

1.一种基于VAE-GAN框架的多模态人脸识别与原型重建方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于VAE-GAN框架的多模态人脸识别与原型重建方法，其特征在于：步骤S1中，面部变化包括表情、姿态或遮挡；原型库中的标签值均为0。

3.根据权利要求1所述的一种基于VAE-GAN框架的多模态人脸识别与原型重建方法，其特征在于：步骤S2中，控制掩码v用于控制原型学习和指定域转换，v由4位独热编码的向量组成，其中第一位用于控制是否进行原型学习，后三位用于控制指定域信息。

4.根据权利要求3所述的一种基于VAE-GAN框架的多模态人脸识别与原型重建方法，其特征在于：步骤S3.3中，使Ddom将的域标签预测为与控制掩码v所指定的域标签相同，即v中后三位所指定的域信息标签；α1和α2初值为0，终值为1，随着训练步数逐渐增大。

【技术特征摘要】

1.一种基于vae-gan框架的多模态人脸识别与原型重建方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于vae-gan框架的多模态人脸识别与原型重建方法，其特征在于：步骤s1中，面部变化包括表情、姿态或遮挡；原型库中的标签值均为0。

3.根据权利要求1所述的一种基于vae-gan框架的多模态人脸识别与原型重建方法，其特征在于：步骤s2中，控制掩码...

【专利技术属性】
技术研发人员：庞孟，张文俊，肖敏华，伍军云，丁峰，
申请(专利权)人：南昌大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人