基于多域视觉语言重建的扩散伪造人脸检测和定位方法技术

技术编号：43830983 阅读：14 留言：0更新日期：2024-12-31 18:30

本发明专利技术涉及伪造人脸检测方法技术领域，尤其涉及一种基于多域视觉语言重建的扩散伪造人脸检测和定位方法。首先对一张扩散伪造人脸图像进行空间信息学习分别提取局部与全局空间图像特征，并对该图像对应的细粒度文本提示学习提取全局语言表示，然后利用局部空间特征重建图像来增强空间表示并获得残差图像，对残差图像进行学习提取残差特征，然后将图像特征与残差特征结合获得视觉操纵特征，将全局语言表示进行重建来强化语言表示，最后将语言特征与视觉特征结合来学习扩散伪造人脸的多模态表示，在推断阶段，对扩散伪造人脸利用模型学习到视觉操纵特征来实现扩散伪造人脸检测和定位。本方法可以提高伪造检测与定位效率和跨模态检测能力。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及伪造人脸检测方法，尤其涉及一种基于多域视觉语言重建的扩散伪造人脸检测和定位方法。

技术介绍

1、扩散伪造人脸是利用最新的基于扩散模型的深度学习技术生成极度逼真的虚假人脸图像或视频，目前为止，已经有大量人类肉眼无法辨别真假的扩散伪造人脸视频在网上流传，极大损害个人名誉，威胁社会稳定；

2、目前人脸伪造检测和定位模型利用图像模态在空间和频域中捕获人脸伪造模式方面取得了巨大进展，但细粒度类别感知文本等其他模态尚未得到全面研究，这限制了模型的泛化能力，此外，当前人脸伪造检测和定位方法倾向于分析由 gan 创建的面部图像，但难以识别和定位基于扩散模型合成的面部图像。

3、因此，本专利技术提供一种基于多域视觉语言重建的扩散伪造人脸检测和定位方法。

技术实现思路

1、本专利技术针对现有技术的不足，研制一种基于多域视觉语言重建的扩散伪造人脸检测和定位方法，主要目的在于提高伪造检测与定位效率和跨模态检测能力。

2、本专利技术解决技术问题的技术方案为一种基于多域视觉语言重建的扩散伪造人脸检测和定位方法，具体步骤如下：

3、s1、构建分层细粒度人脸数据集，数据集中包含若干张人脸图像，每张人脸图像有对应的细粒度类感知文本和真实掩模图像，对人脸图像、对应的细粒度类感知文本和真实掩模图像分别进行预处理，得到预处理后的人脸图像、对应的细粒度类感知文本张量和真实掩膜图像张量；

4、s2、利用多域视觉编码器模块分别得到人脸图像局部特征与全局图像残差融合的视觉操纵特征；

5、s3、将多域视觉编码器模块提取的人脸的局部图像特征分别输入至视觉解码器模块和掩膜解码器模块中，分别得到预测人脸外观图像与预测掩膜图像；

6、s4、在文本张量加入位置信息后输入至语言编码器中，在文本张量的基础上得到新的文本张量后计入位置信息，再输入至语言解码器中，得到该文本的细粒度类语言特征、细粒度源语言特征与预测的目标语言特征；

7、s5、将步骤s2得到的人脸全局图像残差视觉操纵特征分别输入到适应器与多层感知机中，分别得到预测语言特征和预测图像类别特征；

8、s6、将步骤s3得到的预测人脸外观图像与人脸图像的张量利用外观重建损失函数优化，将步骤s3得到的预测掩膜图像与真实掩膜图像的张量利用操纵定位损失函数优化，将步骤s4得到的细粒度类语言特征与步骤s2得到的全局图像残差融合的视觉操纵特征和步骤s5得到的预测语言特征分别利用跨模态对比损失函数与散度损失函数优化，将s5得到的预测图像类别特征与真实图像标签利用操纵检测损失函数优化，将文本的预测标签向量与文本中单词的真实标签利用语言重建损失函数优化，对适应器和多层感知机的训练，得到多域细粒度视觉语言重建模型；

9、s7、利用训练好的模型中的多域视觉编码器与视觉解码器及多层感知机对人脸图像进行二分类真假检测，并生成预测掩模图像来对操纵定位。

10、s1具体如下：

11、s1.1、将分层细粒度人脸数据集里的每张人脸图像的宽×高调整，利用均值为[0.4718,0.3467,0.3154]、方差为 [0.1656,0.1432,0.1364]的维度对人脸图像进行归一化，两组数据中三个数值分别对应人脸图像的rgb通道中红色、绿色、蓝色通道的均值和方差，将归一化后的人脸图像封装为的张量，表示向量空间，表示分层细粒度人脸数据集中任意一张人脸图像的张量，3表示人脸图像张量的通道数为3，人脸图像对应的标签记作或，表示每批次图像的个数，0表示真图像，1表示假图像；

12、s1.2、通过分词器对人脸图像对应的细粒度类感知文本进行处理，得到词标记序列，并利用词嵌入层将词标记映射为词嵌入张量，表示每批次文本的个数，表示词标记的个数，表示词嵌入的特征维度；

13、s1.3、将真实掩膜图像封装为的张量，表示每批次图像的个数。

14、s2具体如下：

15、s2.1、构建多域视觉编码器模块，多域视觉编码器模块包括一个编码器和一个图像编码器，其中图像编码器由个连续的模块组成，每个模块由多头自注意力模块和模块组成，多头自注意力模块和模块的上一层均为层，下一层均为残差层；

16、s2.2、将人脸图像的张量输入至多域视觉编码器模块，首先经过编码器，输出维度为的人脸图像局部特征图，具体过程如下：

17、，

18、其中，，表示编码器的参数,表示人脸图像局部特征图的通道数，表示人脸图像局部特征图的高，表示人脸图像局部特征图的宽；

19、s2.3、将人脸图像局部特征图沿着通道利用库里的重塑函数拉平为二维图像块序列，，表示补丁的数量，,表示第个二维图像块,表示二维图像块大小；

20、计算带有位置信息的二维图像块序列，具体计算如下：

21、，

22、其中，表示自动生成的可学习的类张量，表示映射隐向量，，表示映射隐向量维度，维度等于维数，，表示第个二维图像块的映射隐向量，表示自动生成的二维图像块序列的位置，；

23、s2.4、将输入至图像编码器中，首先经过第一层模块，在第一层模块中依次经过多头自注意力模块和模块，最后第一层模块输出，表示第一层的二维空间特征图，具体过程如下：

24、首先经过归一化操作后被输入至第一层多头自注意力模块进行全局多头注意力计算，再经过残差层得到二维全局空间特征，将再进行归一化操作后输入至第一层模块，再经过残差层后，最终得到第一层模块的输出，计算过程如下：

25、，

26、，

27、其中，表示归一化层的操作，表示多头自注意力模块的操作，表示模块的操作；

28、然后将第一层模块的输出作为第二层模块的输入，将第二层模块的输出作为第三层模块的输入，多次迭代后直至得到第层模块的输出，表示第层的二维空间特征图；

29、s2.5、将输入外观解码器模块得到预测人脸外观图像，计算过程如下：

30、，

31、其中，表示预测人脸外观图像，，表示外观解码器ad的参数；

32、在通过残差生成模块得到残差图像，计算过程如下：

33、，

34、其中，表示残差图像，表示输入的人脸图像，；

35、s2.6、建立与图像编码器结构相同且参数共享的残差编码器，将残差图像输入残差编码器得到全局残差图像特征，计算过程如下：

36、，

37、其中，表示全局残差图像特征，，表示残差编码器的参数；

38、将和进行融合再经过操作得到全局图像残差融合的视觉操纵特征，具体过程如下：

39、,

40、其中，，表示重塑操作。

41、s3具体如下：

42、s3.1、构建一个视觉解码器模块，视觉解码器模块包括unet解码器和外观重建层，外观重建层包括一个卷积上采样层；构建一个掩膜解码器模块，掩膜解码器模块包括unet解本文档来自技高网...

【技术保护点】

1.基于多域视觉语言重建的扩散伪造人脸检测和定位方法，其特征是，包括以下步骤：

2.根据权利要求1所述的基于多域视觉语言重建的扩散伪造人脸检测和定位方法，其特征是，S1具体如下：

3.根据权利要求2所述的基于多域视觉语言重建的扩散伪造人脸检测和定位方法，其特征是，S2具体如下：

4.根据权利要求3所述的基于多域视觉语言重建的扩散伪造人脸检测和定位方法，其特征是，S3具体如下：

5.根据权利要求4所述的基于多域视觉语言重建的扩散伪造人脸检测和定位方法，其特征是，S4具体如下：

6.根据权利要求5所述的基于多域视觉语言重建的扩散伪造人脸检测和定位方法，其特征是，S5具体如下：

7.根据权利要求6所述的基于多域视觉语言重建的扩散伪造人脸检测和定位方法，其特征是，S6具体如下：

8.根据权利要求7所述的基于多域视觉语言重建的扩散伪造人脸检测和定位方法，其特征是，S7具体如下：

【技术特征摘要】

1.基于多域视觉语言重建的扩散伪造人脸检测和定位方法，其特征是，包括以下步骤：

2.根据权利要求1所述的基于多域视觉语言重建的扩散伪造人脸检测和定位方法，其特征是，s1具体如下：

3.根据权利要求2所述的基于多域视觉语言重建的扩散伪造人脸检测和定位方法，其特征是，s2具体如下：

4.根据权利要求3所述的基于多域视觉语言重建的扩散伪造人脸检测和定位方法，其特征是，s3具体如下：

5....

【专利技术属性】
技术研发人员：高赞，张亚宁，马春杰，赵一博，史芙蓉，袁立明，
申请(专利权)人：齐鲁工业大学山东省科学院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人