一种基于自信息增强对比学习的深度伪造人脸检测方法技术

技术编号：43244089 阅读：34 留言：0更新日期：2024-11-05 17:27

本发明专利技术公开了一种基于自信息增强对比学习的深度伪造人脸检测方法，包括：获取样本图像并进行数据增强生成两个视图；将两个视图输入至特征提取网络，利用多尺度特征增强模块、自信息增强学习模块分别对图像的浅层、中层、深层特征进行学习。所述多尺度特征增强模块用于提高网络的局部与全局特征建模能力；自信息增强学习模块利用自信息度量来量化生成人脸局部区域的自信息差异，突出高信息纹理与形状特征，并通过注意力机制来降低网络对特定伪造痕迹的关注；利用级联的Projector和Predictor架构，结合相互预测机制在高维空间中捕捉伪造模式与面部结构多样性的细微变化。最终利用二分类交叉熵损失函数和相互预测一致性损失函数来优化模型并进行真伪判别。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及深度伪造检测，主要涉及一种基于自信息增强对比学习的深度伪造人脸检测方法。

技术介绍

1、人工智能技术的巨大进步引入了能够轻松操纵的多媒体内容以及通过社交媒体平台便可传播虚假信息的开源算法deepfacelab、dfaker、avatarme和应用软件zao、fakeapp等。这些伪造内容的出现加剧了大众对信息安全的担忧。

2、深度伪造技术(deepfake)是基于深度学习模型来创建逼真人工合成内容的技术。

3、随着深度伪造技术的不断进步，肉眼很难辨别图像和视频中的人脸是否被篡改，因此，迫切需要一种能够有效检测多媒体内容中伪造人脸的技术——深度伪造人脸检测技术应运而生，它有助于保护社会免受虚假信息的影响，增强人脸识别和身份验证系统的安全性，防止虚假人脸图像被用于欺骗访问控制系统，此外，深度伪造人脸检测技术的研究也有助于推动法规和伦理框架的建立，明确技术的合法使用和滥用的边界。

4、深度伪造检测技术根据模型处理对象的不同，可以分为两种类别：一是针对图像层面的深度伪造检测；二是针对视频层面的深度伪造检测。其中，图像级的检测主要是通过识别单帧图像中的人脸部分，对比原始图像中的人脸信息来检测图像是否经过了深度伪造；视频级(video-level)的检测方法则主要针对连续的视频帧，对视频中的每一帧图像进行分析和处理，这类方法不仅要考虑单帧图像的检测准确性，还需要兼顾视频中各帧之间的时间连续性和帧间相关性。

5、然而，虽然许多深度伪造人脸检测方法能够在域内评估上取得相当亮眼的成绩，但

技术实现思路

1、本专利技术的主要目的在于克服现有技术的缺点与不足，提供一种基于自信息增强对比学习的深度伪造人脸检测方法。该方法利用自信息度量来评估人脸图像的任一局部区域是否与其相邻区域存在明显不同或者异常，并进一步统计这些区域所携带的局部自信息量；同时设计了自信息增强学习模块与对比学习范式来提高模型对不同伪造方法产生的伪造共性特征和普遍伪造模式的识别能力，以提高模型的泛化性与鲁棒性。

2、根据本专利技术的一方面，提出了一种基于自信息增强对比学习的深度伪造人脸检测方法，包括：

3、s1、对真实视频与伪造视频进行预处理得到仅包含人脸区域的图像，生成样本图像，利用图像增强模块对所述样本图像进行数据增强，随机生成两种不同数据增强方式的图像，分别为第一视图和第二视图；

4、s2、利用xception作为骨干网络对所述第一视图和所述第二视图进行特征提取，并通过多尺度特征增强模块对浅层特征进行学习，获取多尺度增强特征，将所述多尺度增强特征经过自信息度量计算，获得自信息特征图；

5、s3、在所述骨干网络的浅层和中层分别插入自信息增强学习模块，所述自信息特征图经过自信息增强学习模块输出自信息增强特征，利用所述骨干网络的深层网络对所述自信息增强特征进行编码，输出编码特征和，将所述编码特征和进行拼接，获得最终编码特征；

6、s4、利用级联的projector和predictor将所述编码特征和映射至高维空间，分别得到所述第一视图的高维特征向量和，以及所述第二视图的高维特征向量和，分别拉近和、和的距离，形成相互预测机制；

7、s5、利用两个不同的分支进行模型优化训练，第一分支通过池化层和全连接层获得一个预测结果，利用所述预测结果判断真伪，并以交叉熵损失函数进行优化；第二分支引入一致性损失函数来最大化所述第一视图和所述第二视图之间的特征表示相似性；利用所述交叉熵损失函数和所述一致性损失函数共同训练，得到训练好的深度伪造人脸检测模型。

8、进一步的，所述预处理得到仅包含人脸区域的图像，生成样本图像具体包括：对真实视频与伪造视频使用mtcnn人脸检测器检测人脸，对人脸区域进行裁剪并预处理为299×299×3的尺寸。

9、获得仅包含人脸区域的图像可减少模型预测的干扰，提高后续处理的准确性和效率。

10、将图像预处理为299×299的尺寸可以满足模型训练时对输入数据的格式要求；并且，确保图像具有3个通道(rgb)，以便与模型的输入要求一致。

11、进一步的，所述图像增强模块对所述样本图像进行数据增强，数据增强方法包括：随机patch、随机翻转、随机裁剪、高斯模糊、随机遮挡、颜色变化、频域增强，每张输入图像将随机选取其中两种图像变换方式。

12、进一步的，利用所述频域增强进行图像处理的步骤包括：

13、s1.1、利用离散余弦变化将第一视图和第二视图转换至频域，得到对应的频谱图；

14、s1.2、利用可学习滤波器自适应地获取分别包含低频、中频、高频成分的频域图像；

15、s1.3、沿通道维度将得到的不同频谱成分的频谱图进行拼接；

16、s1.4、利用反离散余弦变换将拼接后频谱图转回空间域，分别得到经过频域处理的第一视图和第二视图频率信息增强后的图像。

17、频谱增强通过将图像从空间域转换到频域，可以捕获图像的全局信息，增强模型的鲁棒性和泛化能力，减少过拟合，并提高模型对噪声的抵抗能力。通过频域变换，模型可以学习到更多类型的图像特征，从而在各种任务中表现更好。

18、进一步的，所述离散余弦变化计算公式具体如下：

19、

20、

21、其中，f(u,v)表示反离散余弦变换的系数，即表示原始图像，n表示原始图像的点数，c(v)表示补偿系数，c(u)表示归一化系数，i表示图像像素点的横坐标，j表示图像像素点的纵坐标，u表示频域图像的横坐标，v表示频域图像的纵坐标；所述反离散余弦变换计算公式具体如下：

22、

23、其中，f(i,j)表示转回空间域后的图像，即表示原始图像。

24、离散余弦变换(dct)和反离散余弦变换(idct)在图像处理和压缩中具有重要意义。dct将图像从空间域转换到频域，有助于去除冗余、能量集中和频域滤波。idct则将频域表示的图像转换回空间域，用于图像解压和频域处理后的重建。通过这些变换，可以有效提高图像处理的效率和质量。

25、进一步的，所述频域增强的数据增强方式的具体公式表示如下：

26、

27、其中，concat表示沿通道维度进行拼接特征图，d表示离散余弦变换，表示反离散余弦变换，表示滤波，表示低频、中频、高频滤波，表示第一视图或第二视图。

28、进一步的，所述xception作为骨干网络进行特征提取的具体本文档来自技高网...

【技术保护点】

1.一种基于自信息增强对比学习的深度伪造人脸检测方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的深度伪造人脸检测方法，其特征在于：所述预处理得到仅包含人脸区域的图像，生成样本图像具体包括：对真实视频与伪造视频使用MTCNN人脸检测器检测人脸，对人脸区域进行裁剪并预处理为299×299×3的尺寸，其中，299×299表示图像像素大小，3表示图像RGB的3个通道。

3.根据权利要求1所述的深度伪造人脸检测方法，其特征在于：所述图像增强模块对所述样本图像进行数据增强，数据增强方法包括：随机Patch、随机翻转、随机裁剪、高斯模糊、随机遮挡、颜色变化、频域增强，每张输入图像将随机选取其中两种数据增强方式。

4.根据权利要求3所述的深度伪造人脸检测方法，其特征在于：利用所述频域增强进行图像处理的步骤包括：

5.根据权利要求4所述的深度伪造人脸检测方法，其特征在于：所述离散余弦变化的计算公式具体如下：

6.根据权利要求4所述的深度伪造人脸检测方法，其特征在于：所述频域增强的数据增强方式的具体公式表示如下：

8.根据权利要求1所述的深度伪造人脸检测方法，其特征在于，所述多尺度特征增强模块由级联的1×1conv、3×3conv和5×5conv组成，输出的多尺度增强特征的公式表示如下：

9.根据权利要求1所述的深度伪造人脸检测方法，其特征在于，所述自信息度量计算的具体步骤为：通过高斯核函数的当前像素与其邻域的联合分布来生成近似人脸产生的局部异常，并分别从空间维度和通道维度来搜索局部感受野区域进行自信息度量，其中所述空间维度的自信息度量与所述通道维度的自信息度量的公式表示分别为：

10.根据权利要求1所述的深度伪造人脸检测方法，其特征在于，所述自信息增强学习模块包含自信息度量过程与自信息增强注意力计算，所述自信息增强学习模块接收双流输入，其中一个输入分支为网络上一层的输出特征图，另一个输入分支为经过自信息度量后的特征图，其中，所述自信息度量过程具体步骤包括：

11.根据权利要求10所述的深度伪造人脸检测方法，其特征在于，所述自信息增强学习模块将被插入至骨干网络的中、深层结构来指导网络进行特征学习，且所述自信息增强学习模块同时输出两种类型的特征图：一个是经过自信息度量输出的自信息特征图，所述自信息特征图将作为下一个自信息增强学习模块的输入；另一个则是自信息增强特征图，所述自信息增强特征图将被输入至网络的下一层进行特征计算。

12.根据权利要求1所述的深度伪造人脸检测方法，其特征在于，所述第一视图的编码特征和第二视图的编码特征，以及最终编码特征的公式具体表示如下：

13.根据权利要求1所述的深度伪造人脸检测方法，其特征在于，所述第一视图的高维特征向量和以及第二视图的高维特征向量和分别表示为：

14.根据权利要求1所述的深度伪造人脸检测方法，其特征在于，所述交叉熵损失函数具体公式表示如下：

15.一种计算机程序产品，其特征在于，其上存储有计算机程序，所述计算机程序在被处理器执行时实施如权利要求1-14中任一项所述的方法。

16.一种计算系统，其特征在于，包括处理器和存储器，所述处理器被配置为执行如权利要求1-14中任一项所述的方法。

...

【技术特征摘要】

1.一种基于自信息增强对比学习的深度伪造人脸检测方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的深度伪造人脸检测方法，其特征在于：所述预处理得到仅包含人脸区域的图像，生成样本图像具体包括：对真实视频与伪造视频使用mtcnn人脸检测器检测人脸，对人脸区域进行裁剪并预处理为299×299×3的尺寸，其中，299×299表示图像像素大小，3表示图像rgb的3个通道。

3.根据权利要求1所述的深度伪造人脸检测方法，其特征在于：所述图像增强模块对所述样本图像进行数据增强，数据增强方法包括：随机patch、随机翻转、随机裁剪、高斯模糊、随机遮挡、颜色变化、频域增强，每张输入图像将随机选取其中两种数据增强方式。

4.根据权利要求3所述的深度伪造人脸检测方法，其特征在于：利用所述频域增强进行图像处理的步骤包括：

5.根据权利要求4所述的深度伪造人脸检测方法，其特征在于：所述离散余弦变化的计算公式具体如下：

6.根据权利要求4所述的深度伪造人脸检测方法，其特征在于：所述频域增强的数据增强方式的具体公式表示如下：

7.根据权利要求1所述的深度伪造人脸检测方法，其特征在于：所述xception作为骨干网络进行特征提取的具体包括：包含三个separable conv层+relu层的浅层特征提取，包含十二个xception网络的block模块的中层特征提取，以及包含两个separable conv层+relu层和一个pooling层的深层特征提取。

9.根据权利要求1所述的深度伪造人脸检测方法，其特征在于，所述...

【专利技术属性】
技术研发人员：何一凡，罗志明，田程，李绍滋，詹东晖，于金喜，
申请(专利权)人：厦门瑞为信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人