一种基于视觉语言模型的生成式图像无监督检测方法技术

技术编号：42556018 阅读：28 留言：0更新日期：2024-08-29 00:27

本发明专利技术公开了一种基于视觉语言模型的生成式图像无监督检测方法，包括如下步骤：获取图像数据集；通过噪声指纹提取、频域特征提取和聚类算法，为未标记数据有效分配噪声标签，并利用预训练的视觉语言模型和对比学习策略，建立了一个高效的特征提取器；使用训练好的特征提取器提取待测试样本的高维度判别特征，并通过聚类算法将得到的判别特征归为两个聚类簇，通过计算余弦相似度判别真实图像和生成图像。该方法通过无监督学习，自始至终都不需要使用标记数据，克服了有监督学习依赖正确标记的大规模数据的问题。并通过预训练的视觉语言模型提升检测器的泛化性和鲁棒性。在检测不同生成模型生成的图像时展现了一定的泛化能力。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及图像数据处理，具体指一种基于视觉语言模型的生成式图像无监督检测方法。

技术介绍

1、近年来，生成对抗网络和扩散模型的快速发展，已经引起了大量的关注。恶意攻击者可能利用这些技术来生成逼真的假图像，甚至将这些不切实际的图像发布到社交网络平台，或者编造假新闻，以损害公众的可信度。尽管已经出现了一些可靠的取证方法来检测生成的假图像，然而当前的方法主要依赖于监督学习，这需要大量正确标记的样本。事实上，在现实世界中收集足够的标记数据通常既昂贵又费力，当面临数据标记错误等问题时，检测精度可能会急剧下降。当检测不同生成模型生成的伪造图像时，检测器的性能往往会大幅度下降。此外，当检测图像遭受后处理攻击时，检测器的性能也会在一定程度上下降。鉴于上述限制，本专利技术提出了一种无监督检测方法，自始至终都不需要使用标记数据，并通过预训练的视觉语言模型提升了检测器的泛化性能和鲁棒性能。

2、生成对抗网络是由一个生成器和一个判别器组成的，生成器生成图像，而判别器鉴别图像真伪，其原理是一个零和博弈的过程：生成器和判别器在对抗的过程中通过不断优化网络的参数来提高自身的能力，生成器最终生成判别器无法识别的图像。近年来，随着生成对抗网络的快速发展，各种方法如雨后春笋般涌现，如stargan、stylegan、stylegan2、stylegan3等等。其中stylegan、stylegan2、stylegan3可以生成高分辨率(1024×1024)和高质量的人脸图像，甚至可以欺骗人类。

3、最近，midjourney和stabl

4、现有的生成图像检测方法分为两类：基于空间域的方法和基于频率域的方法。基于空间域的方法主要依赖于生成图像与真实图像在成像原理上存在明显差异，由于生成模型的固有限制，生成的虚假图像在空间域中具有明显的伪造痕迹。如，基于颜色分量差异的检测方法；基于眼部高光不一致性的检测方法；基于色彩共生矩阵的检测方法等。基于频率域的方法主要依赖于上采样操作会在生成图像的频域中留下周期性的伪造痕迹。如，通过dct变换，将频域特征输入svm来训练检测器；通过将颜色通道频谱和胶囊网络相结合来检测生成图像；通过dct系数的首位数字分布来检测生成图像等。

5、但是，当前的生成图像检测器都依赖于监督学习机制。监督学习依赖含有正确标记的大规模数据，在现实世界中，收集足够的标记数据通常是昂贵和费力的。此外监督学习遭受泛化错误、虚假相关性和对抗性攻击的困扰。当面临数据标记错误等问题时，检测精度可能大幅度降低。虽然传统的自监督学习可以显著降低预训练数据的标注成本并实现良好的可扩展性，但它仍然需要使用正确标记的样本来对下游任务中的模型进行微调。

6、另外，由于图像生成技术的不断发展，训练能够完全拟合所有生成图像的特征分布的检测模型是不切实际的，这也导致检测模型的泛化能力较差。此外，当后处理操作出现时，检测器的鲁棒性往往会在一定程度上下降。此外，由于监督机制的局限性，当训练样本遭受标签翻转攻击时，检测器的泛化性和鲁棒性会进一步下降。

技术实现思路

1、本专利技术针对现有技术的不足，提出一种基于视觉语言模型的生成式图像无监督检测方法，通过无监督学习，自始至终都不需要使用标记数据，克服了有监督学习依赖正确标记的大规模数据的问题。并通过预训练的视觉语言模型提升检测器的泛化性和鲁棒性。在检测不同生成模型生成的图像时展现了一定的泛化能力。在jpeg压缩，裁剪、噪声添加等图像后处理操作下保持了较好的检测精度。在训练样本遭受标签翻转攻击时，本方法依旧能保持良好的检测性能。

2、为了解决上述技术问题，本专利技术的技术方案为：

3、一种基于视觉语言模型的生成式图像无监督检测方法，包括如下步骤：

4、步骤1、获取图像数据集；

5、步骤2、特征提取器训练

6、步骤2-1、噪声指纹提取，输入图像数据集使用去噪滤波器从图像中提取噪声指纹，其中噪声指纹提取方式如下：

7、r＝x-f(x)

8、其中x为输入的图像，f(·)为去噪滤波器。

9、步骤2-2、频域特征提取，首先使用离散傅里叶变换将得到的噪声指纹转换至频域中，随后将得到的频域矩阵展平以作为频域特征；

10、步骤2-3、噪声标签分配，通过聚类算法将提取的频域特征分成两个聚类簇，随后给两个聚类簇随机分配噪声标签(例如0簇样本和1簇样本，上述噪声标签用于区分不同的聚类簇)；

11、步骤2-4、将分配有噪声标签的聚类簇进行数据增广；

12、步骤2-5、特征提取器训练，使用预训练的视觉语言模型clip作为特征提取主干网络，将数据增广后的图像数据作为输入并通过对比损失函数进行训练，对比损失函数定义如下：

13、

14、其中集合i＝{1,...,2n}表示经过数据增广后得到的所有样本，i是集合i中的一个样本，集合p(i)＝{1,...,m}表示集合i中与i具有相同噪声标签的样本，集合a(i)＝{1,...,k}表示集合i中去除i后剩余的样本，h表示特征提取网络输出的特征，·表示内(点)积，τ表示温度参数。

15、步骤3、二元分类器

16、使用训练好的特征提取器提取待测试样本的高维度判别特征，并通过聚类算法将得到的判别特征归为两个聚类簇，通过计算余弦相似度判别真实图像和生成图像，余弦相似度计算方法为：

17、

18、其中(x，x′)表示同一聚类簇中的一对不同图像，分别对两个聚类簇所属样本计算余弦相似度，随后计算每个聚类簇的平均余弦相似度，将两个聚类簇的平均余弦相似度进行比较，具有较高平均余弦相似度的图像聚类簇被认为是生成图像，平均余弦相似度较低的图像聚类簇被认为是真实图像。

19、作为优选，所述步骤2-1中，噪声指纹提取的方法为：

20、r＝x-f(x)

21、其中x为输入的图像，f(·)为去噪滤波器。

22、作为优选，所述步骤2-2中，噪声指纹变换为频域矩阵的方法为：

23、

24、其中r代表大小为m×n的噪声指纹矩阵。u，v为频域矩阵的索引。

25、作为优选，所述数据增广的方法包括裁剪、水平翻转、垂直翻转、90度旋转、擦除、颜色抖动、直方图均衡、高斯模糊、jpeg压缩。

26、作为优选，所述步骤2-5中，特征提取器的训练方法为：首先将增广后的图像输入clip网络以获得高维度特征，随即对其进行归一化操作，然后通本文档来自技高网...

【技术保护点】

1.一种基于视觉语言模型的生成式图像无监督检测方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的一种基于视觉语言模型的生成式图像无监督检测方法，其特征在于，所述步骤2-1中，噪声指纹提取的方法为：

3.根据权利要求1所述的一种基于视觉语言模型的生成式图像无监督检测方法，其特征在于，所述步骤2-2中，噪声指纹变换为频域矩阵的方法为：

4.根据权利要求1所述的一种基于视觉语言模型的生成式图像无监督检测方法，其特征在于，所述数据增广的方法包括裁剪、水平翻转、垂直翻转、90度旋转、擦除、颜色抖动、直方图均衡、高斯模糊、JPEG压缩。

5.根据权利要求1所述的一种基于视觉语言模型的生成式图像无监督检测方法，其特征在于，所述步骤2-5中，特征提取器的训练方法为：首先将增广后的图像输入CLIP网络以获得高维度特征，随即对其进行归一化操作，然后通过投影头将其投影到低维空间，通过对比损失函数最小化具有相同噪声标签的样本之间的距离，同时最大化具有不同噪声标签的样本之间的距离，对比损失函数定义如下：

【技术特征摘要】

1.一种基于视觉语言模型的生成式图像无监督检测方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的一种基于视觉语言模型的生成式图像无监督检测方法，其特征在于，所述步骤2-1中，噪声指纹提取的方法为：

3.根据权利要求1所述的一种基于视觉语言模型的生成式图像无监督检测方法，其特征在于，所述步骤2-2中，噪声指纹变换为频域矩阵的方法为：

4.根据权利要求1所述的一种基于视觉语言模型的生成式图像无监督检测方法，其特征在于，所述数据增广...

【专利技术属性】
技术研发人员：乔通，邵杭，章国道，周晓飞，沈张一，
申请(专利权)人：杭州电子科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人