一种基于多线索的双流视频人脸伪造检测方法及系统技术方案

技术编号:33726041 阅读:16 留言:0更新日期:2022-06-08 21:20
本发明专利技术提供一种基于多线索的双流视频人脸伪造检测方法及系统,包括:将待检测视频流输入至预先训练好的多线索视频伪造检测模型,得到人脸真假分类检测结果;该检测模型是基于EfficientNet

【技术实现步骤摘要】
一种基于多线索的双流视频人脸伪造检测方法及系统


[0001]本专利技术涉及计算机视觉
,尤其涉及一种基于多线索的双流视频人脸伪造检测方法及系统。

技术介绍

[0002]随着视频技术的蓬勃发展,视频自动生成内容的水平取得了显著的提高。依托文本、语音、图像、视频等载体,视频自动生成技术被广泛地用于模仿和伪造人类的想法、行为和特征,这在一定程度上降低了人力等成本的消耗,为人们的生活带来了便利和精神享受,视频自动生成技术所带来的仿真数据和虚拟化内容一定程度上可以为一些垂直领域带来新的应用场景或者直接推动该领域的技术进步。然而事物具有两面性,科技发展也存在着“双刃剑”效应。人们在享受人脸技术带来便利体验的同时,也不可避免地受到人脸技术滥用所带来的风险和隐患。随着AI换脸、自动美颜、智能P图等技术和应用的流行,由视频自动生成技术引发的安全风险问题也与日俱增,尤其是人脸相关技术,作为AI技术落地最为广泛的场景之一,所面临安全挑战愈发严重。
[0003]相应地,为防止上述问题的过度泛滥,通常采用视频伪造检测模型进行视频中人脸图像的真假识别,现有的视频伪造检测模型侧重于挖掘伪造过程中产生的特定伪影,例如颜色空间和形状线索,许多深度学习方法利用深度神经网络从空间领域提取高级语义信息,然后对给定的图像或视频进行分类。然而有些方法则是把图像从空间域转化到频域,捕获一些对于伪造检测有用的信息,采用一组固定的滤波器提取不同范围的频率信息,然后采用全连接层得到分类结果;利用DFT变换提取频域信息,并对不同频带的幅值取平均;还有一些方法是提取统计特征,捕捉空间纹理和变换域系数分布的特征。
[0004]另外,大多数视频伪造检测模型的泛化性较低,主要原因有三点:一是难以捕捉通用的伪影线索以及数据集在数量和质量上的局限性;二是无法为特定的特征提取选择适合的网络模型;三是无法充分有效地利用提取到的特征。
[0005]然而上述方法都局限于在特定的线索和特定的模型设计之上,难以满足视频伪造检测的通用性需求。

技术实现思路

[0006]本专利技术提供一种基于多线索的双流视频人脸伪造检测方法及系统,用以解决现有技术中在区分视频中伪造人脸时使用的线索过于单一,以及分类模型的泛化性低的缺陷。
[0007]第一方面,本专利技术提供一种基于多线索的双流视频人脸伪造检测方法,包括:
[0008]确定待检测视频流;
[0009]将所述待检测视频流输入至预先训练好的多线索视频伪造检测模型,得到人脸真假分类检测结果;其中,所述多线索视频伪造检测模型是基于EfficientNet

B5网络和Swin Transformer网络并行交互融合形成多线索,对伪造视频训练数据集进行训练所得到的。
[0010]根据本专利技术提供的一种基于多线索的双流视频人脸伪造检测方法,所述多线索视
频伪造检测模型,通过以下步骤得到:
[0011]获取所述伪造视频训练数据集,对所述伪造视频训练数据集进行预处理,得到人脸高频特征分量、人脸CrCb特征分量和人脸光流特征分量;
[0012]将所述人脸高频特征分量和所述人脸CrCb特征分量融合后输入所述EfficientNet

B5网络,获得高频及纹理特征图;
[0013]将所述人脸光流特征分量输入所述Swin Transformer网络的第一预设阶段,获得补丁嵌入;
[0014]将所述高频及纹理特征图及所述补丁嵌入进行连接,得到所有帧特征,将所述所有帧特征依次输入至所述Swin Transformer网络的第二预设阶段、线性层和softmax层,得到所述多线索视频伪造检测模型。
[0015]根据本专利技术提供的一种基于多线索的双流视频人脸伪造检测方法,所述获取所述伪造视频训练数据集,对所述伪造视频训练数据集进行预处理,得到人脸高频特征分量、人脸CrCb特征分量和人脸光流特征分量,包括:
[0016]提取所述伪造视频训练数据集中的帧,基于多任务级联卷积网络MTCNN检测每一帧中的原始人脸图像,将所述原始人脸图像调整为预设像素大小,并归一化为零均值和单位方差的人脸图像;
[0017]基于离散余弦变换DCT将任一帧中的所述人脸图像从空间域转换至频域,采用预设高通滤波器提取所述频域中高频分量,得到所述人脸高频特征分量;
[0018]将所述任一帧中的所述人脸图像从RGB空间域转换至YCrCb空间域,去除亮度通道,得到所述人脸CrCb特征分量;
[0019]将所述高频分量图像与所述CrCb通道图像合并得到预设三维像素大小特征张量;
[0020]基于PWC

Net光流估计算法提取所述任一帧中的所述人脸图像中的光流特征,得到所述人脸光流特征分量。
[0021]根据本专利技术提供的一种基于多线索的双流视频人脸伪造检测方法,所述将所述人脸高频特征分量和所述人脸CrCb特征分量融合后输入所述EfficientNet

B5网络,获得高频及纹理特征图,包括:
[0022]将所述人脸高频特征分量和所述人脸CrCb特征分量合并,获得预设三维像素大小的特征张量;
[0023]将所述特征张量输入至所述EfficientNet

B5网络,并基于组合损失函数进行精度调整,得到所述高频及纹理特征图;
[0024]其中,在所述EfficientNet

B5网络的MBConv层间插入注意力模块,以获取所述高频及纹理特征图中的伪影信息。
[0025]根据本专利技术提供的一种基于多线索的双流视频人脸伪造检测方法,所述将所述特征张量输入至所述EfficientNet

B5网络,并基于组合损失函数进行精度调整,得到所述高频及纹理特征图,包括:
[0026]获取softmax损失函数、ArcFace损失函数和SCL损失函数,确定第一权重和第二权重;
[0027]将所述softmax损失函数,所述ArcFace损失函数和所述第一权重之积,以及SCL损失函数和所述第二权重之积进行求和,得到所述组合损失函数;
[0028]基于所述组合损失函数调整所述输入至所述EfficientNet

B5网络中的所述特征张量,得到所述高频及纹理特征图。
[0029]根据本专利技术提供的一种基于多线索的双流视频人脸伪造检测方法,所述将所述人脸光流特征分量输入所述Swin Transformer网络的第一预设阶段,获得补丁嵌入,包括:
[0030]基于PWC

Net光流估计算法提取任一帧的当前帧光流和下一帧光流,将所述当前帧光流和所述下一帧光流作为所述任一帧的光流图;
[0031]将所述任一帧的光流图输入至所述Swin Transformer网络的第一预设阶段,得到中间层的补丁嵌入;
[0032]采用特征交互模块,对所述中间层的补丁嵌入进行大小补齐,使所述中间层的补丁嵌本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多线索的双流视频人脸伪造检测方法,其特征在于,包括:确定待检测视频流;将所述待检测视频流输入至预先训练好的多线索视频伪造检测模型,得到人脸真假分类检测结果;其中,所述多线索视频伪造检测模型是基于EfficientNet

B5网络和Swin Transformer网络并行交互融合形成多线索,对伪造视频训练数据集进行训练所得到的。2.根据权利要求1所述的基于多线索的双流视频人脸伪造检测方法,其特征在于,所述多线索视频伪造检测模型,通过以下步骤得到:获取所述伪造视频训练数据集,对所述伪造视频训练数据集进行预处理,得到人脸高频特征分量、人脸CrCb特征分量和人脸光流特征分量;将所述人脸高频特征分量和所述人脸CrCb特征分量融合后输入所述EfficientNet

B5网络,获得高频及纹理特征图;将所述人脸光流特征分量输入所述Swin Transformer网络的第一预设阶段,获得补丁嵌入;将所述高频及纹理特征图及所述补丁嵌入进行连接,得到所有帧特征,将所述所有帧特征依次输入至所述Swin Transformer网络的第二预设阶段、线性层和softmax层,得到所述多线索视频伪造检测模型。3.根据权利要求2所述的基于多线索的双流视频人脸伪造检测方法,其特征在于,所述获取所述伪造视频训练数据集,对所述伪造视频训练数据集进行预处理,得到人脸高频特征分量、人脸CrCb特征分量和人脸光流特征分量,包括:提取所述伪造视频训练数据集中的帧,基于多任务级联卷积网络MTCNN检测每一帧中的原始人脸图像,将所述原始人脸图像调整为预设像素大小,并归一化为零均值和单位方差的人脸图像;基于离散余弦变换DCT将任一帧中的所述人脸图像从空间域转换至频域,采用预设高通滤波器提取所述频域中高频分量,得到所述人脸高频特征分量;将所述任一帧中的所述人脸图像从RGB空间域转换至YCrCb空间域,去除亮度通道,得到所述人脸CrCb特征分量;将所述高频分量图像与所述CrCb通道图像合并得到预设三维像素大小特征张量;基于PWC

Net光流估计算法提取所述任一帧中的所述人脸图像中的光流特征,得到所述人脸光流特征分量。4.根据权利要求2所述的基于多线索的双流视频人脸伪造检测方法,其特征在于,所述将所述人脸高频特征分量和所述人脸CrCb特征分量融合后输入所述EfficientNet

B5网络,获得高频及纹理特征图,包括:将所述人脸高频特征分量和所述人脸CrCb特征分量合并,获得预设三维像素大小的特征张量;将所述特征张量输入至所述EfficientNet

B5网络,并基于组合损失函数进行精度调整,得到所述高频及纹理特征图;其中,在所述EfficientNet

B5网络的MBConv层间插入注意力模块,以获取所述高频及纹理特征图中的伪影信息。5....

【专利技术属性】
技术研发人员:赫然黄怀波刘晨雨李佳段俊贤
申请(专利权)人:中国科学院自动化研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1