System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本公开涉及人工智能,具体涉及人脸篡改视频检测领域,更具体地涉及一种多模态人脸篡改视频检测方法和多模态人脸篡改视频检测器训练方法。
技术介绍
1、随着人脸篡改技术的迅速发展,经人脸篡改技术得到的人脸篡改视频仿真性高,但是人脸篡改视频中的不实信息会对视频观看者产生误导,因此如何对人脸篡改视频进行检测是目前亟待解决的问题。
2、在现有技术中,通常通过深度神经网络实现人脸篡改视频的检测,但是现有的基于深度神经网络的方法容易受到图像内容特征的影响,泛化能力有限,导致现有基于深度神经网络的人脸篡改视频的检测方法准确度低。
技术实现思路
1、鉴于上述问题,本公开提供了多模态人脸篡改视频检测方法和多模态人脸篡改视频检测器训练方法。
2、根据本公开的第一个方面,提供了一种多模态人脸篡改视频检测方法,包括:将待检测视频解码为多个帧图像,得到上述待检测视频的帧图像集合,其中,上述帧图像集合内的多个上述帧图像在时序上连续;将上述帧图像集合输入至预先训练好的多模态人脸篡改视频检测器,得到上述待检测视频为真实人脸视频的第一分类概率和上述待检测视频为篡改人脸视频的第二分类概率,其中,上述多模态人脸篡改视频检测器包括多模态特征提取器和分类器,上述多模态特征提取器用于基于上述帧图像集合提取上述待检测视频的多模态特征,上述分类器用于基于上述多模态特征确定上述待检测视频为真实人脸视频的第一分类概率和上述待检测视频为篡改人脸视频的第二分类概率;基于上述第一分类概率和上述第二分类概率,确定上述待检测
3、本公开的第二方面,提供了一种多模态人脸篡改视频检测器训练方法,包括:将样本人脸视频数据集中的每个样本人脸视频解码为多个样本人脸帧图像,得到每个上述样本人脸视频的样本人脸帧图像集合,其中,上述样本人脸帧图像集合内的多个上述样本人脸帧图像在时序上连续,上述样本人脸视频数据集包括样本人脸视频以及上述样本人脸视频的人脸篡改标签,上述人脸篡改标签用于表征上述样本人脸视频的人脸篡改信息;将上述样本人脸帧图像集合输入至初始多模态人脸篡改视频检测器,得到上述样本人脸视频为真实人脸视频的样本第一分类概率和上述样本人脸视频为篡改人脸视频的样本第二分类概率,以及上述初始多模态人脸篡改视频检测器的初始多模态特征提取器输出的样本多模态特征序列,其中,上述初始多模态人脸篡改视频检测器包括初始多模态特征提取器和初始分类器,上述初始多模态特征提取器用于基于上述样本人脸帧图像集合提取上述样本人脸视频的多模态特征,上述初始多模态特征提取器由时空模态特征提取器预训练得到,上述初始分类器用于基于上述多模态特征确定上述样本人脸视频为真实人脸视频的样本第一分类概率和上述样本人脸视频为篡改人脸视频的样本第二分类概率;针对每个上述样本人脸视频,将上述样本人脸帧图像集合输入至预先训练好的教师网络,得到与上述样本人脸视频对应的样本音频模态语义特征,其中,上述教师网络由多模态记忆模块和具有一层三维卷积层的深度残差网络构成,上述教师网络由初始教师网络通过唇读任务预训练得到;通过知识蒸馏的方式,基于上述样本多模态特征序列和上述样本音频模态语义特征,确定知识蒸馏损失值,以指导多模态特征提取器对音频语义信息的表征能力;将上述样本第一分类概率、样本第二分类概率和与上述样本人脸视频相匹配的上述人脸篡改标签的值输入至分类损失函数中,确定分类损失值;将上述知识蒸馏损失值和上述分类损失值输入至网络总体损失函数中,得到网络总体损失函数值;基于上述网络总体损失函数值,对上述初始多模态人脸篡改视频检测器中的参数进行更新;在当前训练周期满足训练停止条件的情况下,确定上述当前训练周期的上述初始多模态人脸篡改视频检测器为多模态人脸篡改视频检测器。
4、本公开的第三方面,提供了一种多模态人脸篡改视频检测装置,包括:第一解码模块用于将待检测视频解码为多个帧图像,得到待检测视频的帧图像集合,其中,帧图像集合内的多个帧图像在时序上连续;第一分类模块用于将帧图像集合输入至预先训练好的多模态人脸篡改视频检测器,得到待检测视频为真实人脸视频的第一分类概率和待检测视频为篡改人脸视频的第二分类概率,其中,多模态人脸篡改视频检测器包括多模态特征提取器和分类器,多模态特征提取器用于基于帧图像集合提取待检测视频的多模态特征,分类器用于基于多模态特征确定待检测视频为真实人脸视频的第一分类概率和待检测视频为篡改人脸视频的第二分类概率;结果确定模块用于基于第一分类概率和第二分类概率,确定待检测视频的人脸篡改视频检测结果。
5、本公开的第四方面,提供了一种多模态人脸篡改视频检测器训练装置,包括:第二解码模块用于将样本人脸视频数据集中的每个样本人脸视频解码为多个样本人脸帧图像,得到每个样本人脸视频的样本人脸帧图像集合,其中,样本人脸帧图像集合内的多个样本人脸帧图像在时序上连续,样本人脸视频数据集包括样本人脸视频以及样本人脸视频的人脸篡改标签,人脸篡改标签用于表征样本人脸视频的人脸篡改信息;第二分类模块用于将样本人脸帧图像集合输入至初始多模态人脸篡改视频检测器,得到样本人脸视频为真实人脸视频的样本第一分类概率和样本人脸视频为篡改人脸视频的样本第二分类概率,以及初始多模态人脸篡改视频检测器的初始多模态特征提取器输出的样本多模态特征序列,其中,初始多模态人脸篡改视频检测器包括初始多模态特征提取器和初始分类器,初始多模态特征提取器用于基于样本人脸帧图像集合提取样本人脸视频的多模态特征,初始多模态特征提取器由时空模态特征提取器预训练得到,初始分类器用于基于多模态特征确定样本人脸视频为真实人脸视频的样本第一分类概率和样本人脸视频为篡改人脸视频的样本第二分类概率;教师模块用于针对每个样本人脸视频,将样本人脸帧图像集合输入至预先训练好的教师网络,得到与样本人脸视频对应的样本音频模态语义特征,其中,教师网络由多模态记忆模块和具有一层三维卷积层的深度残差网络构成,教师网络由初始教师网络通过唇读任务预训练得到;蒸馏模块用于通过知识蒸馏的方式,基于样本多模态特征序列和样本音频模态语义特征,确定知识蒸馏损失值,以指导多模态特征提取器对音频语义信息的表征能力;分类损失确定模块用于将样本第一分类概率、样本第二分类概率和与样本人脸视频相匹配的人脸篡改标签的值输入至分类损失函数中,确定分类损失值;总体损失确定模块用于将知识蒸馏损失值和分类损失值输入至网络总体损失函数中,得到网络总体损失函数值;参数更新模块用于基于网络总体损失函数值,对初始多模态人脸篡改视频检测器中的参数进行更新;检测器确定模块用于在当前训练周期满足训练停止条件的情况下,确定当前训练周期的初始多模态人脸篡改视频检测器为多模态人脸篡改视频检测器。
6、本公开的第五方面,提供了一种电子设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序,其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得一个或多个处理器执行上述多模态人脸篡改视频检测方法。
7、本公开的第六方面,还提供了一种计算机可读存储介质,其上存储有可执行指本文档来自技高网...
【技术保护点】
1.一种多模态人脸篡改视频检测方法,包括:
2.根据权利要求1所述的方法,其中,所述将所述帧图像集合输入至预先训练好的多模态人脸篡改视频检测器,得到所述待检测视频为真实人脸视频的第一分类概率和所述待检测视频为篡改人脸视频的第二分类概率,包括:
3.根据权利要求2所述的方法,其中,所述多模态特征提取器包括时空块嵌入层和编码层,
4.根据权利要求2所述的方法,其中,所述分类器包括全连接层,
5.根据权利要求1所述的方法,其中,所述基于所述第一分类概率和所述第二分类概率,确定所述待检测视频的人脸篡改视频检测结果,包括:
6.一种多模态人脸篡改视频检测器训练方法,包括:
7.根据权利要求6所述的方法,还包括:
8.根据权利要求7所述的方法,其中,所述基于所述真实人脸帧图像集合和所述可见人脸帧图像集合,确定所述真实人脸帧图像集合中的被掩盖区域的真实图像特征,包括:
9.根据权利要求6所述的方法,其中,所述通过知识蒸馏的方式,基于所述样本多模态特征序列和所述样本音频模态语义特征,确定知识蒸馏损失值
10.根据权利要求6所述的方法,其中,所述多模态记忆模块包括视频模态记忆子模块和音频模态记忆子模块,
...【技术特征摘要】
1.一种多模态人脸篡改视频检测方法,包括:
2.根据权利要求1所述的方法,其中,所述将所述帧图像集合输入至预先训练好的多模态人脸篡改视频检测器,得到所述待检测视频为真实人脸视频的第一分类概率和所述待检测视频为篡改人脸视频的第二分类概率,包括:
3.根据权利要求2所述的方法,其中,所述多模态特征提取器包括时空块嵌入层和编码层,
4.根据权利要求2所述的方法,其中,所述分类器包括全连接层,
5.根据权利要求1所述的方法,其中,所述基于所述第一分类概率和所述第二分类概率,确定所述待检测视频的人脸篡改视频检测结果,包括:
6...
【专利技术属性】
技术研发人员:于灵云,谢天,谢洪涛,张勇东,
申请(专利权)人:中国科学技术大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。