基于谱体积的自然场景生成视频检测方法和系统技术方案

技术编号：44269728 阅读：5 留言：0更新日期：2025-02-14 22:11

本申请提供一种基于谱体积的自然场景生成视频检测方法和系统，涉及视频检测技术领域，该方法包括：获取样本视频集合，样本视频集合包括具有预设真伪标签的多个样本视频；对多个样本视频进行预处理，通过双流结构网络进行特征提取，基于卷积神经网络进行训练，得到视频检测模型；获取待检测的目标视频信息，通过提取策略进行预处理；通过视频检测模型进行特征提取，并设计分类器进行分析，得到表征目标视频信息类别的概率，判断目标视频信息是否为生成视频。本申请在模型训练阶段，关注像素特征和运动特征两个方面，使用谱体积的运动表示方法进一步表示生成线索，减少了计算开销，解决了生成视频检测在自然场景方面的不足。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及视频检测，具体涉及一种基于谱体积的自然场景生成视频检测方法和系统。

技术介绍

1、生成式人工智能技术在chatgpt问世后发展迅速，文本，语音，图片和视频等内容介质都可以使用ai生成。如openai的sora就展示出了极高的视频生成能力。用户可以使用文本，图片和动作骨架等作为条件生成高质量视频。然而，此类视频生成模型的应用十分简单，尤其是文本生成视频。用户仅仅需要使用文本描述就可以生成一段视频。虽然视频生成模型的创造力能够提供娱乐和商业价值，但其简单易用的特点也容易产生虚假内容的视频，危害数字媒体安全。因此，需要进行检测ai生成视频的检测工作。

2、当前的视频生成模型在制作自然场景的视频方面已经取得了接近真实视频的效果，并且其中的运动不一致现象相对较少。这种现象的原因可以归结于自然场景中大多数运动模式具有周期性或振动性，这些规律性的运动模式更容易被神经网络捕捉和学习。因此，生成模型在处理自然场景时的表现更加出色。

3、然而，现有的视频检测方法在面对自然场景的生成视频时，往往缺乏足够的针对性。这些方法主要依赖于视频的像素信息来寻找检测线索，或者辅以光流信息来提取视频中的运动特征。尽管光流信息能够提供关于像素点运动的有用线索，但其计算成本较高，且与视频的时长直接相关，这限制了其在大规模视频检测中的应用。

技术实现思路

1、针对现有技术的不足，本申请提供了一种基于谱体积的自然场景生成视频检测方法和系统，解决了现有的生成视频检测技术在面向自然场景方面的不足

2、为实现以上目的，本申请通过以下技术方案予以实现：

3、第一方面，本申请实施例提供了一种基于谱体积的自然场景生成视频检测方法，该自然场景生成视频检测方法包括：获取样本视频集合，样本视频集合包括具有预设真伪标签的多个样本视频；基于预设的提取策略，对多个样本视频进行预处理以提取得到第一谱体积特征；通过获取的双流结构网络从样本视频和第一谱体积特征中分别进行特征提取，得到第一像素特征和第一运动特征；以第一像素特征和第一运动特征作为样本，基于卷积神经网络进行训练，得到视频检测模型；获取待检测的目标视频信息，通过提取策略对目标视频信息进行预处理得到第二谱体积特征；通过视频检测模型对目标视频信息和第二谱体积特征进行特征提取，得到第二像素特征和第二运动特征；设计分类器以对第二像素特征和第二运动特征进行分析，得到表征目标视频信息类别的概率，判断目标视频信息是否为生成视频。

4、根据本申请实施例的第一方面，样本视频集合包括真实视频和多种生成视频，多种生成视频与多种视频生成算法一一对应，每种生成视频基于对应的视频生成算法使用文本或图片生成确定。

5、根据本申请实施例的第一方面，前述基于预设的提取策略，对多个样本视频进行预处理以提取得到第一谱体积特征，具体可以包括以下步骤：将样本视频提取为光流，以初步确定运动纹理；对光流在时间维度进行傅里叶变换成频域表示，得到第一谱体积特征；其中，第一谱体积特征为从样本视频中提取的每像素轨迹的时间傅里叶变换。

6、根据本申请实施例的第一方面，双流结构网络包括像素特征提取网络和运动特征提取网络，像素特征提取网络为预训练网络且为3dresnet和video vit中的一者。

7、根据本申请实施例的第一方面，运动特征提取网络基于预设的基础数据集并面向动作识别任务训练，以使运动特征提取网络具备运动特征提取能力，学习不同视频中谱体积的通用运动信息。

8、根据本申请实施例的第一方面，基础数据集包括kinetics-400数据集和ucf101数据集中的至少一者。

9、根据本申请实施例的第一方面，前述通过获取的双流结构网络从样本视频和第一谱体积特征中分别进行特征提取，得到第一像素特征和第一运动特征，具体可以包括以下步骤：通过像素特征提取网络对样本视频进行特征提取，得到第一像素特征；通过运动特征提取网络对第一谱体积特征进行特征提取，得到第一运动特征；其中，第一像素特征和第一运动特征均为一维特征向量，第一像素特征包括颜色、光照和纹理信息，第一运动特征包括视频中镜头和物体的运动信息。

10、根据本申请实施例的第一方面，前述以第一像素特征和第一运动特征作为样本，基于卷积神经网络进行训练，得到视频检测模型，具体可以包括以下步骤：使用多头交叉注意力机制对第一像素特征和第一运动特征进行融合，生成融合特征以表征第一像素特征和第一运动特征的共同信息；基于融合特征，确定样本视频集合中每个样本视频对应的检测结果；基于每个样本视频的检测结果以及对应标签，基于卷积神经网络进行迭代训练，得到视频检测模型。

11、根据本申请实施例的第一方面，前述基于每个样本视频的检测结果以及对应标签，基于卷积神经网络进行迭代训练，得到视频检测模型，具体可以包括以下步骤：在训练得到初始检测模型的过程中，计算初始检测模型对应的检测损失；基于检测损失，对初始检测模型进行迭代训练，直至满足预定的训练终止条件，得到优化后的视频检测模型。

12、第二方面，本申请实施例提供了一种基于谱体积的自然场景生成视频检测系统，该自然场景生成视频检测系统包括：获取模块、第一预处理模块、第一特征提取模块、训练模块、第二预处理模块、第二特征提取模块和判断模块；其中，获取模块用于获取样本视频集合，样本视频集合包括具有预设真伪标签的多个样本视频；第一预处理模块用于基于预设的提取策略，对多个样本视频进行预处理以提取得到第一谱体积特征；第一特征提取模块用于通过获取的双流结构网络从样本视频和第一谱体积特征中分别进行特征提取，得到第一像素特征和第一运动特征；训练模块用于以第一像素特征和第一运动特征作为样本，基于卷积神经网络进行训练，得到视频检测模型；第二预处理模块用于获取待检测的目标视频信息，通过提取策略对目标视频信息进行预处理得到第二谱体积特征；第二特征提取模块用于通过视频检测模型对目标视频信息和第二谱体积特征进行特征提取，得到第二像素特征和第二运动特征；判断模块用于设计分类器以对第二像素特征和第二运动特征进行分析，得到表征目标视频信息类别的概率，判断目标视频信息是否为生成视频。

13、第三方面，本申请实施例提供了一种电子设备，该电子设备包括：处理器、存储器及存储在存储器上并可在处理器上运行的程序，程序被处理器执行时实现前述第一方面中的基于谱体积的自然场景生成视频检测方法。

14、第四方面，本申请实施例提供了一种计算机可读存储介质，该计算机可读存储介质上存储程序或指令，程序或指令被处理器执行时实现前述第一方面中的基于谱体积的自然场景生成视频检测方法。

15、本申请提供了一种基于谱体积的自然场景生成视频检测方法和系统。与现有技术相比，具备以下有益效果：

16、本申请基于具有预设真伪标签的样本视频集合进行训练，从每个样本视频中提取第一谱体积特征，通过双流结构网络分别对样本视频和第一谱体积特征进行处理，得到第一像本文档来自技高网...

【技术保护点】

1.一种基于谱体积的自然场景生成视频检测方法，其特征在于，包括：

2.如权利要求1所述的基于谱体积的自然场景生成视频检测方法，其特征在于，所述样本视频集合包括真实视频和多种生成视频，所述多种生成视频与多种视频生成算法一一对应，每种所述生成视频基于对应的所述视频生成算法使用文本或图片生成确定。

3.如权利要求1所述的基于谱体积的自然场景生成视频检测方法，其特征在于，所述基于预设的提取策略，对多个所述样本视频进行预处理以提取得到第一谱体积特征，包括：

4.如权利要求1所述的基于谱体积的自然场景生成视频检测方法，其特征在于，所述双流结构网络包括像素特征提取网络和运动特征提取网络，所述像素特征提取网络为预训练网络且为3D ResNet和Video ViT中的一者；

5.如权利要求4所述的基于谱体积的自然场景生成视频检测方法，其特征在于，所述通过获取的双流结构网络从所述样本视频和所述第一谱体积特征中分别进行特征提取，得到第一像素特征和第一运动特征，包括：

6.如权利要求1所述的基于谱体积的自然场景生成视频检测方法，其特征在于，所述

7.如权利要求6所述的基于谱体积的自然场景生成视频检测方法，其特征在于，所述基于每个所述样本视频的检测结果以及对应标签，基于卷积神经网络进行迭代训练，得到视频检测模型，包括：

8.一种基于谱体积的自然场景生成视频检测系统，其特征在于，包括：

9.一种电子设备，其特征在于，包括：处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序，所述程序被所述处理器执行时实现如权利要求1至7中任一项所述的基于谱体积的自然场景生成视频检测方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如权利要求1至7任一项所述的基于谱体积的自然场景生成视频检测方法。

...

【技术特征摘要】

1.一种基于谱体积的自然场景生成视频检测方法，其特征在于，包括：

4.如权利要求1所述的基于谱体积的自然场景生成视频检测方法，其特征在于，所述双流结构网络包括像素特征提取网络和运动特征提取网络，所述像素特征提取网络为预训练网络且为3d resnet和video vit中的一者；

5.如权利要求4所述的基于谱体积的自然场景生成视频检测方法，其特征在于，所述通过获取的双流结构网络从所述样本视频和所述第一谱体积特征中分别进行特征提取，得到第一像素特征...

【专利技术属性】
技术研发人员：陈雁翔，郑天鹏，王志远，李严成，舒陈帅，
申请(专利权)人：合肥工业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人