基于多尺度与CLIP语义监督的AI视频质量评估方法及装置制造方法及图纸

技术编号：43414630 阅读：30 留言：0更新日期：2024-11-22 17:50

本发明专利技术公开了一种基于多尺度与CLIP语义监督的AI视频质量评估方法及装置，该方法结合了CLIP语义监督和交叉注意力机制。具体实现包括：为了对视频内容中嵌入的信息进行最大化提取和利用，分别从单个帧、帧片段和整个视频三个层面进行视频分析；为了确保生成的视频与提供的提示保持一致，本发明专利技术引入了提示语义监督模块，该模块利用CLIP文本编码器的编码能力，语义地评估视频与提示之间的一致性；考虑到人工智能生成视频的语义变化，本发明专利技术还引入了语义突变感知模块，该模块具备捕捉帧间微妙语义变化的基本建模能力。最终，通过我们精心设计的模型，可以有效地评估人工智能生成视频的质量。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于计算机，尤其涉及一种基于多尺度与clip语义监督的ai视频质量评估方法及装置。

技术介绍

1、由于视频的每一帧、视频片段和整体视频包含了不同的粒度的特征，在人工智能生成内容的视频质量评估中，多维度视频特征分析是至关重要的。传统的视频质量评估方法都是基于真实视频开发的方法，未能充分利用数据增强、语义一致性监督及语义突变感知等技术，无法准确评估复杂性和具有帧之间语义突变性的人工智能生成视频。

技术实现思路

1、本专利技术的目的在于提出一种新型的视频质量评估框架，该框架结合了多尺度分析、数据增强技术，语义监督模块和语义突变感知，以提高ai生成视频的质量评估精度。

2、本专利技术的目的是通过以下技术方案来实现的：第一方面，本专利技术提供了一种基于多尺度与clip语义监督的ai视频质量评估方法，该方法包括以下步骤：

3、(1)获取ai生成的原始视频数据，并处理成视频帧和视频段数据；

4、(2)对视频帧和视频段数据进行数据增强，采用基于clip的语义监督，分别评估视频帧和视频段和原始视频内容与其提示之间的语义一致性，并基于视频帧的语义信息检测视频帧之间的语义突变，预测视频帧数据、视频段数据和原始视频数据的评分；

5、(3)综合视频帧、视频段和原始视频数据评分得到最终的预测分数，实现视频质量评估。

6、进一步地，基于clip的语义监督具体为：利用clip的文本编码器对生成视频的提示词进行编码，通过在clip文本编码器最后两

7、进一步地，步骤(2)中，采用convnet作为backbone，提取视频帧特征输入到评估头，预测视频帧数据的评分。

8、进一步地，步骤(2)中，检测视频帧之间的语义突变具体为：基于语义突变感知模块sma利用clip的图像编码器对视频帧的语义信息进行编码，将每个视频帧特征的cls特征作为视频帧的语义信息，在图像编码器后两层transformer加入适配器adapter使其编码的特征与评估特征更相关，通过一个交叉注意层来捕捉帧间的语义变化，将该特征融合到视频分支模型的评估头上。

9、进一步地，步骤(2)中，通过slowfast运动特征提取时序语义信息，并基于预训练的swin transformer提取视频段数据特征，预测视频段数据分数。

10、进一步地，步骤(2)中，采用fastvqa作为骨干网络预测原始视频数据评分。、

11、进一步地，步骤(3)中，将视频帧、视频段和原始视频数据的预测结果应用sigmoid函数转换，通过权重求和的方式将各个预测结果合并得到最终的预测分数。

12、第二方面，本专利技术还提供了一种基于多尺度与clip语义监督的ai视频质量评估装置，包括存储器和一个或多个处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现所述的一种基于多尺度与clip语义监督的ai视频质量评估方法。

13、第三方面，本专利技术还提供了一种计算机可读存储介质，其上存储有程序，所述程序被处理器执行时，实现所述的一种基于多尺度与clip语义监督的ai视频质量评估方法。

14、第四方面，本专利技术还提供了一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时，实现所述的一种基于多尺度与clip语义监督的ai视频质量评估方法。

15、本专利技术的有益效果是：本专利技术通过采用多维度分析方法，结合帧级、片段级和视频级的评估，有效提高了视频质量评估的全面性和精确性。特别是引入了基于clip的语义一致性监督模块和语义突变感知模块，增强了模型对ai生成视频中语义连贯性和突变的识别能力，显著提升了视频质量评估的准确度。此外，通过多层模型集成策略，本专利技术不仅提升了评估模型的鲁棒性，也优化了模型对不同数据维度的处理能力，使得评估结果更加稳定和可靠。

本文档来自技高网...

【技术保护点】

1.一种基于多尺度与CLIP语义监督的AI视频质量评估方法，其特征在于，该方法包括以下步骤：

2.根据权利要求1所述的一种基于多尺度与CLIP语义监督的AI视频质量评估方法，其特征在于，基于CLIP的语义监督具体为：利用CLIP的文本编码器对生成视频的提示词进行编码，通过在CLIP文本编码器最后两层transformer加入适配器的训练，使得编码信息更加语义相关。

3.根据权利要求1所述的一种基于多尺度与CLIP语义监督的AI视频质量评估方法，其特征在于，步骤(2)中，采用ConvNet作为backbone，提取视频帧特征输入到评估头，预测视频帧数据的评分。

4.根据权利要求1所述的一种基于多尺度与CLIP语义监督的AI视频质量评估方法，其特征在于，步骤(2)中，检测视频帧之间的语义突变具体为：基于语义突变感知模块SMA利用CLIP的图像编码器对视频帧的语义信息进行编码，将每个视频帧特征的cls特征作为视频帧的语义信息，在图像编码器后两层transformer加入适配器adapter使其编码的特征与评估特征更相关，通过一个交叉注意层来捕捉帧间的

5.根据权利要求1所述的一种基于多尺度与CLIP语义监督的AI视频质量评估方法，其特征在于，步骤(2)中，通过slowfast运动特征提取时序语义信息，并基于预训练的SwinTransformer提取视频段数据特征，预测视频段数据分数。

6.根据权利要求1所述的一种基于多尺度与CLIP语义监督的AI视频质量评估方法，其特征在于，步骤(2)中，采用FastVQA作为骨干网络预测原始视频数据评分。

7.根据权利要求1所述的一种基于多尺度与CLIP语义监督的AI视频质量评估方法，其特征在于，步骤(3)中，将视频帧、视频段和原始视频数据的预测结果应用Sigmoid函数转换，通过权重求和的方式将各个预测结果合并得到最终的预测分数。

8.一种基于多尺度与CLIP语义监督的AI视频质量评估装置，包括存储器和一个或多个处理器，所述存储器中存储有可执行代码，其特征在于，所述处理器执行所述可执行代码时，实现如权利要求1-6中任一项所述的一种基于多尺度与CLIP语义监督的AI视频质量评估方法。

9.一种计算机可读存储介质，其上存储有程序，其特征在于，所述程序被处理器执行时，实现如权利要求1-6中任一项所述的一种基于多尺度与CLIP语义监督的AI视频质量评估方法。

10.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时，实现如权利要求1-6任一项所述的一种基于多尺度与CLIP语义监督的AI视频质量评估方法。

...

【技术特征摘要】

1.一种基于多尺度与clip语义监督的ai视频质量评估方法，其特征在于，该方法包括以下步骤：

2.根据权利要求1所述的一种基于多尺度与clip语义监督的ai视频质量评估方法，其特征在于，基于clip的语义监督具体为：利用clip的文本编码器对生成视频的提示词进行编码，通过在clip文本编码器最后两层transformer加入适配器的训练，使得编码信息更加语义相关。

3.根据权利要求1所述的一种基于多尺度与clip语义监督的ai视频质量评估方法，其特征在于，步骤(2)中，采用convnet作为backbone，提取视频帧特征输入到评估头，预测视频帧数据的评分。

4.根据权利要求1所述的一种基于多尺度与clip语义监督的ai视频质量评估方法，其特征在于，步骤(2)中，检测视频帧之间的语义突变具体为：基于语义突变感知模块sma利用clip的图像编码器对视频帧的语义信息进行编码，将每个视频帧特征的cls特征作为视频帧的语义信息，在图像编码器后两层transformer加入适配器adapter使其编码的特征与评估特征更相关，通过一个交叉注意层来捕捉帧间的语义变化，将该特征融合到视频分支模型的评估头上。

5.根据权利要求1所述的一种基于多尺度与clip语义监督的ai视频质量评估方法，其特征在于，步骤(2)中，通过slow...

【专利技术属性】
技术研发人员：周晓巍，李佳泽，
申请(专利权)人：浙江大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人