System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于语义类别感知的多尺度视频质量评价方法技术_技高网

基于语义类别感知的多尺度视频质量评价方法技术

技术编号:41533616 阅读:6 留言:0更新日期:2024-06-03 23:10
本发明专利技术公开了基于语义类别感知的多尺度视频质量评价方法,具体包括如下过程:首先将视频帧以及视频帧分块作为相对应的数据,形成有约束关系的全局‑局部多尺度特征,利用GRU网络建立多尺度时间信息并同时捕捉短时和长时的时间依赖关系;使用伪标签生成策略得到视频中的语义类别信息,利用监督对比学习策略来学习与视频语义信息相关的语义类别感知特征,通过多任务框架实现局部空时信号表征空间与全局空间中视频语义信息的嵌入,在全局语义类别信息约束下,构建了具有局部‑全局关系约束的UGC‑VQA模型,从而实现多尺度评价视频的质量。该方法利用深度学习模型自动的评价UGC视频的质量,能够获得与人眼感官一致的视频评分。

【技术实现步骤摘要】

本专利技术属于图像处理,涉及基于语义类别感知的多尺度视频质量评价方法


技术介绍

1、近年来,随着电子信息技术的快速发展,数字移动设备如手机和平板电脑普及迅猛,以互联网为媒介的图像和视频成为人们生活中愈发重要的信息流通介质,而用户生成内容(user generated content,ugc)视频在人们日常生活中扮演着关键的信息传递角色。通过平台如抖音、快手、b站、youtube、tiktok等社交媒体,人们制作、观看和分享ugc视频已成为大众的日常生活。这些ugc视频通常由非专业用户利用各种拍摄设备,如手机、运动相机等,在各种环境下拍摄而成。由于拍摄设备和专业程度的不同,以及上传到不同社交媒体的视频压缩技术的不同,导致ugc视频的视觉质量存在显著差异。特别是在热门的视频处理、共享和推荐服务中,对视频质量评估(vqa)的需求日益增加。因此,如何对海量的视频数据进行非人工的高效监管和统一的评估量化分析成为业内当下十分关注的难题。

2、视频质量评价方法有两种,一种是视频主观质量评价方法,一种是视频客观质量评价方法。视频主观质量评价方法是让观测者对视频质量做出直观判断,评价结果直接、准确、可靠。虽然主观质量评价方法虽然是最为准确的评估方法,但是其结果容易受到多种因素影响且方法复杂。因此,大多采用易于实现的视频客观质量评价方法。客观质量评价方法是计算机通过某些算法从人类的主观评分角度出发,从而预测给定视频的评分,又根据对原始视频的依赖程度,可将其分为三种类型:全参考(full reference,fr)、半参考(reduced reference,rr)和无参考(no reference,nr)。此外,在ugc视频质量评价过程中,由于ugc视频没有源视频,因此fr-vqa和rr-vqa方法都不适合ugc-vqa。与之相反,nr-vqa模型可以在不依赖任何参考信息的情况下预测视频质量。

3、目前,在现有多数视频质量评价中只有最后一层特征被利用,中间层特征与最后特征没有联系,特征利用不充分,以及时间多尺度没有考虑充分,导致视频质量评价不准确,不能获得与人眼视觉感知一致的评分。


技术实现思路

1、本专利技术的目的是提供基于语义类别感知的多尺度视频质量评价方法,该方法利用深度学习模型自动的评价ugc视频的质量,能够获得与人眼感官一致的视频评分。

2、本专利技术所采用的技术方案是,基于语义类别感知的多尺度视频质量评价方法,具体包括如下过程:首先将视频帧以及视频帧分块作为相对应的数据,使用两种不同的网络分别提取帧和帧内块的多尺度空间特征,形成有约束关系的全局-局部多尺度特征,利用gru网络建立多尺度时间信息并同时捕捉短时和长时的时间依赖关系;使用伪标签生成策略得到视频中的语义类别信息,利用监督对比学习策略来学习与视频语义信息相关的语义类别感知特征,通过多任务框架实现局部空时信号表征空间与全局空间中视频语义信息的嵌入,在全局语义类别信息约束下,构建了原始视频与视频子样本在特征空间与监督信号上具有局部-全局关系约束的ugc-vqa模型,从而实现多尺度评价视频的质量。

3、本专利技术的特点还在于:

4、具体包括如下步骤:

5、步骤1,获取视频数据集,并将该数据集划分为训练集、验证集和测试集;

6、步骤2,构建具有局部-全局关系约束的ugc-vqa模型,该模型包括全局多尺度特征提取模块、局部多尺度特征提取模块、语义伪标签策略模块及多尺度回归模块;

7、步骤3,将步骤1得到的训练集输入步骤2构建的具有局部-全局关系约束的ugc-vqa模型中对该模型进行训练,直到该模型在验证集上的总损失趋于平稳,得到训练好的具有局部-全局关系约束的ugc-vqa模型;

8、步骤4,将步骤1中的测试集输入步骤3训练好的具有局部-全局关系约束的ugc-vqa模型中,得到视频的质量分数。

9、步骤2的具体过程为:

10、步骤2.1,通过全局多尺度特征提取模块对视频原始帧进行全局多尺度特征提取,得到全局空间多尺度特征向量;

11、步骤2.2,通过局部多尺度特征提取模块对视频原始帧进行局部空间多尺度特征提取,得到局部空间多尺度特征向量;

12、步骤2.3,将全局多尺度特征与块级局部多尺度特征级联起来得到具有全局-局部联系的多尺度融合特征f;

13、步骤2.4,通过语义伪标签策略模块对视频原始帧进行自监督视频语义伪标签生成策略,得到每个视频的语义类别伪标签;

14、步骤2.5,多尺度回归模块对多尺度融合特征进行多尺度回归策略,得到视频质量评分。

15、步骤2.1的具体步骤如下:

16、步骤2.1.1,使用在imagenet-1k上预训练的convnext网络作为全局空间特征提取网络,在convnext网络中有4个分层block块,分别为c0、c1、c2、c3,假设一个视频有n帧,其中,第n帧记为in,n=1~n;利用convnext块级联中得到每帧的空间特征向量fg,该过程表示为:

17、fg=cg(..c1(c0(in)))g=0,1,2,3    (1)

18、步骤2.1.2,对每帧的空间特征向量fg分别进行全局平均池化gpmean和全局差池化gpstd,该过程表示为:

19、

20、

21、其中,为全局平均池化后的空间特征,为全局差池化后的空间特征;

22、步骤2.1.3,在convnext网络中引入多级特征提取,使得来自不同尺度的特征级联起来得到全局多尺度特征fglobe,该过程表示为:

23、

24、其中,fglobe为全局多尺度特征,为级联操作。

25、步骤2.2的具体过程为:

26、步骤2.2.1,在局部特征提取模块中,选择swin-transformer作为局部特征提取网络,对视频原始帧进行处理,对于每一帧in,使用滑动窗口提取m个视频patch,将这些视频patch作为视频子样本;

27、步骤2.2.2,局部特征提取网络swin-transformer中有4个分层的swin-transformer块,分别为s0、s1、s2、s3,将视频子样本输入到swin-transformer中,得到块级局部空间特征fl,该过程表示为:

28、fl=sl(..s1(s0(patch)))l=0,1,2,3   (5)

29、步骤2.2.3,对块级局部空间特征fl进行全局平均池化gpmean和全局差池化gpstd,该过程表示为:

30、

31、

32、其中,为全局平均池化后的特征,为全局差池化后的特征;

33、步骤2.2.4,在局部特征提取网络swin-transformer中引入多级特征提取,使得来自不同尺度的特征级联起来得到块级局部多尺度特征flocal,该过程表示为:

本文档来自技高网...

【技术保护点】

1.基于语义类别感知的多尺度视频质量评价方法,其特征在于:具体包括如下过程:首先将视频帧以及视频帧分块作为相对应的数据,使用两种不同的网络分别提取帧和帧内块的多尺度空间特征,形成有约束关系的全局-局部多尺度特征,利用GRU网络建立多尺度时间信息并同时捕捉短时和长时的时间依赖关系;使用伪标签生成策略得到视频中的语义类别信息,利用监督对比学习策略来学习与视频语义信息相关的语义类别感知特征,通过多任务框架实现局部空时信号表征空间与全局空间中视频语义信息的嵌入,在全局语义类别信息约束下,构建了原始视频与视频子样本在特征空间与监督信号上具有局部-全局关系约束的UGC-VQA模型,从而实现多尺度评价视频的质量。

2.根据权利要求1所述的基于语义类别感知的多尺度视频质量评价方法,其特征在于:具体包括如下步骤:

3.根据权利要求2所述的基于语义类别感知的多尺度视频质量评价方法,其特征在于:所述步骤2的具体过程为:

4.根据权利要求3所述的基于语义类别感知的多尺度视频质量评价方法,其特征在于:所述步骤2.1的具体步骤如下:

5.根据权利要求4所述的基于语义类别感知的多尺度视频质量评价方法,其特征在于:所述步骤2.2的具体过程为:

6.根据权利要求5所述的基于语义类别感知的多尺度视频质量评价方法,其特征在于:所述步骤2.4的具体过程为:

7.根据权利要求6所述的基于语义类别感知的多尺度视频质量评价方法,其特征在于:所述步骤2.5的具体过程为:

8.根据权利要求7所述的基于语义类别感知的多尺度视频质量评价方法,其特征在于:所述步骤3的具体过程为:

...

【技术特征摘要】

1.基于语义类别感知的多尺度视频质量评价方法,其特征在于:具体包括如下过程:首先将视频帧以及视频帧分块作为相对应的数据,使用两种不同的网络分别提取帧和帧内块的多尺度空间特征,形成有约束关系的全局-局部多尺度特征,利用gru网络建立多尺度时间信息并同时捕捉短时和长时的时间依赖关系;使用伪标签生成策略得到视频中的语义类别信息,利用监督对比学习策略来学习与视频语义信息相关的语义类别感知特征,通过多任务框架实现局部空时信号表征空间与全局空间中视频语义信息的嵌入,在全局语义类别信息约束下,构建了原始视频与视频子样本在特征空间与监督信号上具有局部-全局关系约束的ugc-vqa模型,从而实现多尺度评价视频的质量。

2.根据权利要求1所述的基于语义类别感知的多尺度视频质量评价方法,其特征在于:具体包括如下步骤:...

【专利技术属性】
技术研发人员:张凯兵任陇刚张榆红时光孟雅蕾李敏奇卢健陈金广
申请(专利权)人:西安工程大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1