基于对比自监督的无参考视频质量评估预测方法及系统技术方案

技术编号:31909090 阅读:17 留言:0更新日期:2022-01-15 12:48
本发明专利技术公开了一种基于对比自监督的无参考视频质量评估预测方法及系统,利用没有标注的高质量视频数据构造不同失真类型的视频,基于这些视频样本作为对比损失中的正负样本进行模型的训练,有效地使得网络模型能够获取捕获失真的能力。将训练得到的网络作为预训练的网络,用于现有的无参考质量模型中,能够获取比目前主流的视频质量评价方法所使用的预训练模型更好的性能,并获得更为准确的视频质量评估预测结果。评估预测结果。评估预测结果。

【技术实现步骤摘要】
基于对比自监督的无参考视频质量评估预测方法及系统


[0001]本专利技术属于视频处理和计算机视觉
,具体涉及一种基于对比自监督的无参考视频质量评估预测方法及系统。

技术介绍

[0002]为了获得与人类视觉感知高度一致的估计值,视频质量评估(VQA)指标成为了一个迫切需要解决的问题。基于人工排序的主观VQA方法是最可靠的方法,但其实际应用受到时间和劳动的限制。作为另一种选择,研究人员寻求客观的方法来自动预测失真视频的视觉质量。
[0003]根据视频中参考信息的可用性,客观VQA方法可以进一步分为完全参考(FR)、半参考(RR)和无参考(NR)VQA度量方法。参考视频的全部或部分信息在FR/RR

VQA度量中是可以获得的,这使得最先进的FR/RR方法的预测结果与人类视觉感知之间存在显著的相关性。与此相反,NR

VQA方法利用了不含原始视频信息的失真特定或自然视频统计模型,这是实际应用中的主要优势。
[0004]现有的NR

VQA度量主要针对失真特定的问题,例如码率自适应和运动模糊。这些度量显示了特定失真的优势,但不适用于其他情况。非针对的通用方法是另一种NR

VQA方法,用于处理各种失真。近年来,利用有效的特征提取算法,一些成功的通用NR

VQA度量被提出,并显示出良好的性能。然而,随着图像在时间维度上的扩展,视频不仅表现为空间特征,而且表现为时间特征,这就导致了传统通用度量方法在处理时空规律更加复杂的视频时的困难。
[0005]随着深度学习的出现与发展,自动提取有区分度的特征和语义特征成为现实。然而,基于深度学习的NR

VQA度量方法却很少出现,这主要是由于传统卷积神经网络(CNN)不能处理具有三维时空规律的原始视频。值得注意的是,Zhang等人在论文“Blind video quality assessment with weakly supervised learning and resampling strategy”中将弱监督学习与CNN和重采样策略应用于视频质量评估。循环神经网络(RNN)和3D

CNN是处理时空信息的两种常用方法。Liu等人在论文“End

to

End Blind Quality Assessment of Compressed Videos Using Deep Neural Networks”中利用3D

CNN模型对压缩视频进行编码分类和质量评估。Li等人在论文“Quality Assessment of In

the

Wild Videos”针对自然失真的视频,通过结合内容相关性和时序记忆性的特征提出一个名为VSFA的算法。
[0006]然而,由于现有质量评价数据库的规模都比较小,现有的这些基于深度学习的算法往往使用在类似于ImageNet这类规模特别大的数据库上训练得到的模型作为初始化的模型。然而,它们并不是针对质量评价的任务进行设计,因此并不能有效地反映出失真的情况,在很大程度上影响了最终预测模型性能的好坏。
[0007]综上所述,现有技术存在的问题是:目前无参考的视频质量评价方法中由于数据库的容量问题只能采用一些并不是针对质量评价任务的初始化模型,这限制了模型预测性能的进一步提升。

技术实现思路

[0008]专利技术目的:针对以上问题,本专利技术提出一种基于对比自监督的无参考视频质量评估预测方法。
[0009]技术方案:为实现本专利技术的目的,本专利技术所采用的技术方案是:一种基于对比自监督的无参考视频质量评估预测方法,具体包括如下步骤:
[0010]步骤1,采集包含不同类别的场景内容的视频,并将采集到的视频按照一定比例划分为训练样本、验证样本和测试样本;
[0011]步骤2,对于训练样本中的每一个原始视频,均进行不同类型的失真处理,得到原始视频所对应的不同类型的失真视频;
[0012]步骤3,对于步骤2中的每一个失真视频,均沿时间维度切分成等时长的不重叠的视频片段;
[0013]对于原始视频对应的任一失真视频,从该失真视频中选取连续多个视频片段作为参照,与该参照相邻的未来一个视频片段作为正样本,与正样本有着相同时间步但不同失真类型的视频片段作为负样本;
[0014]步骤4,构建质量评估预测模型,将步骤3得到的参照、正样本以及负样本作为该模型的对比损失函数的输入,对该模型进行训练,得到质量评估预测预训练模型;
[0015]步骤5,利用步骤1所述验证样本对步骤4所述质量评估预测预训练模型的参数进行微调,得到最终质量评估预测模型;
[0016]步骤6,将测试样本输入至步骤5所述最终质量评估预测模型,得到视频质量评估预测结果。
[0017]进一步地,步骤1所述训练样本、验证样本和测试样本,均包括每一类别的场景内容的视频。
[0018]进一步地,步骤2所述失真处理,包括MPEG

2压缩、H.264压缩和HEVC压缩的一种或多种。
[0019]进一步地,所述步骤4的方法包括:
[0020]步骤4.1,构建质量评估预测模型,并用3D卷积网络作为编码器f(
·
)对参照、正样本以及负样本中的每一个视频片段进行处理,获取每一个视频片段对应的特征表示;
[0021]对于由第i个原始视频以及第m种失真类型生成的失真视频来说,将其切分为连续的视频片段选取其中连续的视频片段作为参照,与参照相邻的未来一个视频片段作为正样本,而与正样本相同时间步但是来自不同失真类型的视频片段作为负样本,n表示第n种失真类型,n≠m;用编码器f(
·
)对参照、正样本以及负样本中的视频片段进行处理得到对应的特征表示:z=f(x);
[0022]步骤4.2,通过聚合函数g(
·
)将参照中所有视频片段的特征表示进行融合,得到参照的特征表示的融合:
[0023][0024]式中,表示参照的特征表示的融合;表示视频片段的特征表示;
[0025]步骤4.3,利用预测函数δ(
·
)将参照的特征表示的融合进行预测,得到与参照相
邻的未来一个视频片段的预测特征表示:
[0026][0027]式中,表示与参照相邻的未来一个视频片段的预测特征表示;δ(
·
)为预测函数,具体是由一个多层感知机结构实现的,表示为:
[0028][0029]其中,σ为ReLU函数用于进行非线性的映射,W1和W2均为隐藏层参数;
[0030]步骤4.4,利用步骤4.3得到的与参照相邻的未来一个视频片段的预测特征表示,以及参照对应的正样本和负样本的特征表示,构造正样本对以及负样本对;其中,正样本对h(z,z
+
)表示为:
[0031][0本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于对比自监督的无参考视频质量评估预测方法,其特征在于,具体包括如下步骤:步骤1,采集包含不同类别的场景内容的视频,并将采集到的视频按照一定比例划分为训练样本、验证样本和测试样本;步骤2,对于训练样本中的每一个原始视频,均进行不同类型的失真处理,得到原始视频对应的不同类型的失真视频;步骤3,对于步骤2中的每一个失真视频,均沿时间维度切分成等时长的不重叠的视频片段;对于原始视频对应的任一失真视频,从该失真视频中选取连续多个视频片段作为参照,与该参照相邻的未来一个视频片段作为正样本,与正样本有着相同时间步但不同失真类型的视频片段作为负样本;步骤4,构建质量评估预测模型,将步骤3得到的参照、正样本以及负样本作为该模型的对比损失函数的输入,对该模型进行训练,得到质量评估预测预训练模型;步骤5,利用步骤1所述验证样本对步骤4所述质量评估预测预训练模型的参数进行微调,得到最终质量评估预测模型;步骤6,将测试样本输入至步骤5所述最终质量评估预测模型,得到视频质量评估预测结果。2.根据权利要求1所述的一种基于对比自监督的无参考视频质量评估预测方法,其特征在于,步骤1所述训练样本、验证样本和测试样本,均包括每一类别的场景内容的视频。3.根据权利要求1所述的一种基于对比自监督的无参考视频质量评估预测方法,其特征在于,步骤2所述失真处理,包括MPEG

2压缩、H.264压缩和HEVC压缩的一种或多种。4.根据权利要求1所述的一种基于对比自监督的无参考视频质量评估预测方法,其特征在于,所述步骤4的方法包括:步骤4.1,构建质量评估预测模型,并用3D卷积网络作为编码器f(
·
)对参照、正样本以及负样本中的每一个视频片段进行处理,获取每一个视频片段对应的特征表示;对于由第i个原始视频以及第m种失真类型生成的失真视频来说,将其切分为连续的视频片段选取其中连续的视频片段作为参照,与参照相邻的未来一个视频片段作为正样本,而与正样本相同时间步但是来自不同失真类型的视频片段作为负样本,n表示第n种失真类型,n≠m;用编码器f(
·
)对参照、正样本以及负样本中的视频片段进行处理得到对应的特征表示:z=f(x);步骤4.2,通过聚合函数g(
·
)将参照中所有视频片段的特征表示进行融合,得到参照的特征表示的融合:式中,表示参照的特征表示的融合;表示视频片段的特征表示;步骤4.3,利用预测函数δ(
·
)将参照的特征表示的融合进行预测,得到与参照相邻的未来一个视频片段的预测特征表示:
式中,表示与参照相邻的未来一个视频片段的预测特征表示;δ(<...

【专利技术属性】
技术研发人员:刘卫东陈鹏飞李雷达
申请(专利权)人:中国矿业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1