基于自然音视频统计的无参考音视频联合质量评价方法技术

技术编号:25091562 阅读:26 留言:0更新日期:2020-07-31 23:36
本发明专利技术提供了的一种基于自然音视频统计的无参考音视频联合质量评价方法,该方法通过将相关的自然视频统计模型推广至自然音频统计,并进一步构建自然音频及视频联合统计模型,从而实现基于自然音频及视频统计的无参考音视频联合质量评价;包括:构建自然视频统计模型,将自然视频统计模型推广至自然音频统计,利用自然视频统计模型及自然音频统计模型构建自然音频及视频联合统计模型,提取基于自然音频统计、自然视频统计、及自然音视频联合统计的音视频质量特征,特征回归得到最终的音视频联合质量估计;本发明专利技术提供的无参考音视频联合质量评价方法,可有效地在原始音频及视频信号未知的情况下估计待测的音视频信号联合质量。

【技术实现步骤摘要】
基于自然音视频统计的无参考音视频联合质量评价方法
本专利技术涉及多媒体质量评价
,具体地,涉及一种基于自然音频及视频统计模型的无参考音视频联合质量评价方法。
技术介绍
近年来,多媒体质量评价吸引了音频处理和视频处理等领域众多研究者的关注。根据待评价信号的类型,多媒体质量评价可以分为:视频/视频质量评价(image/videoqualityassessment)和音频质量评价(audioqualityassessment)。在过去的几十年间,研究者们提出了大量的客观视觉质量评价算法。经过对现有技术的检索发现:Lin及Kuo在《W.LinandC.-C.J.Kuo,“Perceptualvisualqualitymetrics:Asurvey,”JournalofVisualCommunicationandImageRepresentation,vol.22,no.4,pp.297–312,2011.》中给出了视觉质量评价的综述;Wang及Bovik在《Z.WangandAlanC.Bovik,“Meansquarederror:Loveitorleaveit?Anewlookatsignalfidelitymeasures,”IEEESignalProcessingMagazine,vol.26,no.1,pp.98-117,2009.》、《Z.WangandAlanC.Bovik,“Reduced-andno-referenceimagequalityassessment,”IEEESignalProcessingMagazine,vol.28,no.6pp.29-40,2011.》给出了全参考、半参考和无参考质量评价的综述;Chikkerur等人在《S.Chikkerur,V.Sundaram,M.Reisslein,andL.J.Karam,“Objectivevideoqualityassessmentmethods:Aclassification,review,andperformancecomparison,”IEEETransactionsonBroadcasting,vol.57,no.2,pp.165-182,2011.》给出视频质量评价的综述;Campbell等人在《D.Campbell,E.Jones,andM.Glavin,“Audioqualityassessmenttechniques—Areview,andrecentdevelopments,”SignalProcessing,vol.89,no.8,pp.1489-1500,2009.》给出了音频质量评价的综述。尽管上述质量评价技术取得了令人鼓舞的结果,但是它们大多对单一模态的多媒体信号的质量进行评价,如单一的图像、视频或音频,而忽略了音视频多模态信号之间的相互影响及融合。与单一模态质量评价的广泛研究相比,音视频跨模态质量评价的受关注程度更小,但是同时考虑音视频多模态的信号更加贴近实际应用情况。You等人在《J.You,U.Reiter,M.M.Hannuksela,M.Gabbouj,andA.Perki,“Perceptual-basedqualityassessmentforaudio–visualservices:Asurvey,”SignalProcessing:ImageCommunication,vol.25,no.7,pp.482-501,2010.》中给出了音视频质量评价的综述。这种评价技术为了研究视听觉信号之间的相互影响以及其它影响视听质量评价的因素,通常需要对多模态感知进行基础的研究,而这些研究通常通过一些视听觉实验来实现。总的来说,这些评价技术都不基于内容分析,而是直接从比特率、编码器类型等参数中估计音视频质量,因此应用场景十分受限。AlanBovik等人在《A.K.MoorthyandA.C.Bovik,“Blindimagequalityassessment:Fromnaturalscenestatisticstoperceptualquality,”IEEETrans.ImageProcess.,vol.20,no.12,pp.3350–3364,Dec.2011.》、《M.A.Saad,A.C.Bovik,andC.Charrier,“Blindimagequalityassessment:AnaturalscenestatisticsapproachintheDCTdomain,”IEEETrans.ImageProcess.,vol.21,no.8,pp.3339–3352,Aug.2012.》,以及《A.Mittal,A.K.Moorthy,andA.C.Bovik,“No-referenceimagequalityassessmentinthespatialdomain,”IEEETrans.ImageProcess.,vol.21,no.12,pp.4695–4708,Dec.2012.》中大量利用了自然视频统计来评价视频质量。然而上述方法中的自然视频统计模型仅仅适用于图像及视频,所设计的方法也只能应用于图像和视频。目前尚没有研究或方法将相关的自然视频统计模型推广并应用至音频,并进一步构建自然音频及视频联合统计模型,从而实现基于自然音频及视频统计的无参考音视频联合质量评价。
技术实现思路
针对现有技术中存在的上述不足,本专利技术的目的是提供一种基于自然音频及视频统计模型(简称自然音视频统计)的无参考音视频联合质量评价方法,该方法通过将相关的自然视频统计模型推广至自然音频统计,并进一步构建自然音频及视频联合统计模型,从而实现基于自然音频及视频统计的无参考音视频联合质量评价。本专利技术是通过以下技术方案实现的。一种基于自然音视频统计的无参考音视频联合质量评价方法,包括:S1:对输入视频信号构建自然视频统计模型,所述自然视频统计模型用于对视频进行统计建模;S2:将S1中得到的自然视频统计模型推广至自然音频统计中,对输入音频信号构建自然音频统计模型,所述自然音频统计模型用于对音频进行统计建模;S3:利用S1中得到的自然视频统计模型及S2中得到的自然音频统计模型,构建自然音频及视频联合统计模型,所述自然音频及视频联合统计模型用于对视频和音频进行联合统计建模;S4:分别提取基于自然音频统计模型、自然视频统计模型以及自然音视频联合统计模型的音视频质量特征;S5:对S4中得到的音视频质量特征进行特征回归操作,得到最终的音视频联合质量估计。优选地,所述S1中,对输入视频信号进行正则化处理,并利用正则化后的视频信号构建空间域的自然视频统计模型;包括:对输入视频信号进行正则化处理:式中,I(i,j)为原始视频信号,为正则化之后的视频信号,i,j为像素索引,c是根据视频信号动态范围设定的一个用于保持除式稳定的常数;μ(i,j)及σ(i,j)分别表示视频信号的局部均值及标准差:式中,wk,本文档来自技高网
...

【技术保护点】
1.一种基于自然音视频统计的无参考音视频联合质量评价方法,其特征在于,包括:/nS1:对输入视频信号构建自然视频统计模型,所述自然视频统计模型用于对视频进行统计建模;/nS2:将S1中得到的自然视频统计模型推广至自然音频统计中,对输入音频信号构建自然音频统计模型,所述自然音频统计模型用于对音频进行统计建模;/nS3:利用S1中得到的自然视频统计模型及S2中得到的自然音频统计模型,构建自然音频及视频联合统计模型,所述自然音频及视频联合统计模型用于对视频和音频进行联合统计建模;/nS4:分别提取基于自然音频统计模型、自然视频统计模型以及自然音视频联合统计模型的音视频质量特征;/nS5:对S4中得到的音视频质量特征进行特征回归操作,得到最终的音视频联合质量估计。/n

【技术特征摘要】
1.一种基于自然音视频统计的无参考音视频联合质量评价方法,其特征在于,包括:
S1:对输入视频信号构建自然视频统计模型,所述自然视频统计模型用于对视频进行统计建模;
S2:将S1中得到的自然视频统计模型推广至自然音频统计中,对输入音频信号构建自然音频统计模型,所述自然音频统计模型用于对音频进行统计建模;
S3:利用S1中得到的自然视频统计模型及S2中得到的自然音频统计模型,构建自然音频及视频联合统计模型,所述自然音频及视频联合统计模型用于对视频和音频进行联合统计建模;
S4:分别提取基于自然音频统计模型、自然视频统计模型以及自然音视频联合统计模型的音视频质量特征;
S5:对S4中得到的音视频质量特征进行特征回归操作,得到最终的音视频联合质量估计。


2.根据权利要求1所述的基于自然音视频统计的无参考音视频联合质量评价方法,其特征在于,所述S1中,对输入视频信号进行正则化处理,并利用正则化后的视频信号构建空间域的自然视频统计模型;包括:
对输入视频信号进行正则化处理:



式中,I(i,j)为原始视频信号,为正则化之后的视频信号,i,j为像素索引,c是根据视频信号动态范围设定的一个用于保持除式稳定的常数;μ(i,j)及σ(i,j)分别表示视频信号的局部均值及标准差:






式中,wk,l,k=-K,…,K,l=-L,…,L表示一个二维的局部高斯窗;
利用自然视频统计特性对正则化后的视频信号进行对自然视频统计模型建模:
采用广义高斯分布对正则化后的视频信号进行描述:



式中,f(x;α,σ2)表示正则化视频信号的像素值所服从的概率密度函数;x表示正则化视频信号的像素值;α表示一个参数,用于控制分布的形状;σ表示一个参数,σ2用于控制分布的方差;Γ(·)表示如下伽马函数:



β表示以下参数;



采用非对称广义高斯分布描述与正则化后的视频信号相邻的两个样本及之间的乘积,即















式中,表示正则化视频信号的相邻像素值乘积所服从的概率密度函数,v表示一个参数,用于控制分布的形状;σl表示一个参数,用于控制左侧分布的方差;σr表示一个参数,用于控制右侧分布的方差;βl及βr表示以下参数:








3.根据权利要求1所述的基于自然音视频统计的无参考音视频联合质量评价方法,其特征在于,所述S2中,对输入音频信号进行正则化处理,并利用正则化后的音频信号构建自然音频统计模型;包括:
对输入音频信号进行正则化处理:



式中,a(t)为原始音频信号,为正则化之后的音频信号,t为时序索引,k是根据音频信号动态范围设定的一个用于保持除式稳定的常数;μ(t)及σ(t)分别表示音频信号的局部均值及标准差:






式中,wτ,τ=-T,…,T表示一个一维的局部高斯窗;
利用自然音频统计特性对正则化后的音频信号进行自然音频统计模型建模:
采用广义高斯分布来对正则化后的音频信号进行描述:



式中,f(x;α,σ2)表示正则化音频信号的样本值所服从的概率密度函数;x表示正则化音频信号的样本值;α表示一个参数,用于控制分布的形状;σ表示一个参数,σ2用于控制分布的方差;Γ(·)表示如下伽马函数:



β表示以下参数:



采用非对称广义高斯分布描述与正则化后的音频信号相邻的两个样本及之间的乘积,即






式中,表示正则化音频信号的相邻样本值乘积所服从的概率密度函数,v表示一个参数,用于控制分布的形状;σl表示一个参数,用于控制左侧分布的方差;σr...

【专利技术属性】
技术研发人员:闵雄阔翟广涛杨小康
申请(专利权)人:上海交通大学
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1