基于神经网络的视频及音频联合质量评价方法和装置制造方法及图纸

技术编号:25091563 阅读:24 留言:0更新日期:2020-07-31 23:36
本发明专利技术提供了一种基于神经网络的视频及音频联合质量评价方法,包括:从视频帧从截取适应神经网络输入的视频图像块,利用短时傅里叶变换将音频片段的一维音频信号转化为二维声谱图表征,利用神经网络分别从视频图像块及二维声谱图中提取感知质量特征,对提取的音视频深度神经网络感知质量特征进行一定后处理,得到两种模态基于深度神经网络的质量特征,融合两种模态的质量特征得到视频帧及音频片段的联合感知质量,在时域上池化视频帧及音频片段的联合感知质量得到总体音视频的联合感知质量。同时提供了一种联合质量评价装置。本发明专利技术提供的基于神经网络的视频及音频联合质量评价方法,可有效地评价音频和视频的总体体验质量。

【技术实现步骤摘要】
基于神经网络的视频及音频联合质量评价方法和装置
本专利技术涉及多媒体质量评价
,具体地,涉及一种基于神经网络的视频及音频联合质量评价方法和装置。
技术介绍
随着社会的进步和科技的发展,人们传达信息的方式不断发生着改变。尤其是信息技术的快速发展使得以视频和音频为代表的多媒体逐渐成为人们传达信息和沟通交流不可或缺的一种方式。统计数字表明,在全世界各地范围内人们每年拍摄的照片就超过万亿张,而音频和视频等其它类型的多媒体信息也呈爆炸性增长。在此背景下,相关的多媒体信号处理技术也成为了研究热点。多媒体信息在最终呈现给用户之前可能会经历采集、压缩、传输、处理、呈现等各个阶段,而在整个多媒体通信链路中,多媒体信息可能会遭受各种失真的影响,从而造成质量退化,那么在整个通信链路的各个阶段量化感知质量的退化,对于保持、控制和提升多媒体的体验质量(QualityofExperience,QoE)具有非常重大的价值(《Z.WangandAlanC.Bovik,“Modernimagequalityassessment,”SynthesisLecturesonImage,Video,andMultimediaProcessing,vol.2,no.1,pp.1-156,2006.》)。在过去的几十年间,研究者们提出了大量的客观质量评价算法。经过检索发现:Lin及Kuo在《W.LinandC.-C.J.Kuo,“Perceptualvisualqualitymetrics:Asurvey,”JournalofVisualCommunicationandImageRepresentation,vol.22,no.4,pp.297–312,2011.》中给出了视觉质量评价的综述;Wang及Bovik在《Z.WangandAlanC.Bovik,“Meansquarederror:Loveitorleaveit?Anewlookatsignalfidelitymeasures,”IEEESignalProcessingMagazine,vol.26,no.1,pp.98-117,2009.》、《Z.WangandAlanC.Bovik,“Reduced-andno-referenceimagequalityassessment,”IEEESignalProcessingMagazine,vol.28,no.6pp.29-40,2011.》中给出了全参考、半参考和无参考质量评价的综述;Chikkerur等人在《S.Chikkerur,V.Sundaram,M.Reisslein,andL.J.Karam,“Objectivevideoqualityassessmentmethods:Aclassification,review,andperformancecomparison,”IEEETransactionsonBroadcasting,vol.57,no.2,pp.165-182,2011.》中给出视频质量评价的综述;而Campbell等人在《D.Campbell,E.Jones,andM.Glavin,“Audioqualityassessmenttechniques—Areview,andrecentdevelopments,”SignalProcessing,vol.89,no.8,pp.1489-1500,2009.》中给出了音频质量评价的综述。尽管研究者们已经提出了体验质量评价模型,但是包括上述研究在内的这些现有技术大多只聚焦于单一模态的信号,尤其是单一的视觉模态信号,即图像或视频,而忽略了同样非常重要的听觉模态信号的影响。与单一模态质量评价的广泛研究相比,音视频跨模态质量评价的受关注程度更小。You等人在《J.You,U.Reiter,M.M.Hannuksela,M.Gabbouj,andA.Perki,“Perceptual-basedqualityassessmentforaudio–visualservices:Asurvey,”SignalProcessing:ImageCommunication,vol.25,no.7,pp.482-501,2010.》中给出了音视频质量评价的综述。为了研究视听觉信号之间的相互影响以及其它影响视听质量评价的因素,通常需要对多模态感知进行基础的研究,而这些研究通常通过一些视听觉实验来实现。在一项早期研究当中,Beerends和Caluwe在《J.G.Beerends,F.E.DeCaluwe,“Theinfluenceofvideoqualityonperceivedaudioqualityandviceversa,”JournaloftheAudioEngineeringSociety,vol.47,no.5,pp.355–362,1999.》中,表明当视听觉刺激同时给出时,一种模态信号的质量评判会受到另一种模态信号的影响。还有研究者开展实验研究如何从视频质量及音频质量到处音视频的总体质量。多数研究表明视频质量总体上主导了音视频质量(可参考《ANSI-AccreditedCommitteeT1Contribution,“CombinedA/Vmodelwithmultipleaudioandvideoimpairments,”no.T1A1.5/94-124,1995.》)。总体来说,为了研究视听觉信号之间的相互影响以及其它影响视听质量评价的因素,通常需要对多模态感知进行基础的研究,而这些研究通常通过一些视听觉实验来实现,而当前领域内客观音视频联合质量评价模型极度匮乏。目前没有发现同本专利技术类似技术的说明或报道,也尚未收集到国内外类似的资料。
技术实现思路
针对现有技术中存在的上述不足,本专利技术的目的是提供一种基于神经网络的视频及音频联合质量评价方法和装置,该方法利用短时傅里叶变换将一维音频信号转化为二维表征,然后利用神经网络从二维视频帧及一维音频的二维声谱图中提取深度音视频质量特征,最后融合两种模态基于深度神经网络的质量特征来预测视频及音频联合感知质量。本专利技术是通过以下技术方案实现的。根据本专利技术的第一方面,提供一种基于神经网络的视频及音频联合质量评价方法,包括:S1:从视频帧截取适应神经网络输入的视频图像块;利用短时傅里叶变换将视频帧对应的音频片段的一维音频信号转化为二维声谱图表征;S2:利用神经网络分别从S1中得到的视频图像块及二维声谱图中提取感知质量特征;S3:对S2中提取的感知质量特征分别进行后处理,得到视频帧和音频两种模态的质量特征;S4:融合S3中得到的两种模态的质量特征,得到视频帧及音频片段的联合感知质量;S5:在时域上池化S4中得到的视频帧及音频片段的联合感知质量,得到总体音视频的联合感知质量。优选地,所述S1中,分别从一一对应的参考视频帧和失真视频帧中截取适应神经网络输入的视频图像块,其中:对于每个参考视频帧,需要从参考视频帧中随机截取若干个分辨率适应神本文档来自技高网
...

【技术保护点】
1.一种基于神经网络的视频及音频联合质量评价方法,其特征在于,包括:/nS1:从视频帧截取视频图像块,以及,利用短时傅里叶变换将视频帧对应的音频片段的一维音频信号转化为二维声谱图表征;/nS2:利用神经网络分别从S1中得到的视频图像块及二维声谱图中提取感知质量特征;/nS3:对S2中提取的感知质量特征分别进行后处理,得到视频帧和音频两种模态的质量特征;/nS4:融合S3中得到的两种模态的质量特征,得到视频帧及音频片段的联合感知质量;/nS5:在时域上池化S4中得到的视频帧及音频片段的联合感知质量,得到总体音视频的联合感知质量。/n

【技术特征摘要】
1.一种基于神经网络的视频及音频联合质量评价方法,其特征在于,包括:
S1:从视频帧截取视频图像块,以及,利用短时傅里叶变换将视频帧对应的音频片段的一维音频信号转化为二维声谱图表征;
S2:利用神经网络分别从S1中得到的视频图像块及二维声谱图中提取感知质量特征;
S3:对S2中提取的感知质量特征分别进行后处理,得到视频帧和音频两种模态的质量特征;
S4:融合S3中得到的两种模态的质量特征,得到视频帧及音频片段的联合感知质量;
S5:在时域上池化S4中得到的视频帧及音频片段的联合感知质量,得到总体音视频的联合感知质量。


2.根据权利要求1所述的一种基于神经网络的视频及音频联合质量评价方法,其特征在于,所述S1中,分别从一一对应的参考视频帧和失真视频帧中截取适应神经网络输入的视频图像块,其中:
对于每个参考视频帧,需要从参考视频帧中随机截取若干个分辨率适应神经网络输入的参考视频图像块,所述参考视频图像块用于为计算失真视频的质量提供参考;
相对应的,对于每个失真视频帧,需要从失真视频帧中在与参考视频帧相同位置处截取与参考视频图像块数量相同、分别率相同的失真视频图像块,所述失真视频图像块用于计算失真视频的质量。


3.根据权利要求1所述的一种基于神经网络的视频及音频联合质量评价方法,其特征在于,所述S1中,利用短时傅里叶变换分别将参考音频和失真音频的一维音频信号转化为二维声谱图表征,包括:
对参考音频进行短时傅里叶变换,生成分辨率匹配神经网络的输入图分辨率的参考二维声谱图,所述参考二维声谱图用于为计算失真音频的质量提供参考;
对失真音频进行短时傅里叶变换,生成分辨率匹配神经网络的输入图分辨率的失真二维声谱图,所述失真二维声谱图用于计算失真音频的质量。


4.根据权利要求3所述的一种基于神经网络的视频及音频联合质量评价方法,其特征在于,所述短时傅立叶变换中,设定间隔为t毫秒、宽度为w毫秒,两个窗之间具有P%交叠的窗,对离视频帧最近的N×t毫秒的音频信号进行计算;对于频率轴,从梅尔尺度上均匀采样N个频率点,然后转换至赫兹尺度,其中采样频率点的频率范围为20Hz至20kHz。


5.根据权利要求1所述的一种基于神经网络的视频...

【专利技术属性】
技术研发人员:闵雄阔翟广涛杨小康
申请(专利权)人:上海交通大学
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1