基于神经网络的视频及音频联合质量评价方法和装置制造方法及图纸

技术编号：25091563 阅读：24 留言：0更新日期：2020-07-31 23:36

本发明专利技术提供了一种基于神经网络的视频及音频联合质量评价方法，包括：从视频帧从截取适应神经网络输入的视频图像块，利用短时傅里叶变换将音频片段的一维音频信号转化为二维声谱图表征，利用神经网络分别从视频图像块及二维声谱图中提取感知质量特征，对提取的音视频深度神经网络感知质量特征进行一定后处理，得到两种模态基于深度神经网络的质量特征，融合两种模态的质量特征得到视频帧及音频片段的联合感知质量，在时域上池化视频帧及音频片段的联合感知质量得到总体音视频的联合感知质量。同时提供了一种联合质量评价装置。本发明专利技术提供的基于神经网络的视频及音频联合质量评价方法，可有效地评价音频和视频的总体体验质量。

全部详细技术资料下载

【技术实现步骤摘要】
基于神经网络的视频及音频联合质量评价方法和装置
本专利技术涉及多媒体质量评价
，具体地，涉及一种基于神经网络的视频及音频联合质量评价方法和装置。
技术介绍
随着社会的进步和科技的发展，人们传达信息的方式不断发生着改变。尤其是信息技术的快速发展使得以视频和音频为代表的多媒体逐渐成为人们传达信息和沟通交流不可或缺的一种方式。统计数字表明，在全世界各地范围内人们每年拍摄的照片就超过万亿张，而音频和视频等其它类型的多媒体信息也呈爆炸性增长。在此背景下，相关的多媒体信号处理技术也成为了研究热点。多媒体信息在最终呈现给用户之前可能会经历采集、压缩、传输、处理、呈现等各个阶段，而在整个多媒体通信链路中，多媒体信息可能会遭受各种失真的影响，从而造成质量退化，那么在整个通信链路的各个阶段量化感知质量的退化，对于保持、控制和提升多媒体的体验质量(QualityofExperience，QoE)具有非常重大的价值(《Z.WangandAlanC.Bovik,“Modernimagequalityassessment,”SynthesisLecturesonImage,Video,andMultimediaProcessing,vol.2,no.1,pp.1-156,2006.》)。在过去的几十年间，研究者们提出了大量的客观质量评价算法。经过检索发现：Lin及Kuo在《W.LinandC.-C.J.Kuo,“Perceptualvisualqualitymetrics:Asurvey,”JournalofVisualC...

【技术保护点】
1.一种基于神经网络的视频及音频联合质量评价方法，其特征在于，包括：/nS1：从视频帧截取视频图像块，以及，利用短时傅里叶变换将视频帧对应的音频片段的一维音频信号转化为二维声谱图表征；/nS2：利用神经网络分别从S1中得到的视频图像块及二维声谱图中提取感知质量特征；/nS3：对S2中提取的感知质量特征分别进行后处理，得到视频帧和音频两种模态的质量特征；/nS4：融合S3中得到的两种模态的质量特征，得到视频帧及音频片段的联合感知质量；/nS5：在时域上池化S4中得到的视频帧及音频片段的联合感知质量，得到总体音视频的联合感知质量。/n

【技术特征摘要】
1.一种基于神经网络的视频及音频联合质量评价方法，其特征在于，包括：
S1：从视频帧截取视频图像块，以及，利用短时傅里叶变换将视频帧对应的音频片段的一维音频信号转化为二维声谱图表征；
S2：利用神经网络分别从S1中得到的视频图像块及二维声谱图中提取感知质量特征；
S3：对S2中提取的感知质量特征分别进行后处理，得到视频帧和音频两种模态的质量特征；
S4：融合S3中得到的两种模态的质量特征，得到视频帧及音频片段的联合感知质量；
S5：在时域上池化S4中得到的视频帧及音频片段的联合感知质量，得到总体音视频的联合感知质量。

2.根据权利要求1所述的一种基于神经网络的视频及音频联合质量评价方法，其特征在于，所述S1中，分别从一一对应的参考视频帧和失真视频帧中截取适应神经网络输入的视频图像块，其中：
对于每个参考视频帧，需要从参考视频帧中随机截取若干个分辨率适应神经网络输入的参考视频图像块，所述参考视频图像块用于为计算失真视频的质量提供参考；
相对应的，对于每个失真视频帧，需要从失真视频帧中在与参考视频帧相同位置处截取与参考视频图像块数量相同、分别率相同的失真视频图像块，所述失真视频图像块用于计算失真视频的质量。

3.根据权利要求1所述的一种基于神经网络的视频及音频联合质量评价方法，其特征在于，所述S1中，利用短时傅里叶变换分别将参考音频和失真音频的一维音频信号转化为二维声谱图表征，包括：
对参考音频进行短时傅里叶变换，生成分辨率匹配神经网络的输入图分辨率的参考二维声谱图，所述参考二维声谱图用于为计算失真音频的质量提供参考；
对失真音频进行短时傅里叶变换，生成分辨率匹配神经网络的输入图分辨率的失真二维声谱图，所述失真二维声谱图用于计算失真音频的质量。

4.根据权利要求3所述的一种基于神经网络的视频及音频联合质量评价方法，其特征在于，所述短时傅立叶变换中，设定间隔为t毫秒、宽度为w毫秒，两个窗之间具有P％交叠的窗，对离视频帧最近的N×t毫秒的音频信号进行计算；对于频率轴，从梅尔尺度上均匀采样N个频率点，然后转换至赫兹尺度，其中采样频率点的频率范围为20Hz至20kHz。

5.根据权利要求1所述的一种基于神经网络的视频...

【专利技术属性】
技术研发人员：闵雄阔，翟广涛，杨小康，
申请(专利权)人：上海交通大学，
类型：发明
国别省市：上海;31

全部详细技术资料下载我是这个专利的主人