编解码器速率失真补偿降采样器制造技术

技术编号:37271765 阅读:15 留言:0更新日期:2023-04-20 23:40
一种系统,其包括基于机器学习(ML)模型的视频降采样器,该视频降采样器配置为接收具有第一显示分辨率的输入视频序列,并且将该输入视频序列映射到具有第二显示分辨率的较低分辨率视频序列,该第二显示分辨率低于所述第一显示分辨率。该系统还包括基于神经网络(基于NN)的代理视频编解码器,该代理视频编解码器被配置成将较低分辨率视频序列变换成经解码的代理比特流。另外,该系统包括升采样器,其配置为使用经解码的代理比特流来产生输出视频序列。序列。序列。

【技术实现步骤摘要】
编解码器速率失真补偿降采样器

技术介绍

[0001]降采样是内容流系统中的操作,以产生不同类型的客户端设备可用的比特率和分辨率方面的不同表示。在现代流系统中,流服务器在分辨率和比特率方面提供不同的编码表示,使得客户端设备可以动态地下载与其回放上下文(例如,显示大小和网络条件)最佳匹配的表示。为了提供这样的表示,流服务器需要在编码之前将源视频降采样到不同的分辨率。降采样可以用在感知上不是最佳的滤波器来执行。
附图说明
[0002]图1示出了根据一个实施方式的示例性视频处理系统的图,该示例性视频处理系统包括基于训练的机器学习(Machine Learning,ML)模型的编解码器速率失真(rate distortion)补偿降采样器;
[0003]图2示出根据一个实施方式的用于训练图1所示的基于ML模型的编解码器速率失真补偿降采样器的训练流水线系统的图;
[0004]图3描绘根据各种实施方案的图1中所示的基于ML模型的编解码器速率失真补偿降采样器的替代示范性架构;
[0005]图4示出了一个流程图,其概述了根据一个实施方式的用于训练基于ML模型的编解码器速率失真补偿降采样器的示例性方法;
[0006]图5A示出了根据本专利技术构思的一个方面的、描述了由图1的视频处理系统实现的示例性条件降采样网络的图;以及
[0007]图5B示出了根据本专利技术构思的另一方面的、描述了由图1的视频处理系统实现的示例性条件降采样网络的图。
具体实施方式
[0008]以下描述包含与本公开中的实施方式有关的具体信息。本领域技术人员将认识到,本公开可以以与本文具体讨论的方式不同的方式来实现。本申请中的附图及其详细描述仅针对示例性实施方式。除非另外指出,否则附图中的相同或相应的元件可以由相同或相应的附图标记表示。此外,本申请中的附图和图示通常不是按比例描绘的,并且不旨在对应于实际的相对尺寸。
[0009]本申请公开了用于训练和利用基于机器学习(ML)模型的编解码器速率失真补偿降采样器的系统和方法,其克服了现有技术中的缺点和不足。诸如双线性、三次或Lanczos滤波器的滤波器在感知上不是最佳的,并且没有考虑源内容将在降采样之后被编码。为此,本申请公开了一种感知上优化的降采样方法,包括1)学习的降采样器,2)模拟标准兼容图像或视频编解码器的代理视频编解码器,3)时间感知损失函数,4)允许不同损失函数之间的推理时间内插的调节机制,以及5)用于任意缩放的机制。本申请中公开的降采样解决方案仅应用于源内容。因此,这些解决方案与现有的图像或视频编码流水线兼容,并且不需要在客户端侧进行任何改变,同时在感知质量度量方面提供改进的速率失真性能。此外,在一
些实施方式中,本专利技术的编解码器速率失真补偿降采样解决方案可以被实现为自动化过程。
[0010]值得注意的是,如本申请中所定义的,术语“自动化”(“automation”)、“自动化的”(“automated”)和“使自动化”(“automating”)是指不需要人类用户参与的系统和过程,诸如人类编辑者或系统管理员。例如,尽管在一些实施方式中,人类系统管理员可以审查本文公开的系统和方法的性能,或者在以下讨论的条件降采样的情况下,可以提供用户定义的感知损失函数权重,但是人类参与是可选的。因此,在一些实施方式中,本申请中描述的过程可以在所公开的系统的硬件处理组件的控制下执行。
[0011]还应注意,如本申请中所定义的,表述“机器学习模型”或“ML模型”可以指用于基于从数据样本或“训练数据”学习的模式进行未来预测的数学模型。各种学习算法可以用于映射输入数据和输出数据之间的相关性。这些相关性形成了可用于对新输入数据进行未来预测的数学模型。这种预测模型可以包括一个或多个逻辑回归模型、贝叶斯模型或神经网络(Neural Network,NN)。此外,在深度学习的背景中,“深度神经网络”可以指利用输入层和输出层之间的多个隐藏层的NN,其可以允许基于未在原始数据中明确定义的特征的学习。在各种实施方式中,NN可被训练为分类器,并可被用来执行图像处理或自然语言处理。
[0012]还应注意,如本申请中所限定,特征“代理视频编解码器”是指基于NN或其它基于ML模型的软件模块,该软件模块已被预先训练以复制标准编解码器(例如,H.264或AV1)的速率失真特性。相反,现有的基于深度学习的编解码器没有被训练成复制标准编解码器的失真特性。结果是,由现有的基于深度学习的编解码器引入的降采样伪像(artifact)与由标准编解码器产生并由本文公开的代理视频编解码器复制的降采样伪像非常不同。也就是说,通过引入旨在再现传统图像/视频编解码器的输出的基于知识蒸馏的代理视频编解码器,本申请中公开的方法有利地促进了针对标准编解码器产生的实际失真的降采样器性能的优化。
[0013]图1示出了根据一个实施方式的包括经训练的基于ML模型的编解码器速率失真补偿视频降采样器112(以下称为“基于ML模型的视频降采样器112”)的示例性视频处理系统100的图。如图1所示,视频处理系统100包括计算平台102,其具有处理硬件104和被实现为计算机可读非暂态存储介质的系统存储器106。根据本示例性实施方式,系统存储器106存储经训练的基于ML模型的视频降采样器112、视频编解码器114和仿真模块120。
[0014]如图1进一步所示,视频处理系统100在使用环境中实现,该使用环境包括提供视频序列138(以下称为“输入视频序列138”)的视频源134、通信网络130、以及利用包括显示器148的客户端设备140的媒体内容消费者108。另外,图1示出了经由通信网络130将视频源134及客户端设备140与视频处理系统100通信地耦合的网络通信链路132。图1中还示出了较低分辨率视频序列152以及与输入视频序列138相对应的经解码的比特流146。
[0015]需要注意的是,尽管视频处理系统100可以经由通信网络130和网络通信链路132从视频源134接收输入视频序列138,但是在一些实施方式中,视频源134可以采取与计算平台102集成的内容源的形式,或者可以与视频处理系统100直接通信,如虚线通信链路136所示。还应注意的是,在一些实施方式中,视频处理系统100可以省略仿真模块120。因此,在一些实施方式中,系统存储器106可以存储经训练的基于ML模型的视频降采样器112和视频编解码器114,而不是仿真模块120。
[0016]输入视频序列138可以包括例如视频游戏、电影或包括流传输的情节内容或广播的情节内容的情节节目内容形式的音频

视频(Audio

Video,AV)内容。输入视频序列138可以包括具有嵌入的音频、字幕、时间码和其他辅助元数据(例如,评级和家长指导)的高清晰度(HD)或超高清(UHD)基带视频信号。在一些实施方法中,输入视频序列138可以由视频源134如TV广播网络或其他媒体分发实体(例如,电影工作室、流平台等)利用例如辅助音频节目(SAP)或描述性视本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种系统,包括:(a)基于机器学习(ML)模型的视频降采样器,其配置为:接收具有第一显示分辨率的输入视频序列;以及将所述输入视频序列映射到较低分辨率视频序列,所述较低分辨率视频序列具有低于所述第一显示分辨率的第二显示分辨率;(b)基于神经网络(基于NN)的代理视频编解码器,其配置为将所述较低分辨率视频序列变换成经解码的代理比特流;以及(c)升采样器,配置为使用所述经解码的代理比特流来产生输出视频序列。2.根据权利要求1所述的系统,其中产生所述输出视频序列包括:接收所述经解码的代理比特流;以及产生与所述输入视频序列相对应的输出视频序列,所述输出视频序列具有高于第二显示分辨率的显示分辨率。3.根据权利要求1所述的系统,其中所述基于机器学习模型的视频降采样器是使用所述输入视频序列、所述输出视频序列、以及基于所述较低分辨率视频序列的估计速率和多个感知损失函数的目标函数来训练的。4.根据权利要求3所述的系统,其中所述目标函数包括所述较低分辨率视频序列的估计速率与所述多个感知损失损失函数的加权和的组合。5.根据权利要求4所述的系统,其中所述基于机器学习模型的视频降采样器还配置为接收包括在所述多个感知损失函数的加权和中的多个加权因子,并且其中所述基于机器学习模型的视频降采样器还被使用所述多个加权因子训练。6.根据权利要求1所述的系统,其中,所述基于神经网络的代理视频编解码器被预先训练成复制标准视频编解码器的速率失真特性。7.根据权利要求1所述的系统,其中所述基于神经网络的代理视频编解码器是可微分的。8.根据权利要求1所述的系统,其中,所述升采样器包括基于机器学习模型的升采样器。9.根据权利要求8所述的系统,其中所述基于机器学习模型的升采样器和所述基于机器学习模型的视频降采样器被同时训练。10.一种用于训练基于机器学习(ML)模型的视频降采样器的方法,所述方法包括:向所述基于机器学习模型的视频降采样器提供具有第一显示分辨率的输入视频序列;使用所述基于机器学习模型的视频降采样器将所述输入视频序列映射到较低分辨率视频序列,所述较低分辨率视频序列具有低于第一显示分辨率的第二显示分辨率;使用基于神经网络(基于NN)的代理视频编解码器将所述较低分辨率视频序列变换成经解码的代理比特流;使用接收所述经解码的代理比特流的升采样器产生输出视频序列,所述输出视频序列对应于所述输入视频序列并且所述输出视频序列具有高于所述第二显示分辨率的显示分辨率;以及使用所述输入视频序列、所述输出视频序列和基于所述较低分辨率视频序列的估计速率以及多个感知损失函数的目标函数来训练所述基于机器学习模型的视频降采样器。11.根据权利要求10所述的方法,其中,所述基于神经网络的代理视频...

【专利技术属性】
技术研发人员:C
申请(专利权)人:苏黎世联邦理工学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1