模型训练方法、视频编码方法及解码方法技术

技术编号：34540737 阅读：8 留言：0更新日期：2022-08-13 21:37

本申请实施例提供了一种模型训练方法、视频编码方法及解码方法。模型训练方法包括：获取参考样本帧和多个连续的待编码样本帧；通过初始生成模型中的生成器对参考样本帧进行形变处理生成重建样本帧；将每个重建样本帧和对应的待编码样本帧输入初始生成模型中的第一鉴别器得到第一鉴别结果；按照时间戳先后顺序拼接各待编码样本帧得到拼接待编码样本帧，拼接各重建样本帧得到拼接重建样本帧；将拼接待编码样本帧和拼接重建样本帧输入初始生成模型中的第二鉴别器得到第二鉴别结果；基于第一鉴别结果和第二鉴别结果得到对抗损失值，基于对抗损失值训练初始生成模型。本申请使重建视频帧序列与待编码视频帧序列保持时间域上的一致性，提升重建质量。提升重建质量。提升重建质量。

全部详细技术资料下载

【技术实现步骤摘要】
模型训练方法、视频编码方法及解码方法

[0001]本申请实施例涉及计算机
，尤其涉及一种模型训练方法、视频编码方法及解码方法。

技术介绍

[0002]视频编解码是实现视频会议、视频直播等的关键所在。随着机器学习的不断发展，可采用基于深度视频生成的编解码方法进行视频(尤其是面部视频)的编解码操作，该方法主要通过生成模型中的生成器这一神经网络模型，基于待编码帧的运动对参考帧进行形变，生成待编码帧对应的重建帧。
[0003]模型训练阶段，上述生成模型通常为由生成器和鉴别器组成的生成对抗网络。训练时，将待编码视频帧和生成器生成的重建视频帧输入鉴别器，由鉴别器进行真伪鉴别并输出鉴别结果，进而基于鉴别结果构建损失函数完成模型训练。
[0004]但是相关技术中，鉴别器进行真伪鉴别时，仅考虑重建视频帧与待编码视频帧在空间域方面的相似程度，也即：仅对比单个重建视频帧和对应的待编码视频帧间的相似程度。采用上述生成模型进行视频帧重建，最终得到的重建视频帧序列(重建视频片段)在视觉上通常存在闪烁及浮动伪影等现象，视频重建质量较差。

技术实现思路

[0005]有鉴于此，本申请实施例提供一种模型训练方法、视频编码方法及解码方法，以至少部分解决上述问题。
[0006]根据本申请实施例的第一方面，提供了一种模型训练方法，包括：
[0007]获取参考样本帧和多个连续的待编码样本帧；
[0008]通过初始生成模型中的生成器对所述参考样本帧进行形变处理，生成各待编码样本帧对应的重建样本帧；r/>[0009]将每个重建样本帧和对应的待编码样本帧输入所述初始生成模型中的第一鉴别器，得到第一鉴别结果；
[0010]按照时间戳先后顺序，拼接各待编码样本帧得到拼接待编码样本帧，以及拼接各重建样本帧得到拼接重建样本帧；将所述拼接待编码样本帧和所述拼接重建样本帧输入所述初始生成模型中的第二鉴别器，得到第二鉴别结果；
[0011]基于所述第一鉴别结果和所述第二鉴别结果得到对抗损失值，并基于所述对抗损失值训练所述初始生成模型，得到训练完成的生成模型。
[0012]根据本申请实施例的第二方面，提供了一种视频解码方法，包括：
[0013]获取视频比特流并解码，得到参考视频帧和待编码特征；
[0014]对所述参考视频帧进行特征提取，得到参考特征；并基于所述待编码特征和所述参考特征，进行运动估计，得到运动估计结果；
[0015]通过预先训练完成的生成模型中的生成器，基于所述运动估计结果，对所述参考
视频帧进行形变处理，生成重建视频帧；
[0016]其中，所述生成模型通过上述第一方面所述的模型训练方法得到。
[0017]根据本申请实施例的第三方面，提供了一种视频解码方法，应用于会议终端设备，包括：
[0018]获取视频比特流并解码，得到参考视频帧和待编码特征；所述视频比特流为在获取到视频采集设备采集到的视频片段，并对所述视频片段中的待编码视频帧进行特征提取得到待编码特征之后，对所述待编码特征和所述视频片段中的参考视频帧进行编码得到的；
[0019]对所述参考视频帧进行特征提取，得到参考特征；并基于所述待编码特征和所述参考特征，进行运动估计，得到运动估计结果；
[0020]通过预先训练完成的生成模型中的生成器，基于所述运动估计结果，对所述参考视频帧进行形变处理，生成重建视频帧；
[0021]在显示界面中显示所述重建视频帧；
[0022]其中，所述生成模型通过上述第一方面所述的模型训练方法得到。
[0023]根据本申请实施例的第四方面，提供了一种电子设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如第一方面所述的模型训练方法对应的操作，或者，如第二方面或第三方面所述的视频解码方法对应的操作。
[0024]根据本申请实施例的第五方面，提供了一种计算机存储介质，其上存储有计算机程序，该程序被处理器执行时实现如第一方面所述的模型训练方法，或者，如第二方面或第三方面所述的视频解码方法。
[0025]根据本申请实施例的第六方面，提供了一种计算机程序产品，包括计算机指令，所述计算机指令指示计算设备执行如第一方面所述的模型训练方法对应的操作，或者，如第二方面或第三方面所述的视频解码方法对应的操作。
[0026]本申请实施例提供的模型训练方法，通过初始生成模型中的生成器生成了多个连续的待编码样本帧对应的重建样本帧，并且，在对单个重建样本帧和对应的待编码样本帧进行真伪鉴别的同时，还对由各重建样本帧按照时间戳顺序拼接而成的拼接重建样本帧，以及，由各待编码样本帧按照时间戳顺序拼接而成的拼接待编码样本帧进行了真伪鉴别，进而，同时基于单个样本帧间的鉴别结果(第一鉴别结果)以及拼接样本帧间的鉴别结果(第二鉴别结果)生成对抗损失值，以完成对初始生成模型的训练。也就是说，本申请实施例中，进行真伪鉴别时，不仅考虑了重建样本帧与待编码样本帧在空间域方面的相似程度，而且，还考虑到了重建样本帧与待编码样本帧在时间域方面的相似程度，即：通过对比拼接待编码样本帧和拼接参考样本帧间的相似程度，考虑了在时间域上，各连续重建样本帧之间是否具有各连续待编码样本帧之间所具有的连续关系。因此，基于上述鉴别结果进行模型训练，并基于训练完成的生成模型进行视频帧重建，可以使得重建视频帧序列与待编码视频帧序列保持在时间域上的一致性，改善闪烁及浮动伪影现象，提升视频重建的质量。
附图说明
[0027]为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请实施例中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。
[0028]图1为基于深度视频生成的编解码方法的框架示意图；
[0029]图2为根据本申请实施例一的一种模型训练方法的步骤流程图；
[0030]图3为图2所示实施例中生成模型的网络架构示意图；
[0031]图4为根据本申请实施例二的一种模型训练方法的步骤流程图；
[0032]图5为图4所示实施例中的一种场景示例的示意图；
[0033]图6为根据本申请实施例三的一种视频编码方法的步骤流程图；
[0034]图7为根据本申请实施例四的一种视频解码方法的步骤流程图；
[0035]图8为根据本申请实施例五的一种视频解码方法的步骤流程图；
[0036]图9为根据本申请实施例六的一种模型训练装置的结构框图；
[0037]图10为根据本申请实施例七的一种视频编码装置的结构框图；
[0038]图11为根据本申请实施例八的一种视频解码装置的结构框图；
[0039]图12为根据本申请实施例九的一种视频解码装置的结构框图；本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种模型训练方法，包括：获取参考样本帧和多个连续的待编码样本帧；通过初始生成模型中的生成器对所述参考样本帧进行形变处理，生成各待编码样本帧对应的重建样本帧；将每个重建样本帧和对应的待编码样本帧输入所述初始生成模型中的第一鉴别器，得到第一鉴别结果；按照时间戳先后顺序，拼接各待编码样本帧得到拼接待编码样本帧，以及拼接各重建样本帧得到拼接重建样本帧；将所述拼接待编码样本帧和所述拼接重建样本帧输入所述初始生成模型中的第二鉴别器，得到第二鉴别结果；基于所述第一鉴别结果和所述第二鉴别结果得到对抗损失值，并基于所述对抗损失值训练所述初始生成模型，得到训练完成的生成模型。2.根据权利要求1所述的方法，其中，所述对抗损失值包括：生成对抗损失值、空间对抗损失值以及时间对抗损失值；所述基于所述第一鉴别结果和所述第二鉴别结果得到对抗损失值，包括：基于各重建样本帧的第一鉴别结果，得到生成对抗损失值；基于各重建样本帧的第一鉴别结果与对应的待编码样本帧的第一鉴别结果之间的差异值，得到空间对抗损失值；基于所述拼接待编码样本帧的第二鉴别结果和所述拼接重建样本帧的第二鉴别结果之间的差异值，得到时间对抗损失值。3.根据权利要求2所述的方法，其中，所述基于各重建样本帧的第一鉴别结果，得到生成对抗损失值，包括：获取各重建样本帧的第一鉴别结果的概率分布，作为各重建样本帧的第一重建概率分布；并基于所述各重建样本帧的第一重建概率分布的期望值，得到生成对抗损失值；所述基于各重建样本帧的第一鉴别结果与对应的待编码样本帧的第一鉴别结果之间的差异值，得到空间对抗损失值，包括：获取各待编码样本帧的第一鉴别结果的概率分布，作为各待编码样本帧的第一待编码概率分布；并基于所述各重建样本帧的第一重建概率分布的期望值和所述各待编码样本帧的第一待编码概率分布的期望值之间的期望差值，得到空间对抗损失值；所述基于所述拼接待编码样本帧的第二鉴别结果和所述拼接重建样本帧的第二鉴别结果之间的差异值，得到时间对抗损失值，包括：获取所述拼接重建样本帧的第二鉴别结果的概率分布，作为第二重建概率分布；获取所述拼接待编码样本帧的第二鉴别结果的概率分布，作为第二待编码概率分布；并基于所述第二重建概率分布的期望值与所述第二待编码概率分布的期望值之间的期望差值，得到时间对抗损失值。4.根据权利要求1所述的方法，其中，在所述基于所述对抗损失值训练所述初始生成模型，得到训练完成的生成模型之前，所述方法还包括：基于各重建样本帧和各待编码样本帧，生成感知损失值；所述基于所述对抗损失值训练所述初始生成模型，得到训练完成的生成模型，包括：基于所述对抗损失值和所述感知损失值，训练所述初始生成模型，得到训练完成的生
成模型。5.根据权利要求4所述的方法，其中，所述通过初始生成模型中的生成器对所述参考样本帧进行形变处理，生成各待编码样本帧对应的重建样本帧，包括：基于所述参考样本帧，对各待编码样本帧进行运动估计，得到各待编码样本帧的运动估计结果；针对每个待编码样本帧，将所述参考样本帧和该待编码样本帧的运动估计结果输入初始生成模型中的生成器，通过所述生成器对所述参考样本帧进行形变处理，生成该待编码样本帧对应的重建样本帧；在所述基于所述对抗损失值和所述感知损失值，训练所述初始生成模型，得到训练完成的生成模型之前，所述方法还包括：将各待编码样本帧分别输入至预先训练完成的运动预测模块，得到各待编码样本对应的真实运动结果；基于各待编码样本帧的运动估计结果和真实运动结果之间的差值，生成光流损失值；所述基于所述对抗损失值和所述感知损失值，训练所述初始生成模型，得到训练完成的生成模型，包括：基于所述对抗损失值、所述感知损失值及所述光流损失值，训练所述初始生成模型，得到...

【专利技术属性】
技术研发人员：陈柏林，王钊，叶琰，王诗淇，
申请(专利权)人：阿里巴巴中国有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人