一种基于机器学习的内容自适应视频编码方法技术

技术编号：23992116 阅读：57 留言：0更新日期：2020-04-29 16:39

本发明专利技术公开了一种基于机器学习的内容自适应视频编码方法。它具体包括如下步骤：(1)构建数据集：选取不同素材的高质量视频，并以场景为单位，提取有效信息；(2)训练模型：使用机器学习方法训练预测模型，采用多层全连接神经网络，根据用户设定参数生成网络模型；(3)实际分析预测：先将视频流缓冲一定帧数，并对缓冲视频帧提取复杂度信息，结合用户设定参数使用训练的网络模型，预测输出编码设定参数。本发明专利技术的有益效果是：可自适应决定编码参数，输出图像质量比较一致的视频流，具有较低计算复杂度，并能够方便地应用于现有的视频编码框架中。

A content adaptive video coding method based on machine learning

全部详细技术资料下载

【技术实现步骤摘要】
一种基于机器学习的内容自适应视频编码方法
本专利技术涉及视频编码相关
，尤其是指一种基于机器学习的内容自适应视频编码方法。
技术介绍
对于目前的视频文件转码需求，为了能在带宽受限和控制成本条件下提供更好的视频观看体验，OTT分发平台一般会根据通用编码配置表(或称为编码阶梯表)，或者自定义配置模板，对每个源视频编码产生多个分辨率和码率组合的版本，然后根据用户带宽和播放终端选择合适的版本。这样的编码配置表只考虑了网络状况和终端播放器限制，而没有考虑视频特性。不同类别的视频，内容复杂度差别会很大。例如体育赛事等较高复杂度的视频，编码配置的码率可能偏低；而对于动画片等低复杂度的视频，编码配置的码率可能偏高，造成带宽浪费。这种方式最直接的结果就是用户终端看到的视频质量不一致。
技术实现思路
本专利技术是为了克服现有技术中存在上述的不足，提供了一种视频质量较为一致的基于机器学习的内容自适应视频编码方法。为了实现上述目的，本专利技术采用以下技术方案：一种基于机器学习的内容自适应视频编码方法，具体包括如下步骤：(1)构建数据集：选取不同素材的高质量视频，并以场景为单位，提取有效信息；(2)训练模型：使用机器学习方法训练预测模型，采用多层全连接神经网络，根据用户设定参数生成网络模型；(3)实际分析预测：先将视频流缓冲一定帧数，并对缓冲视频帧提取复杂度信息，结合用户设定参数使用训练的网络模型，预测输出编码设定参数。本方法由分析器和预测器两个核心组成，其中分析器用于...

【技术保护点】
1.一种基于机器学习的内容自适应视频编码方法，其特征是，具体包括如下步骤：/n(1)构建数据集：选取不同素材的高质量视频，并以场景为单位，提取有效信息；/n(2)训练模型：使用机器学习方法训练预测模型，采用多层全连接神经网络，根据用户设定参数生成网络模型；/n(3)实际分析预测：先将视频流缓冲一定帧数，并对缓冲视频帧提取复杂度信息，结合用户设定参数使用训练的网络模型，预测输出编码设定参数。/n

【技术特征摘要】
1.一种基于机器学习的内容自适应视频编码方法，其特征是，具体包括如下步骤：
(1)构建数据集：选取不同素材的高质量视频，并以场景为单位，提取有效信息；
(2)训练模型：使用机器学习方法训练预测模型，采用多层全连接神经网络，根据用户设定参数生成网络模型；
(3)实际分析预测：先将视频流缓冲一定帧数，并对缓冲视频帧提取复杂度信息，结合用户设定参数使用训练的网络模型，预测输出编码设定参数。

2.根据权利要求1所述的一种基于机器学习的内容自适应视频编码方法，其特征是，在步骤(1)中，构建数据集的具体操作方法如下：
(11)根据实际应用场景，筛选高质量的素材，并将素材按场景划分为编码单元；
(12)按照固定编码参数模板，对每个场景按照三种分辨率，每种分辨率按照CRF值从12到40，步长为1的设定进行编码，统计得到每种情况下的复杂度信息、质量分数、码率，并记录相应编码参数为分辨率、帧率、CRF值，其中：质量分数采用VMAF，复杂度信息是指I/P/B帧对应的SATD平均值；
(13)由于VMAF计算质量分数时对分辨率不敏感，需要对其进行修正。

3.根据权利要求2所述的一种基于机器学习的内容自适应视频编码方法，其特征是，在步骤(13)中，修正方法如下：对CRF值小于29的样点，计算质量分数时在CRF＝29时的质量分数基础时进行缩小，即乘以一个0到1的系数α，VMAF质量分数为Score，修正后为Score’，修正公式为：
Score'＝Score[CRF＝29]+(Score-Scare[CRF＝29])*α。

4.根据权利要求2所述的一种基于机器学习的内容自适应视频编码方法，其特征是，在步骤(2)中，训练模型的具体操作方法如下：
(21)由构建数据集的信息可知，将特征分量分别标记为satd_I、satd_P、satd_B、size、fps、score，即分别表示为I帧SATD平均、P帧SATD平均值、B帧SATD平均值、分辨率、帧率、质量分数值；
(22)如果某些场景中，随着CRF设定参数的不同，质量分数score变化很小，那么剔除掉这部分数据；
(23)输出变量为CRF，选择网络模型，选择合适的迭代步长和次数，并根据迭代训练结果做适当调整，最终保存这个网络模型参数。

5.根据权利要求4所述的一种基于机器学习的内容自适应视频编码方法，其特征是，在步骤(21)中，由于同一个片段具有相同的分辨率和帧率，考虑到将输入变量归一化，并简化计算量，将特征分量改为input_I、input_P、input_B、score_N，size＝width*height，其中：

6.根据权利要求4所述的一种基于机器学习的内容自适应视频编码方法，其特征是，在步骤(23)中，假设迭代次数上限为CntMax，迭代步长为Step，步长下限为StepMin，误差下限值为ErrMin，迭代训练方法如下：
(231)初始化迭代次数和迭代步长；
(232)进行迭代训练，迭代次数加1，与迭代次数上...

【专利技术属性】
技术研发人员：王建伟，万俊青，谢亚光，
申请(专利权)人：杭州当虹科技股份有限公司，
类型：发明
国别省市：浙江;33

全部详细技术资料下载我是这个专利的主人