当前位置: 首页 > 专利查询>复旦大学专利>正文

一种用于机器视频编码的快速VVC帧内编码方法技术

技术编号:37845257 阅读:10 留言:0更新日期:2023-06-14 22:29
本发明专利技术属于视频压缩编解码技术领域,具体为一种用于机器视频编码的快速VVC帧内编码方法。本发明专利技术首先使用神经网络提取具有不同形状的编码块(CU)的特征,然后设计基于方向梯度直方图(HOG)的快速算法,包括:计算编码块的梯度直方图值:计算每个像素点的梯度幅值、梯度角度,建立角度模式和HOG区间之间的关系;对区域进行区间划分,计算最大区间占所有区间的比值Q;设置阈值W,通过比较比值Q与阈值W的关系,选择最佳模式;本发明专利技术用于新一代通用视频编码标准(VVC)帧内机器的视频编码,以克服耗时问题,同时保持编解码器视觉任务的性能。同时保持编解码器视觉任务的性能。同时保持编解码器视觉任务的性能。

【技术实现步骤摘要】
一种用于机器视频编码的快速VVC帧内编码方法


[0001]本专利技术属于视频压缩编解码
,具体涉及机器视频编码的快速VVC帧内编码方法。

技术介绍

[0002]诸如高效视频编码(HEVC)和通用视频编码(VVC)的视频编码方法已经出现,以满足对具有高分辨率和高帧率的视频的需求。然而,编解码器中的视频流是为了满足人类的感知需求而提出的,不适用于图像分类、对象检测和语义分割等视觉任务。最近的许多工作都使用编码块CU进行机器视频编码的特征提取。2022年Mack等人提出用SIFT特征算子来从原始视频中提取,以将残余特征数据与机器视频编码(VCM)的压缩视频一起传输,从而提升机器视频编码性能。2022年,卢方等人使用图像预处理方法来最小化机器视觉任务(如图像分类和对象检测)的失真,进一步提升机器视频编码性能。但是,神经网络通常需要很多时间来完成正向过程,这对于机器视频编码来说非常耗时。
[0003]最近的许多工作集中于VVC的快速帧内编码,它使用快速模式和分区决策。杨浩等人提出将梯度下降研究用于快速模式决策。分析了相邻块的最佳模式与在粗略模式决策(RMD)过程中选择的模式之间的相关性,这是为了终止预测模式决策过程而提出的。对于占用基本时间比的快速分割,研究了许多加快VVC帧内编码的工作。范益波等人通过方差和梯度降低了VVC帧内编码中快速分割的复杂性。因此,VCM中的快速算法仍然需要研究以加快编码过程。为了解决视觉任务中传统编解码器的失配问题以及神经网络正向过程的耗时操作,本文提出了一种基于HOG的VCM快速VVC帧内编码方法。用快速帧内编码加速VCM以实现更快的编码、更高的压缩比和更好的机器视觉任务性能的论文。

技术实现思路

[0004]本专利技术的目的在于提出一种可以适应于机器视频编码的快速VVC帧内编码方法。
[0005]本专利技术提出的适应机器视频编码,是基于神经网络的。该神经网络结构(残差网络(resnet)架构)如图2所示,包含7个卷积层,分别为3
×
3、1
×
1、3
×
3、1
×
1、1
×
1、3
×
3、1
×
1卷积核,通道数分别为64、64、64、256、128、128、512;神经网络的输入为编码块(CU),经过神经网络进行特征提取,输出宽度和高度都是输入编码块(CU)的一半。
[0006]上述的神经网络用于视频编解码中率失真优化(RDO),设RDO
cost
为用于评估编码效率和图像失真之间的权衡:
[0007]RDO
cost
=D
SSE
+λBit
mode

[0008]其中,D
SSE
为平方误差,Bit
mode
为比特模式,参数λ为控制比特模式Bit
mode
和平方误差D
SSE
的比率;
[0009][0010]D
SSE
表示原视频帧f(x,y)和重建视频帧f

(x,y)之间的均方误差:其中,M和N分别代表视频帧的宽和高。
[0011]传统的RDO基于像素级失真的人类视觉,不适用于依赖基于神经网络的特征的机器视觉。对于机器视频编码情形,D
SSE
被基于特征的失真F(D
SSE
)代替。基于特征的RDO的FRDO
cost
成本可以写成:
[0012]FRDO
cost
=F(D
SSE
)+λBit
mode

[0013]F(.)表示神经网络从编码块(CU)提取特征的表示式。
[0014]然而,基于特征的方法使用模型来完成前向传递过程,这是非常耗时的。由于复杂的架构和参数,进一步增加了操作时间。因此,本专利技术提出了一种基于方向梯度直方图(HOG)的快速算法,用于新一代通用视频编码标准(VVC)帧内机器的视频编码,以克服耗时问题,同时保持编解码器视觉任务的性能。
[0015]本专利技术提出适应于机器视频编码的快速VVC帧内编码方法,是基于梯度直方图(HOG)算子的,具体步骤如下:
[0016](一)计算编码块(CU)的梯度直方图(HOG)值;
[0017]具体包括计算每个像素点的梯度幅值、梯度角度,来建立角度模式和HOG区间之间的关系;首先,计算编码块CU中每一个像素点I(x,y)的HOG值,包括梯度的幅值、梯度的角度。其中梯度的幅值G(x,y)由横向梯度G
x
(x,y)和纵向梯度G
y
(x,y)两部分构成:
[0018]G
x
(x,y)=I(x+1,y)

I(x

1,y),
ꢀꢀꢀꢀ
(1)
[0019]G
y
(x,y)=I(x,y+1)

I(x,y

1),
ꢀꢀꢀꢀ
(2)
[0020]G(x,y)=G
x
(x,y)2+G
y
(x,y)2,
ꢀꢀꢀꢀꢀꢀꢀꢀ
(3)
[0021]梯度的角度表示为公式:
[0022][0023](二)划分区间
[0024]编码标准VVC在帧内预测编码模块中规定有67种模式,即65个角度模式,以及平均模式(DC)和平面模式(planar)。由于角度模式与编码块的纹理信息有关,梯度直方图(HOG)建立了纹理梯度信息与区间之间的关系,因此,本专利技术利用梯度直方图(HOG)区间与角度模式建立意义对应的关系。
[0025]将弧度平均分成16个区间,每个区间的角度都是按照其角度分到对应的区间内,具体的对应表如表1:
[0026]表1弧度和角度模式对应关系表
[0027][0028](三)计算最大区间占所有区间的比值;
[0029]先计算每个区间内所有梯度幅值和,选择区间中梯度幅值最大者B,再计算所有区
间的梯度幅值之和SUM,则两者之比即为最大区间占所有区间的比值为Q。
[0030]所述65个角度模式按照其角度值对应16个区间中的一个区间,具体方式为,将弧度平均分成16个区间,每个区间的角度都是
[0031]具体地,65个角度模式按照其角度分到对应的区间内,具体对应关系为:
[0032]a.区间等间隔的分为4个区间,每个区间的长度为模式2

17共16个模式平均分到这4个区间内,也就是每个区间对应4个模式;
[0033]b.模式18、19、20、21、22共5个模式分到区间内;区间等间隔的分为3个区间,每个区间的长度为模式23

34共12个模式平均分到这3个区间内,即每个区间对应4个模式;
[0034]c.区间等间本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种适应于机器视频编码的快速VVC帧内编码方法,是基于梯度直方图(HOG)算子的,其特征在于,具体步骤如下:(一)计算编码块(CU)的梯度直方图(HOG)值;包括计算每个像素点的梯度幅值、梯度角度,来建立角度模式和HOG区间之间的关系;计算编码块(CU)中每一个像素点I(x,y)的梯度的幅值G(x,y),由横向梯度G
x
(x,y)和纵向梯度G
y
(x,y)两部分构成:G
x
(x,y)=I(x+1,y)

I(x

1,y),
ꢀꢀꢀꢀ
(1)G
y
(x,y)=I(x,y+1)

I(x,y

1),
ꢀꢀꢀꢀ
(2)G(x,y)=G
x
(x,y)2+G
y
(x,y)2,
ꢀꢀꢀꢀꢀꢀꢀꢀ
(3)梯度的角度θ(x,y)公式为:(二)划分区间利用梯度直方图(HOG)区间与编码标准VVC在帧内预测编码模块中65个角度模式建立对应的关系,具体将弧度平均分成16个区间,每个区间的角度都是按照其角度分到对应的区间内,具体的对应表如表1:表1弧度和角度模式对应关系表(三)计算最大区间占所有区间的比值Q;对于65个角度模式按照其角度值对应16个区间中的某一个区间,即弧度平均分成16个区间,每个区间的角度都是先计算每个区间内所有梯度幅值和,再计算所有区间的梯度幅值之和SUM;设区间P拥有最大的梯度值T:T=max(x
i
(i=1,2,

,16)),
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(5)Q=T/SUM,
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(6)x
i
表示16个区间梯度的幅值,Q代表最大区间所拥有的幅值与16个区间梯度幅值和的比值;(四)进行模式选择设置阈值W,作为调控最大梯度幅值所占的比例,也就是判断当前编码块CU是否平滑,最大梯度幅值所占比例越大,则表明当前编码块CU的纹理不平滑而且朝向最大幅值所对应的梯度方向;
如果Q的值小于W,使用空间域信息作为参考信息;由于待编码块上、下、左、右各有一个编码块,待编码的左块和上块作为编码块参考块;利用空间相关性来进行模式选择:如果左面的编码块CU和上面的编码块CU模式相同,则最终的模式为左、上面编码块CU的模式;反之,对最大区间内的角度模式、编码块DC和平面模式进行率失真(RDO)优化运算,拥有最小RDO值的模式为最佳模式,结束模式选择的过程;如果左侧和上部CU模式为DC,将DC设置为最终模式。2.根据权利要求1所述的快速VVC帧内编码方法,其特征在于,所述对于65个角度模式按照其角度值对应16个区间中的某一个区间,即弧度平均分成16个区间,每个区间的角度都是具体地,65个角度模式按照其角度分到对应的区间内,具体对应关系为:a.区间...

【专利技术属性】
技术研发人员:范益波苟傲睿殷海兵
申请(专利权)人:复旦大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1