基于多尺度双向卷积的压缩视频感官质量增强方法及系统技术方案

技术编号：38829993 阅读：36 留言：0更新日期：2023-09-17 09:50

本发明专利技术公开了一种基于多尺度双向卷积的压缩视频感官质量增强方法及系统，包括：将输入的多个视频帧进行运动补偿，获得对齐后的特征；所述输入的多个视频帧包括参考帧和参考帧的前后若干相邻帧；提取对齐后的特征的时序信息，获得时空融合后的特征；提取时空融合后的特征的方向特征，获得水平特征和垂直特征；基于参考帧和相邻帧来指导水平特征和垂直特征的恢复，获得细节注意力机制处理后的特征；将通过细节注意力机制处理后的特征进行增强，获得增强后的方向特征；将增强后的方向特征与参考帧进行逐元素相加，得到增强帧。本发明专利技术能够提高重建视频帧的感官质量，恢复的重建帧更符合人类视觉系统，能够改善压缩带来的质量下降问题。问题。问题。

全部详细技术资料下载

【技术实现步骤摘要】
基于多尺度双向卷积的压缩视频感官质量增强方法及系统

[0001]本专利技术涉及视频编解码领域，特别涉及一种基于多尺度双向卷积的压缩视频感官质量增强方法及系统。

技术介绍

[0002]如今，视频内容已经成为数字网络流量的主要部分，并且仍在增长。为了在有限带宽下传输视频，必须对视频进行压缩，以显著减低比特率。但是，主流的压缩方法如H.264/AVC和H.265/HEVC，经常在压缩视频中引入各种伪影，特别是在低比特率的情况下，这些伪影的存在极大影响了人们的视觉感官以及一些图像处理任务，如图像识别、目标检测等。因此，有必要对压缩视频进行增强。
[0003]视频编解码标准中对编解码过程信息丢失的主要处理方法是环路滤波处理。但是传统的环路滤波处理受到计算复杂度的限制，并不能很好的改善最后重建视频的质量。近年来，人们在不改动编解码框架的前提下，对于解压后的低质量视频进行基于深度学习的后处理来提高视频质量。遗憾的是，现有的基于深度学习的增强方法主要是增强压缩视频的客观质量，而忽略了感官质量。实际上，人类视觉系统(HVS)才是压缩视频的最终目的，所以，感官质量的增强比客观质量更重要。因此，如何设计出符合人类视觉系统的压缩视频增强网络具有重要意义和应用价值。

技术实现思路

[0004]本专利技术的主要目的在于克服现有技术中的上述缺陷，提出一种基于多尺度双向卷积的压缩视频感官质量增强方法及系统，能够从低质量的解压缩视频中重建出符合人类视觉系统的高质量视频帧。
[0005]本专利技术采用如下技术方案：/>[0006]一方面，一种基于多尺度双向卷积的压缩视频感官质量增强方法，包括：
[0007]将输入的多个视频帧进行运动补偿，获得对齐后的特征；所述输入的多个视频帧包括参考帧和参考帧的前后若干相邻帧；
[0008]提取对齐后的特征的时序信息，获得时空融合后的特征；
[0009]提取时空融合后的特征的方向特征，获得水平特征和垂直特征；
[0010]基于参考帧和相邻帧来指导水平特征和垂直特征的恢复，获得细节注意力机制处理后的特征；
[0011]将通过细节注意力机制处理后的特征进行增强，获得增强后的方向特征；将增强后的方向特征与参考帧进行逐元素相加，得到增强帧。
[0012]优选的，将输入的多个视频帧进行运动补偿，获得对齐后的特征，具体包括：
[0013]输入参考帧V
t
和参考帧的相邻帧其中，N为自然数，表示前/后相邻帧的数量；
[0014]通过U
‑
net网络把多个视频帧转换为多个高维特征向量，向量中的每个维度都代
表着视频帧的一个特征或属性，所述U
‑
net网络输出运动偏移offset；
[0015]把输入帧V
t
和在通道维度进行拼接，并把拼接的信息与运动偏移offset送入可变形卷积网络中；
[0016]所述可变形卷积网络将运动偏移量offset和多个视频帧进行融合，使得多个视频帧的像素朝着对应的偏移量offset移动，以得到对齐后的多帧信息。
[0017]优选的，设运动偏移offset为O，融合后对齐的特征为F，运动补偿的过程表示如下：
[0018][0019][0020]其中，[
·
,
·
]表示在通道维度进行拼接，u(
·
)表示U
‑
net操作，DCN(
·
)表示可变形卷积操作。
[0021]优选的，提取对齐后的特征的时序信息，获得时空融合后的特征，具体包括：
[0022]使用两个3D卷积层提取对齐特征的时空信息；其中，每个卷积层都包含多个卷积核，每个卷积核都在时空维度上滑动，提取多个视频帧的时空信息；在第一个3D卷积层中，每个卷积核将从多个视频帧中提取特征，这些特征在时空维度上进行平均或汇总后，生成一组新的特征；新的特征被送入下一个3D卷积层中，进一步提取时空信息；
[0023]具体的，时空融合后的特征表示为：
[0024]F
3d
＝Con3d(Conv3d(F))
[0025]其中，F
3d
表示时空融合后的特征；F表示融合后对齐的特征；Conv3(
·
)表示3D卷积操作。
[0026]优选的，提取时空融合后的特征的方向特征，获得水平特征和垂直特征，具体包括：
[0027]以包括时空融合后的特征的视频帧作为输入；
[0028]通过双向卷积，提取水平方向特征和垂直方向特征；所述双向卷积包括mx1和1xm的卷积；其中，mx1的卷积提取出水平方向特征，1xm的卷积提取出垂直方向特征；将mx1的卷积1xm的卷积堆叠在一起，提取出输入视频帧的水平方向特征和垂直方向特征；
[0029]把mx1卷积提取的水平方向特征和1xm卷积提取的垂直方向特征在通道维度进行拼接，并把拼接的信息送入多尺度卷积，用不同大小的卷积核来捕获视频帧的几何变化，输出方向特征。
[0030]优选的，基于参考帧和相邻帧来指导水平特征和垂直特征的恢复，获得细节注意力机制处理后的特征，具体包括：
[0031]通过细节注意力机制，把参考帧、相邻帧、水平方向特征和垂直方向特征在通道维度进行拼接；
[0032]把拼接的信息在通道维度上分别取最大值和求和；
[0033]把取最大值之后的特征图和求和后的特征图在通道维度进行拼接，并通过1x1的卷积进行特征融合；
[0034]把融合的特征图通过Sigmoid激活函数输出，最后把输出结果与方向特征进行逐元素相加，获得通过细节注意力机制处理后的特征。
[0035]优选的，所述水平特征、垂直特征、通过多尺度卷积融合后的方向特征为及通过细节注意力机制处理后的特征分别表示如下：
[0036]F
H
＝c
H
(F
3d
)
[0037]F
V
＝c
V
(F
3d
)
[0038]F
f
＝M([F
H
,F
V
])
[0039][0040]在公式中，F
3d
表示时空融合后的特征；F
H
表示水平特征；F
V
表示水平特征；F
V
表示通过多尺度卷积融合后的方向特征；F
A
表示通过细节注意力机制处理后的特征；c
H
(
·
)表示1xm的卷积操作，c
V
(
·
)表示mx1的卷积操作，M(
·
)表示多尺度卷积操作，DFA(
·
)表示细节注意力机制操作；V
t
表示参考帧；表示参考帧的相邻帧。
[0041]优选的，将通过细节注意力机制处理后的特征进行增本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于多尺度双向卷积的压缩视频感官质量增强方法，其特征在于，包括：将输入的多个视频帧进行运动补偿，获得对齐后的特征；所述输入的多个视频帧包括参考帧和参考帧的前后若干相邻帧；提取对齐后的特征的时序信息，获得时空融合后的特征；提取时空融合后的特征的方向特征，获得水平特征和垂直特征；基于参考帧和相邻帧来指导水平特征和垂直特征的恢复，获得细节注意力机制处理后的特征；将通过细节注意力机制处理后的特征进行增强，获得增强后的方向特征；将增强后的方向特征与参考帧进行逐元素相加，得到增强帧。2.根据权利要求1所述的基于多尺度双向卷积的压缩视频感官质量增强方法，其特征在于，将输入的多个视频帧进行运动补偿，获得对齐后的特征，具体包括：输入参考帧V
t
和参考帧的相邻帧其中，N为自然数，表示前/后相邻帧的数量；通过U
‑
net网络把多个视频帧转换为多个高维特征向量，向量中的每个维度都代表着视频帧的一个特征或属性，所述U
‑
net网络输出运动偏移offset；把输入帧V
t
和在通道维度进行拼接，并把拼接的信息与运动偏移offset送入可变形卷积网络中；所述可变形卷积网络将运动偏移量offset和多个视频帧进行融合，使得多个视频帧的像素朝着对应的偏移量offset移动，以得到对齐后的多帧信息。3.根据权利要求2所述的基于多尺度双向卷积的压缩视频感官质量增强方法，其特征在于，设运动偏移offset为O，融合后对齐的特征为F，运动补偿的过程表示如下：在于，设运动偏移offset为O，融合后对齐的特征为F，运动补偿的过程表示如下：其中，[
·
,
·
]表示在通道维度进行拼接，u(
·
)表示U
‑
net操作，DCN(
·
)表示可变形卷积操作。4.根据权利要求1所述的基于多尺度双向卷积的压缩视频感官质量增强方法，其特征在于，提取对齐后的特征的时序信息，获得时空融合后的特征，具体包括：使用两个3D卷积层提取对齐特征的时空信息；其中，每个卷积层都包含多个卷积核，每个卷积核都在时空维度上滑动，提取多个视频帧的时空信息；在第一个3D卷积层中，每个卷积核将从多个视频帧中提取特征，这些特征在时空维度上进行平均或汇总后，生成一组新的特征；新的特征被送入下一个3D卷积层中，进一步提取时空信息；具体的，时空融合后的特征表示为：F
3d
＝Con3d(Conv3d(F))其中，F
3d
表示时空融合后的特征；F表示融合后对齐的特征；Conv3(
·
)表示3D卷积操作。5.根据权利要求1所述的基于多尺度双向卷积的压缩视频感官质量增强方法，其特征在于，提取时空融合后的特征的方向特征，获得水平特征和垂直特征，具体包括：以包括时空融合后的特征的视频帧作为输入；通过双向卷积，提取水平方向特征和垂直方向特征；所述双向卷积包括mx1和1xm的卷
积；其中，mx1的卷积提取出水平方向特征，1xm的卷积提取出垂直方向特征；将mx1的卷积1xm的卷积堆叠在一起，提取出输入视频帧的水平方向特征和垂直方向特征；把mx1卷积提取的水平方向特征和1xm卷积提取的垂直方向特征在通道维度进行拼接，并把拼接的信息送入多尺度卷积，用不同大小的卷积核来捕获视频帧的几何变化，输出方向特征。6.根据权利要求5所述的基于多尺度双向卷积的压缩视频感官质量增强方...

【专利技术属性】
技术研发人员：陈婧，陈柯米，曾焕强，朱建清，林琦，
申请(专利权)人：华侨大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人