一种基于在线训练的超分辨率直播系统技术方案

技术编号:34912375 阅读:25 留言:0更新日期:2022-09-15 07:01
本发明专利技术属于直播流媒体技术领域,具体为一种基于在线训练的超分辨率直播系统,适用于配备GPU计算能力的PC、移动终端和智能汽车的视频直播应用。本发明专利技术系统包括:在推流端上行带宽不足的情况下,直播者在推流端以RTMP协议向服务器上传低分辨率视频流,同时利用原始高清视频自适应训练空域超分辨率网络F

【技术实现步骤摘要】
一种基于在线训练的超分辨率直播系统


[0001]本专利技术属于直播流媒体
,具体涉及一种基于在线训练的超分辨率直播系统。

技术介绍

[0002]直播流媒体正在成为人们生活中越来越重要的部分。截止2020年,中国的在线直播行业用户量已经达到了将近6亿。据估计到2022年,互联网中将有13%的流量来自直播流媒体[3]。直播流媒体,就是推流端将音视频流在较短的延时内分发到用户播放端的系统。近年来虽然流媒体直播技术不断更新迭代,新的协议和分发架构层出不穷,但是仍然遵循着一定的基本框架。直播流媒体主要有六个基础环节,即:捕捉,编码,封装,转码,分发,播放。一般对应三个终端:推流端、服务器端、用户端。每个终端之间会有相应的数据传输。推流端首先完成视频的捕捉、编码和封装,之后通过低延时传输协议将视频流推送到服务器。服务器端完成视频的转码,最后经由CDN分发到用户手中。用户则通过播放器实现直播观看。重要的直播场景非常多,在目前配备GPU硬件计算能力的PC端、移动终端和智能汽车等场景,视频直播系统的应用有了进一步拓展。
[0003]由于直播流媒体有低延时的特性,传输网络协议就成了系统中重要的技术基础。如今市面上主流的直播协议有WebRTC、RTMP、HLS等。WebRTC是由Google团队收购并维护的一项视频传输协议,被视为直播流媒体的未来标准。与其他协议相比,WebRTC有着极低的延迟,通常用于需要即时互动的场景。但由于推出时间较短,在国内市场目前还没有被大规模使用。RTMP是Adobe公司为了实现播放器和服务器之间的高性能传输而研发的应用层协议,主要基于TCP长连接。由于延时低、连接可靠、使用方便等特点,该协议已经被广泛应用,成为国内主流的直播流媒体协议。HLS是由Apple公司基于HTTP实现的媒体传输协议。HLS与DASH类似,会将视频流切割成一个个连续的视频切片,用户可以在播放端通过访问列表文件,顺序下载视频流片段,以此达到观看直播的效果。HLS虽然延迟较高,但兼容性较好。适用于互动性要求不高的场景。
[0004]超分辨率(Super

Resolution)是指将低分辨率的图像或视频,恢复为高分辨率的图像或视频的一项技术。超分辨率领域可以细分为图像超分辨率(SR)和视频超分辨率(VSR)(以下或简称图像超分和视频超分)
[0005]图像超分是从指定的单幅低分辨率图像中还原出高分辨率图像的技术。传统算法中有基于插值和重建的图像超分。最近的图像超分算法大多是基于深度学习,主要学习低分辨图像和高分辨率图像之间的映射关系。Dong等人[4]提出了超分辨率卷积神经网络(Super

Resolution Convolutional Neural Network,SRCNN)。该网络有三层卷积结构,先将图像映射为小分辨率图像,再将图像放大为高分辨率图像,最后完成特征非线性映射的重建。Kim等人[6]提出了SRGAN网络,首次将GAN用在了超分辨重建上。对于高放大倍数图片,GAN可以较好展现图像细节纹理,增加真实感。在生成网络部分,文章提出的SRResNet利用多个残差块挖掘图像特征。每个残差块包含两个卷积层,两个批量归一化层,以及一个激
活层。多层残差模块的应用使得网络可以进一步学习图像的深层信息。Lim等人[7]受到SRResNet的启发,通过去其残差网络中不必要的模块提出了EDSR。作者Lim认为SRResNet中的批量归一化层使得网络对图像特征的感受范围减少,将其删除能让网络更好地学习图像细节。同时,批量归一化层消耗的内存量与前面的卷积层相同,因此去掉之后会使GPU内存使用量大大减少,训练时间也能进一步缩短。
[0006]视频超分辨率与图像超分辨率的区别在于,视频超分辨率在还原过程中使用了相邻帧信息,从而更好地补充图像细节,解决画面模糊的问题。如何将低分辨目标帧与相邻帧临时对齐是视频超分辨率的一个关键问题。大多数视频超分辨率网络主要由四个模块构成:对齐模块、融合模块、重构模块和上采样模块。前两个模块主要利用相邻帧之间的时域信息,可以被称作时域超分。后两个模块主要挖掘图像上的细节,可以被称作空域超分。视频超分网络SOFVSR[1]可以通过计算目标帧和相邻帧之间的光流图,估计目标图像在帧间的移动信息。光流图可以将相邻帧信息还原到目标帧,多帧融合的结果可以显著提高视频帧PSNR。此外,作者创新性地将超分辨运用到光流图的估计中,极大提高了光流图估计的准确性。Wang等人[2]提出基于可变形卷积网络的视频超分辨率网络。网络结构分为预处理模块,PCD对齐模块,TSA融合模块,重构模块。在PCD对齐模块,作者提出三级金字塔结构,基于可变形卷积,提取相邻帧之间的信息。结果表明,可变形卷积极大提高了相邻帧信息的利用率,极大程度地改善了运动模糊的问题。Chu等人[9]将生成对抗网络应用到视频超分辨率里,提出TecoGAN网络结构。在生成器中,TecoGAN将目标帧,前一帧和前一帧的SR帧作为输入,通过低分辨率的相邻帧估计光流图。之后网络将放大后的光流图与前一帧的SR进行运算对齐,最后将运算结果与低分辨帧一起进入后续的卷积重构。文章提出的Ping

Pong损失函数,减少了较长时间内的画面细节漂移,使超分辨率结果更自然。

技术实现思路

[0007]本专利技术旨在提出一种基于超分辨率的在线训练直播系统。该系统主要利用PC、移动终端、智能汽车等带GPU的硬件计算性能。与传统的直播流媒体系统相比,该系统能在推流端上传带宽有限的条件下,在服务器端通过超分辨率技术重构出质量更好的视频画面。
[0008]本专利技术提出的超分辨率直播系统,主要有推流端和服务器端两个部分。系统结构如图1所示。用户在直播推流时,系统先捕捉高分辨率视频流并转码为合适码率的低分辨率视频流,然后通过RTMP协议将低分辨率视频流上传到服务器。同时,推流端系统实时抓取高、低分辨率视频关键帧,并以此作为输入数据根据当前画面自适应训练空域超分辨率网络F

EDSR。之后系统根据训练数据预测网络提升阈值,在达到相应效果时终止训练,节约计算资源。训练好网络之后,推流端在不影响视频上传比特率的情况下,向服务器传输当前阶段训练好的超分辨率网络。
[0009]在服务器端,服务器实时接收推流端传输的低分辨率视频流和F

EDSR。视频通过两层级联的超分辨率网络F

EDSR和TCSR进行超分辨率还原。F

EDSR负责提取画面细节,TCSR负责利用帧间信息消除画面模糊。由于两级神经网络的处理速度存在差异,F

EDSR能够实现实时处理,TCSR需要对F

EDSR输出的视频帧进行挑帧还原。最后服务器端通过HLS将超分辨率还原后的视频进行分发。
[0010]本专利技术提供的基于在线训练的超分辨率直播系统,包括推流端和服务器端两个部
分;其中:
[0011](1)服务器端结构
[0012]有本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于在线训练的超分辨率直播系统,其特征在于,包括推流端和服务器端两个部分;其中:(1)服务器端包括空域超分F

EDSR和TCSR两个网络,并进行级联;前者用于对视频实时处理,后者用于对F

EDSR的输出进行帧挑选处理;(1.1)F

EDSR空域超分F

EDSR作为一级网络,是基于图像超分网络EDSR;网络头部使用一个二维卷积层,具有更大的5*5卷积核,以及更少的通道;网络主体由深度残差模块构成,并以二维卷积层结束;每个残差模块由两个卷积层和一个激活层构成;残差模块去掉批量归一化层使得网络主体参数更少,感受动态更大;网络尾部是上采样模块和卷积模块,使得图像能以设定尺寸输出;(1.2)TCSRTCSR网络作为二级网络,以多个连续的帧为作为输入,中间帧作为融合输出的目标;包括一个OFRnet运算模块、仿射变换、融合模块、重构模块;多个连续帧表示为I
t

k
,

I
t
‑1,I
t
,I
t+1
,

,I
t+k
,中间帧为I
t
,其中k表示中间帧和相邻帧的最大间隔数;使用的视频帧输入后,每对相邻帧I
t+i
和目标帧I
t
经过OFRnet的运算,都能得到I
t+i
关于I
t
的光流图,记为O
t+i
;利用O
t+i
对I
t+i
进行仿射变换得到经过运动补偿的帧I
t+i,t
,该帧是与I
t
高度相似的对齐帧;此时多个对齐帧{I
t+i,t
}和目标帧I
t
进入一个融合模块,该融合模块运用注意力机制将多帧融合,输出多通道特征图块,该融合模块运用注意力机制将多帧融合,输出多通道特征图最后经由一个重构模块加上图像残差,输出超分辨率目标帧(2)推流端推流端主要包括训练和监测两个模块;训练模块将当前的实时最佳模型传送给监测模块,监测模块负责记录当前模型随视频流变化的PSNR;一旦通过PSNR监测到场景转变,监测模块向训练模块发出训练请求;如果训练模块处于停止状态,则开始模型训练;(2.1)监测模块监测算法选择使用局部加权回归算法,该算法利用某时刻的邻近值进行平滑处理;由于与时刻x
i
距离不同的点有不同的权重,算法公式如下所示:其中,使用Epanechnikov二次kernel:其中,使用Epanechnikov二次kernel:式中,λ是kernel的参数,称为窗口宽度;局部加权中只考虑附近k个值的影响,也就是:λ=|x
i

x
[k]
|,其中,x
[k]
是距离x
i
为k的时刻点;(2.2)训练模块训练模块根据监测模块的结果进行训练;训练过程中,设定一个提升PSNR阈值TH
s
以及
一个预测提升PSNR阈值TH
p
;前者依据经验作为固定参数,后者通过冷启动的训练...

【专利技术属性】
技术研发人员:徐跃东刘旭东戴连贵邢万勇张云霞徐广宁
申请(专利权)人:广东利通科技投资有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1