当前位置: 首页 > 专利查询>山东大学专利>正文

基于视口预测距离控制的全景视频流制造技术

技术编号:39645774 阅读:14 留言:0更新日期:2023-12-09 11:13
本发明专利技术公开了一种基于视口预测距离控制的全景视频流

【技术实现步骤摘要】
基于视口预测距离控制的全景视频流QoE优化方法


[0001]本专利技术涉及流媒体视频
,尤其是一种基于视口预测距离控制的全景视频流
QoE
优化方法


技术介绍

[0002]近年来,以虚拟现实技术
(Virtual Reality
,简称
VR)
为基础的
360
°
视频流业务
(
也称全景视频
)
应运而生并快速发展

这类视频能够反映真实三维场景,提供宽广的观看视角并允许观看者自由控制视口,以带来身临其境的沉浸式体验

目前,各大流媒体供应商已纷纷上线了
360
°
视频流业务

其对于推动未来视频流媒体服务的发展,以及智慧城市

智慧医疗

在线教育等重大民生工程的建设具有举足轻重的社会经济意义

[0003]由于
360
°
视频的全景场景,其视频帧的分辨率通常为
4K
甚至更高

然而,在互联网上传输如高分辨率的视频绝非易事,尤其是在带宽波动剧烈的移动网络中

此外,在同一时刻,观众只能观看全景场景的部分内容,即视口中的内容,所以如果以高画质传输整个全景画面,势必会造成大量带宽浪费,严重限制观看体验质量
(Quality of Experience, QoE)
的改善

因此,传输
360
°
视频的目标是最大限度地提高视口内的视频质量,同时尽量降低视口外的质量,以达到高传输效率

为了实现这一目标,在服务器端,视频帧被裁剪为不同的空间瓦片,每个瓦片都被编码成多个比特率级别(如图5中的低画质

中画质

高画质)

如图5所示,在线流传输过程中,视频客户端将首先预测用户未来的头部运动方向(即未来视口),并以尽可能高的比特率请求视口内的瓦片同时尽量降低视口外瓦片的比特率

所有瓦片完成下载后,均将被存放在客户端缓冲区,并进行拼接后实现视频播放

[0004]在
360
°
视频流媒体中,视口预测是重要环节,因为直接影响
QoE
性能

当前视口预测算法的基本原理是以已播放视频的历史视口为依据,对未来预下载视频的视口进行预测

然而,如图6所示,在流媒体环境下,客户端播放器的缓冲视频数据会显著延长视口预测距离,严重削弱视口的相关性,使得历史视口无法很好地指导预测

在这种情况下,瓦片的比特率无法被准确分配,从而导致用户的视频观看质量和
QoE
受到严重限制

相反,如果转而缩小预测距离,即限制视频缓存的数据量,虽然这种方法确实可以提高预测准确性,但是由于网络带宽的剧烈波动,会导致频繁的视频播放卡顿,同样会造成
QoE
的显著下降

当前现存的
360
°
流媒体算法均无法打破上述困境,所以
QoE
性能的优化自然陷入瓶颈


技术实现思路

[0005]为了克服现有技术中存在的上述问题,本专利技术提出一种基于视口预测距离控制的全景视频流
QoE
优化方法,能够很好地协调视口预测和视频传输,不仅可以实现显著的体验质量
QoE
的改善,而且在各种网络环境中均具有很强的时间和空间鲁棒性

[0006]为达到上述目的,本专利技术的技术方案如下:一种基于视口预测距离控制的全景视频流
QoE
优化方法,包括如下步骤:步骤1,构建视口预测距离控制模型,并对所构建的控制模型进行训练;
步骤2,视口预测距离控制模型输入端接收视频客户端发送的输入环境状态,输出端输出动作实现缓存决策,其中输入状态包括吞吐量向量

缓冲区向量,输出动作包括视频下载暂停时间

码率阈值

播放速率;步骤3,视口预测距离控制模型将输出动作发送到视频客户端,视频客户端根据视频下载暂停时间决定下一个视频片段的请求时间点,及根据码率阈值与未来视口预测结果确定每个空间瓦片的比特率;步骤4,视频客户端向视频服务器发送视频片段下载请求,服务器根据步骤3的结果返回所请求片段的空间瓦片;视频客户端将所有瓦片拼接为全景视频,并以视口预测距离控制模型输出的播放速率进行播放

[0007]上述的一种基于视口预测距离控制的全景视频流
QoE
优化方法,所述视口预测距离控制模型包括卷积神经网络

全连接网络,输入端由两个独立的卷积神经网络分别接收两个输入状态,通过卷积神经网络进行卷积处理后,在全连接网络实现汇合,最后经过全连接网络的映射后传递给网络输出层,实现动作决策

[0008]上述的一种基于视口预测距离控制的全景视频流
QoE
优化方法,所述步骤1中视口预测距离控制模型采用基于连续值动作控制的深度强化学习算法进行模型训练

[0009]上述的一种基于视口预测距离控制的全景视频流
QoE
优化方法,所述模型训练的优化目标函数为:;其中,
w
k
表示
QoE
性能;
σ
k
表示视频下载暂停时间;
μ
k
表示码率阈值;
ρ
k
表示视频播放速率;
k
表示视频片段序号,
k=1,2,

,K

QoE
性能 w
k
被定义为所述模型训练的训练奖励,具体公式为:;其中,
w
k,0
表示视频质量;
w
k,1
表示空间维度视频质量平滑度;
w
k,2
表示时间维度视频质量平滑度;
w
k,3
表示视频播放卡顿时长;;其中,
r
k,i
是瓦片
i
的比特率,
ξ
k,i

0/1
标志,
ξ
k,i
=1
表示瓦片
i
在用户视口内被实际观看,
ξ
k,i
=0
表示瓦片
i
未被观看;;其中,
τ
k
是下载片段
k
所花费的时间,
ρ
k
是播放速率,
b
k
是请求视频片段
k
时刻的缓
冲区本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
基于视口预测距离控制的全景视频流
QoE
优化方法,其特征在于,包括如下步骤:步骤1,构建视口预测距离控制模型,并对所构建的视口预测距离控制模型进行训练;步骤2,视口预测距离控制模型输入端接收视频客户端发送的输入环境状态,输出端输出动作实现决策,其中输入状态包括吞吐量向量

缓冲区向量,输出动作包括视频下载暂停时间

码率阈值

播放速率;步骤3,视口预测距离控制模型将输出动作发送到视频客户端,视频客户端根据视频下载暂停时间决定下一个视频片段的请求时间点,及根据码率阈值与未来视口预测结果确定每个空间瓦片的比特率;步骤4,视频客户端向视频服务器发送视频片段下载请求,视频服务器根据步骤3的结果返回所请求片段的空间瓦片;视频客户端将所有瓦片拼接为全景视频,并以视口预测距离控制模型输出的播放速率进行播放
。2.
根据权利要求1所述的基于视口预测距离控制的全景视频流
QoE
优化方法,其特征在于,所述视口预测距离控制模型包括卷积神经网络

全连接网络,输入端由两个独立的卷积神经网络分别接收两个输入状态,通过卷积神经网络进行卷积处理后,在全连接网络实现汇合,最后经过全连接网络的映射后传递给网络输出层,实现动作决策
。3.
根据权利要求1所述的基于视口预测距离控制的全景视频流
QoE
优化方法,其特征在于,所述步骤1中视口预测距离控制模型采用基于连续值动作控制的深度强化学习算法进行模型训练
。4.
根据权利要求3所述的基于视口预测距离控制的全景视频流
QoE
优化方法,其特征在于,所述模型训练的优化目标函数为:;其中,
w
k
表示
QoE
性能;
σ
k
表示视频下载暂停时间;
μ
k
表示码率阈值;
ρ
k
表示视频播放速率;
k
表示视频片段序号,
k=1,2,

,K

QoE
性能
w
k
被定义为所述模型训练的训练奖励,具体公式为:;其中,
w
k,0
表示视频质量;
w
k,1
表示空间维度视频质量平滑度;
w
k,2
表示时间维度视频质量平滑度;
w
k,3
表示视频播放卡顿时长;;其中,
r
k,i
是瓦片
i
的比特率,
ξ
k,i

0/1
标志,
ξ
k,i
=1
表示瓦片
i
在用户视口内被实际观看,
ξ
k,i
=0
表示瓦片
i
未被观看;
;其中,
τ
k
是下载片段
k
所花费的时间,
ρ
k
是播放速率,
b
k
是请求视频片段
k
时刻的缓冲区占用率
。5.
根据权利要求3所述的基于视口预测距离控制的全景视频流
QoE
优化方法,其特征在于,所述模型训练的训练环境具体为:将视口预测距离控制模型部署于基于吞吐量跟踪数据与视口变化跟踪数据的模拟器中,模拟器随后根据所决策的视频比特率与当前可用吞吐量计算视频片段的下载时长,然后将片段的物理持续时间累积到当前缓冲区占用率中,以模拟视频片段的下载完成;同时,对于视频播放,系统维持一个播放缓冲区,缓冲区数据的消耗量受视频播放速率的影响;在整个...

【专利技术属性】
技术研发人员:张广辉高熙然肖梦白元辉于东晓成秀珍
申请(专利权)人:山东大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1