网络和视口协同优化的体积视频自适应传输方法与系统技术方案

技术编号：42378085 阅读：15 留言：0更新日期：2024-08-16 15:03

本发明专利技术提供了网络和视口协同优化的体积视频自适应传输方法与系统，所述方法包括：离线训练阶段：在视频服务器构建并存储可伸缩内容表示集；构建局部传输环境；在每个局部传输环境中遍历候选策略生成环境与最优策略映射表；在线推理阶段：质量控制模型根据播放器的缓冲区状态、实际视口预测范围及视口预测结果确定请求的目标视频时间分块chunk、目标视频空间分片tile和视频质量；策略自动调优模块根据网络吞吐量记录和用户交互轨迹记录表征当前环境，并查找环境与最优策略映射表中的最优策略；策略自动调优模块将最优策略更新到质量控制模型中。本发明专利技术能够实现低卡顿和高视觉质量的视频传输，极大地提升了用户体验质量。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及多媒体通信，具体涉及网络和视口协同优化的体积视频自适应传输方法与系统。

技术介绍

1、随着元宇宙时代的到来，人们不再满足于被动接受视频内容的传统模式，而是希望建立与视频内容的高度交互性，实现千人千面的个性化视觉体验，将现实世界与虚拟世界紧密相连。体积视频(volumetric video)是实现这一美好愿望的关键技术。其中，点云(point cloud)由于其高度的灵活性和简单性，已经成为最受欢迎的体积视频数据格式之一。相比传统的二维视频和360全景视频(panoramic video)，点云体积视频原生支持完全的六自由度(6degrees of freedom，6-dof)观看视角，用户可通过改变空间位置和头部视线角度全方位观看视频，具有更加显著的具身交互、虚实融合、全真显示的真正沉浸式观看体验。因此，点云技术被视为未来体积视频通信的核心技术之一，在教育、医疗、娱乐等交互式领域具有广阔的应用前景。

2、然而，与传统的二维图像/视频所采用的规律像素排列方式不同，三维点云数据具有稀疏性、无序性和空间不规则性等固有特性，使得点云体积视频数据处理异常复杂，数据量暴增。另一方面，点云体积视频需要支持用户的交互式观看，使得其对时延十分敏感。交互式点云体积视频更大的数据量和对延迟的高要求进一步增加了对带宽的需求和建立网络状况适应性的难度。同时，良好的点云体积视频自适应传输服务，需将高质量的视频内容准确呈现到用户可观看的视口(viewport)内，以最大化用户的体验质量(quality ofexperience，qo

3、另外，相对于传统的二维视频和360全景视频，点云体积视频的传输环境更加复杂。除了网络状况作为传输环境的典型特征外，用户行为也是一个重要的特征。例如，对于用户交互行为中平缓和激烈这两种不同的偏好，同一个传输算法可能会表现出巨大的性能差异。需要注意的是，点云体积视频中的用户拥有全部六个自由度，其行为特征远比只提供三自由度交互能力的360全景视频复杂。因此，确保体积视频自适应传输算法在以上广泛环境中的实用部署和高度鲁棒是点云体积视频通信的必要问题。

技术实现思路

1、专利技术目的：本专利技术所要解决的技术问题是针对现有技术的不足，提供网络和视口协同优化的体积视频自适应传输方法与系统，以进一步提高用户体验质量。

2、本专利技术首先提供了网络和视口协同优化的体积视频自适应传输方法，包括以下步骤：

3、步骤1，离线训练阶段，具体包括如下步骤：

4、步骤1-1，在视频服务器构建并存储可伸缩内容表示集，供客户端动态请求；

5、步骤1-2，构建两个以上合成的局部传输环境，每个局部传输环境符合不同的网络状态特征和用户行为特征；所述网络状态特征包括网络吞吐量的均值和方差，所述用户行为特征包括用户空间位置移动和视线角度变化的加速度方差；

6、步骤1-3，在每个局部传输环境中遍历由不同的缓冲区阈值和可信赖预测范围阈值预先定义的候选策略，生成环境与最优策略映射表；

7、步骤2，在线推理阶段，具体包括如下步骤：

8、步骤2-1，在客户端部署chunk2tile(chunk2tile指粗粒度时间分块内容到细粒度空间分片内容，其中chunk指时间上的视频分块，tile指空间上的视频分片)的质量控制模型和策略自动调优模块；

9、步骤2-2，所述质量控制模型根据播放器的缓冲区状态、实际视口预测范围和视口预测结果确定请求的目标视频时间分块chunk、目标视频空间分片tile和视频质量；

10、步骤2-3，所述策略自动调优模块根据过去x1(一般取值为10)个网络吞吐量记录计算网络吞吐量的均值和方差作为网络状态特征，根据过去x2(一般取值为5)个用户交互轨迹记录计算用户空间位置移动和视线角度变化的加速度方差作为用户行为特征，策略自动调优模块通过网络状态特征和用户行为特征表征当前环境，并查找环境与最优策略映射表中的最优策略；

11、步骤2-4，策略自动调优模块将最优策略更新到质量控制模型中；

12、步骤2-5，重复步骤2-2～步骤2-4，直至完成一次视频播放。

13、步骤1-1中，使用基于八叉树的多尺度编码器进行编码，将节点树从最低尺度0逐渐编码到最高尺度n(n为自然数，范围通常在2～10)，每个尺度具备不同的点云点数，不同的点云点数对应不同的分辨率(不同的分辨率代表不同的视频质量，通常更高的视频质量意味着用户更清晰的观看体验)，作为视频内容表示；使用基于八叉树的多尺度编码器编码的内容表示集具备可伸缩的特性，即在低尺度n-1的内容的基础上，客户端能够通过获取低尺度n-1的内容与高尺度n的内容相差的增量数据，将低尺度n-1的内容升级为高尺度n的内容。

14、步骤1-1中，将最低尺度0的节点独立编码以生成自包含的基础层；对于最低尺度0以外的其他尺度，节点在两个相邻尺度之间的增量数据被压缩以生成增强层；

15、对于包含l(l通常为10以上的自然数)个视频分块chunk(空间维度的视频分块)的点云体积视频，每个视频分块chunk在空间上划分为m(m通常为8以上的自然数)个视频分片tile(空间维度的视频分片)，视频服务器对每个视频分片tile编码，存储一个基础层和n个增强层，作为待请求的不同质量表示集；同时，视频服务器还存储一个媒体呈现描述文件，媒体呈现描述文件中包含每个视频分片tile的空间坐标，以及点数、数据大小、解码资源需求和各种质量级别的统一资源定位器；在用户交互观看点云体积视频过程中，播放器首先请求下载用户视口内视频分片tile的基础层表示，然后根据终端解码能力和当前网络状况动态选择要下载到视频分片tile的第几个增强层为止，期间必须按照尺度顺序由低到高依次下载。

16、所述可伸缩内容表示集允许仅传输与下一个更高质量表示的增量数据。

17、步骤1-2中，根据常见的商用视频流服务网络带宽和用户观看的行为设置分别设置网络状态特征和用户行为特征的取值范围，在取值范围内对两类特征进行均匀采样，然后根据每组网络状态特征和用户行为特征生成网络带宽序列和用户观看轨迹，以构建对应局部传输环境。

18、步骤1-3中，每个局部传输环境的网络状态和用户行为特征的组合特征被作为字典的键，局部传输环境中对应的最佳传输策略的参数被作为字典的值记录在环境与最优策本文档来自技高网...

【技术保护点】

1.网络和视口协同优化的体积视频自适应传输方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的方法，其特征在于，步骤1-1中，使用基于八叉树的多尺度编码器进行编码，将节点树从最低尺度0逐渐编码到最高尺度N，每个尺度具备不同的点云点数，不同的点云点数对应不同的分辨率，作为视频内容表示；使用基于八叉树的多尺度编码器编码的内容表示集具备可伸缩的特性，即在低尺度N-1的内容的基础上，客户端能够通过获取低尺度N-1的内容与高尺度N的内容相差的增量数据，将低尺度N-1的内容升级为高尺度N的内容。

3.根据权利要求2所述的方法，其特征在于，步骤1-1中，将最低尺度0的节点独立编码以生成自包含的基础层；对于最低尺度0以外的其他尺度，节点在两个相邻尺度之间的增量数据被压缩以生成增强层；

4.根据权利要求3所述的方法，其特征在于，所述可伸缩内容表示集允许仅传输与下一个更高质量表示的增量数据。

5.根据权利要求4所述的方法，其特征在于，步骤1-2中，根据常见的商用视频流服务网络带宽和用户观看的行为设置分别设置网络状态特征和用户行为特征的取值范围，在

6.根据权利要求5所述的方法，其特征在于，步骤1-3中，每个局部传输环境的网络状态和用户行为特征的组合特征被作为字典的键，局部传输环境中对应的最佳传输策略的参数被作为字典的值记录在环境与最优策略映射表中；所述最佳传输策略是从候选策略中得到的；所述最佳传输策略的参数包括缓冲区阈值和可信赖预测范围阈值。

7.根据权利要求6所述的方法，其特征在于，步骤2-2中，如果实际缓冲区占用小于缓冲区阈值或实际视口预测范围小于可信赖预测范围阈值，优先请求下一个未下载视频分块chunk所有视频分片tile的最低尺度内容快速填充缓冲区以避免播放卡顿；否则请求由视口预测模块生成的下一个未播放视频分块chunk的视口预测结果，为其中优先级高的视频分片tile请求下一个质量等级的增强层以提高视口内的感知质量。

8.根据权利要求7所述的方法，其特征在于，步骤2-2中，所述实际视口预测范围是指当前时刻与下一个视频分块chunk的时间戳的时间间隔。

9.根据权利要求8所述的方法，其特征在于，步骤2-2中，为其中优先级高的视频分片tile请求下一个质量等级的增强层以提高视口内的感知质量时，使用优先级排序算法，基于下一个未播放视频分块chunk的视口预测结果，根据每个视频分片tile的可见性、到用户视点的距离和当前质量，计算视频分块chunk中所有视频分片tile的增强层对用户体验质量QoE的潜在增益；具有更高用户体验质量QoE潜在增益的视频分片tile的增强层具备更高的请求优先级。

10.网络和视口协同优化的体积视频自适应传输系统，其特征在于，包括视频服务器、局部传输环境构建模块、质量控制模型和策略自动调优模块；

...

【技术特征摘要】

1.网络和视口协同优化的体积视频自适应传输方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的方法，其特征在于，步骤1-1中，使用基于八叉树的多尺度编码器进行编码，将节点树从最低尺度0逐渐编码到最高尺度n，每个尺度具备不同的点云点数，不同的点云点数对应不同的分辨率，作为视频内容表示；使用基于八叉树的多尺度编码器编码的内容表示集具备可伸缩的特性，即在低尺度n-1的内容的基础上，客户端能够通过获取低尺度n-1的内容与高尺度n的内容相差的增量数据，将低尺度n-1的内容升级为高尺度n的内容。

4.根据权利要求3所述的方法，其特征在于，所述可伸缩内容表示集允许仅传输与下一个更高质量表示的增量数据。

5.根据权利要求4所述的方法，其特征在于，步骤1-2中，根据常见的商用视频流服务网络带宽和用户观看的行为设置分别设置网络状态特征和用户行为特征的取值范围，在取值范围内对两类特征进行均匀采样，然后根据每组网络状态特征和用户行为特征生成网络带宽序列和用户观看轨迹，以构建对应局部传输环境。

6.根据权利要求5所述的方法，其特征在于，步骤1-3中，每个局部传输环境的网络状态和用户行为特征的组合特征被作为字典的键，局部传输环境中对应的最佳传输策略的...

【专利技术属性】
技术研发人员：陈浩，徐泊巍，马展，
申请(专利权)人：南京大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人