多视图视频流式传输制造技术

技术编号:39047978 阅读:10 留言:0更新日期:2023-10-10 12:00
描述了一种由客户端装置处理多视图视频的方法,该多视图视频包括视频流集合,该视频流集合由一组相机以一组视角和一个或多个视频分辨率同时捕获场景中的对象来创建,每个视频流定义与相机相对于该对象的视角相关联的视图。该方法可以包括:接收定义用于该多视图视频的多个窗口的清单文件,该多个窗口中的第一窗口定义从该视频流集合中选择的第一视频流子集,该第一视频流子集与该组视角的第一视角子集相关联;确定与观看者相对于多视图显示装置的角度位置相关联的位置信息,该多视图显示装置被配置为呈现该清单文件中标识的多视图视频;基于该位置信息和该第一视角子集从该多个窗口中选择该第一窗口,并且请求由服务器系统发送该第一视频流子集;以及接收与该第一视频流子集相关联的多视图视频数据;以及将该多视图视频数据提供到解码器装置以进行解码。多视图视频数据提供到解码器装置以进行解码。多视图视频数据提供到解码器装置以进行解码。

【技术实现步骤摘要】
【国外来华专利技术】over the Internet[互联网上的动态自适应多视图视频流式传输],ImmersiveMe

13:proceedings of the 2013ACM international workshop on Immersive media experiences[2013年关于ACM沉浸式媒体体验的国际研讨会论文集],2013年10月,第51至56页中描述了用于将3D自由视点视频流式传输到客户端的基于HTTP的自适应流式传输过程。作者描述了用于3D自由视点类型多视图视频的MPEG

DASH方案,该方案包括针对在常规自动立体显示器上的呈现的进行动态视图适应。在3D自由视点方案中,用户能够基于用户控制浏览场景。为此,多个视图和深度信息被发送到客户端。对于特定视点,常规立体图像是基于两个视图来构建的。
[0007]为限制流式传输期间网络上的总负载,作者建议可以基于可用带宽来自适应发送到客户端的视图数量,同时可以在客户端侧使用基于深度图像的渲染(DIBR)来构建附加视图。为此目的,开发了MPEG参考视图合成方案,其被称为视图合成参考软件(VSRS)。因此,DIBR允许减少发送的视图数量。所提出的方法是选择性地请求视图子集的处于最高可能质量的片段,并且使用DIBR基于深度信息来估计接收器未分发的视图,使得立体显示器可以产生立体效果。
[0008]然而,上文描述的基于动态视图适应的流式传输方案不适用于现代3D多视图全息显示器,这些显示器要求预定的最小数量的视图在不考虑带宽波动的情况下实现全息效果。另外地,依赖于客户端侧的繁重计算过程(比如视图合成)不能在视图量迅速增加到大量视图(例如,在利用来自LookingGlass Factory的最新显示器的情况下为45个视图)时为多视图显示器提供可扩展的解决方案。
[0009]因此,从上文可知,本领域需要改进用于多视图显示器的自适应多视图视频流式传输。另外地,需要允许在资源、计算能力、电池、传输带宽、硬件视频解码能力等受到约束的情况下将多视图视频高效流式传输到多视图显示器的自适应多视图视频格式。

技术实现思路

[0010]如将由本领域的技术人员理解的,本专利技术的各方面可以具体化为一种系统、方法或计算机程序产品。因此,本专利技术的各方面可以采取完全硬件实施例、完全软件实施例(包括固件、驻留软件、微代码等)或者在本文中通常可以被称为“电路”、“模块”或者“系统”的组合软件和硬件方面的实施例的形式。本披露内容中描述的功能可以实施为由计算机的处理器/微处理器执行的算法。此外,本专利技术的各方面可以采取在具有在其上体现的、例如存储的计算机可读程序代码的一种或多种计算机可读介质中体现的计算机程序产品的形式。
[0011]可以利用一个或多个计算机可读介质的任何组合。计算机可读介质可以是计算机可读信号介质或计算机可读存储介质。计算机可读存储介质可以是例如但不限于电子、磁、光、电磁、红外、或半导体系统、装置或设备,或上述的任何合适的组合。计算机可读存储介质的更具体的示例可以包括但不限于以下各项:具有一个或多个导线的电连接装置、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪速存储器)、光纤、便携式紧凑磁盘只读存储器(CD

ROM)、光存储设备、磁存储设备、或者上述的任何合适的组合。在本专利技术的上下文中,计算机可读存储介质可以是可包含或存储用于由指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合使用的程序的任何有形介质。
[0012]计算机可读信号介质可以包括具有在其中(例如,在基带中或作为载波的一部分)体现的计算机可读程序代码的传播数据信号。这种传播信号可以采取各种形式中的任何一种,包括但不限于,电磁的、光的或其任何合适的组合。计算机可读信号介质可以是不是计算机可读存储介质并且可以通信、传播、或传输程序(以用于由指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合使用)的任何计算机可读介质。
[0013]可以使用任何适当的介质发送在计算机可读介质上体现的程序代码,这种介质包括但不限于无线、有线、光纤、电缆、RF等,或上述的任何合适的组合。用于执行本专利技术的各方面的操作的计算机程序代码可以以一种或多种编程语言的任何组合编写,该一种或多种编程语言包括比如Java(TM)、Smalltalk、C++等面向对象的编程语言以及比如“C”编程语言或类似的编程语言等常规过程编程语言。程序代码可以完全地在个人计算机上执行、部分地在个人计算机上执行、作为独立软件包执行、部分地在个人计算机上执行并部分地在远程计算机上执行、或完全地在远程计算机或服务器上执行。在后一种场景中,远程计算机可以通过包括局域网(LAN)或广域网(WAN)的任何类型网络连接到个人计算机,或可以进行与外部计算机的连接(例如,使用互联网服务提供商、通过互联网)。
[0014]下面参考根据本专利技术的实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述本专利技术的各方面。将理解的是,流程图和/或框图的每个框以及流程图和/或框图中的框的组合可以由计算机程序指令实施。可以将这些计算机程序指令提供给通用计算机、专用计算机、或其他可编程数据处理装置的处理器,具体是微处理器或中央处理单元(CPU),以产生机器,使得经由计算机、其他可编程数据处理装置或其他设备的处理器执行的指令创建用于实施流程图和/或框图的一个或多个框中指定的功能/动作的装置。
[0015]这些计算机程序指令还可以存储在计算机可读介质中,该计算机可读介质可以指导计算机、其他可编程数据处理装置、或其他设备以用特殊的方式发挥功能,从而使得存储在该计算机可读介质中的指令产生包括指令的制品,这些指令实施流程图和/或框图的一个或多个框中指定的功能/动作。
[0016]计算机程序指令还可以被加载到计算机、其他可编程数据处理装置或其他设备上,以引起在计算机、其他可编程装置或其他设备上执行一系列操作步骤以产生计算机实施的过程,从而使得在计算机或其他可编程装置上执行的指令提供用于实施在流程图和/或框图的一个或多个框中指定的功能/动作的过程。
[0017]附图中的流程图和框图展示了根据本专利技术的各种实施例的系统、方法和计算机程序产品的可能实施方式的体系架构、功能和操作。关于此,流程图或框图中的每个框可以表示包括用于实施(多个)指定逻辑功能的一个或多个可执行指令的代码的模块、片段或部分。还应当指出的是,在一些替代实施方式中,框中标明的功能可以不按图中标记的顺序发生。例如,根据涉及的功能,连续示出的两个框实际上可以基本上同时地执行,或者这些框可能有时以相反的顺序执行。还将指出的是,可以通过执行指定功能或动作的基于专用硬件的系统或专用硬件和计算机指令的组合来实施框图和/或流程图的每个框及框图和/或流程图中框的组合。
[0018]在第一方面,本专利技术涉及一种由客户端装置处理多视图视频的方法。该多视图视频可以基于视频流集合来创建,该视频流集合由一组相机以一组视角同时捕获场景本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种由客户端装置处理多视图视频的方法,该多视图视频基于视频流集合来创建,该视频流集合由一组相机以一组视角同时捕获场景中的对象来生成,视角定义聚焦到该对象上的相机的光轴与该对象的参考轴线之间的角度,该方法包括:接收元数据、优选地清单文件,其定义用于该多视图视频的多个窗口,窗口定义与从该视频流集合中选择的视频流子集相关联的多视图视频数据,该视频流子集与视角子集相关联,优选地该视角子集中的视角定义有序视角序列;确定或接收与观看者的角度位置相关联的位置信息,优选地该角度位置与该观看者的眼睛的位置相关联,该角度位置定义由该多视图显示装置显示的该对象的参考轴线与该观看者看向该对象的光轴之间的角度;从该多个窗口中选择第一窗口,该第一窗口与第一视角子集相关联,该选择基于该位置信息和该第一视角子集;请求从服务器系统发送与该第一视频流子集相关联的第一多视图视频数据;接收该第一多视图视频数据,并且将该第一多视图视频数据提供到至少一个解码器实例以进行解码。2.根据权利要求1所述的方法,其中,该第一多视图视频数据包括经编码多视图图片的序列,每个多视图图片包括与该第一视角子集的所有视角相关联的图片。3.根据权利要求1所述的方法,其中,该第一多视图视频数据包括多组图片,一组图片包括针对某一时间实例的该第一视角子集的所有视角的图片。4.根据权利要求2或3所述的方法,其中,每个多视图图片与打包格式相关联,该打包格式定义与该第一视角子集相关联的这些图片在该多视图图片中的空间布置方式。5.根据权利要求1至4中任一项所述的方法,其中,该方法进一步包括:将该第一多视图视频数据解码成与该第一视角子集相关联的第一经解码图片;以及向该多视图显示装置提供这些第一经解码图片,以同时呈现这些第一经解码图片的至少一部分,从而在该观看者的位置处提供全息效果。6.根据权利要求1至5中任一项所述的方法,其中,该位置信息由位置传感器确定或提供,该位置传感器被配置为计算或预测该观看者的角度位置,优选地,该位置传感器包括成像系统,该成像系统被配置为在由该成像系统捕获的图像中跟踪该观看者的位置。7.根据权利要求1至6中任一项所述的方法,其中,从该多个窗口中选择该第一窗口包括:确定该观看者的角度位置是否位于由该第一视角子集的最小和最大视角定义的范围内。8.根据权利要求1至7中任一项所述的方法,其中,该有序视角序列定义增加或减少的视角序列,其中,两个后续视角之间的差异定义视图间距,优选地这些不同视图的视图间距被选择为使得在这些多视图图片的呈现期间与从该显示装置的屏幕点发出的不同的多个视角相关联的不同视觉信息进入该观看者的左眼和右眼。9.根据权利要求1至8中任一项所述的方法,其中,该元数据进一步包括用于定位该服务器系统的第一资源定位器,该服务器系统被配置为将该第一视频流子集的一个或多个分辨率版本发送到该客户端装置。10.根据权利要求1至9中任一项所述的方法,其中,该多个窗口中的一个窗口定义第二
窗口,该第二窗口定义从该视频流集合中选择的第二视频流子集,该第二视频流子集与第二视角子集相关联,其中:该第一子集的视角与该第二子集的视角部分重叠;或者该第一子集的视角与该第二子集的视角不重叠;或者该第一子集的视角与该第二子集的视角相同,并且该第一子集的视频流数量大于该第二子集的视频流数量。11.根据权利要求1至10中任一项所述的方法,其中,该元数据包括以下各项中的至少一项:定义该第一视角子集限定以下项的元数据:用于水平多视图视频呈现的水平视角;用于竖直多视图视频呈现的竖直视角;或者用于水平和竖直多视图视频呈现二者的水平和竖直视角;定义这些多视图图片的数据格式的元数据;定义不同视角的图片在该多视图图片中的空间布置顺序的元数据;定义用于创建该视频流集合的该组相机的一个或多个属性的元数据;定义该第一子集的第一角度和/或该第一子集的最后角度的元数据;定义该第一子集中的视角数量的元数据。12.根据权利要求1至11中任一项所述的方法,其中,该客户端装置被实施为HTTP适应流式传输客户端装置,比如MPEG

DASH客户端装置,并且其中,该清单文件定义媒体呈现描述MPD,其中,该MPD包括定义该第一窗口的第一窗口描述符,优选地,该第一窗口描述符是EssentialProperty,更优选地,该第一窗口映射到第一AdaptationSet,该第一AdaptationSet的EssentialProperty包括该第一窗口描述符,该第一AdaptationSet包括Representation,其中,每个Representation定义该第一视频流子集中的视频流的一个质量版本。13.一种由多视图视频创作系统处理多视图视频的方法,该方法包括:接收定义多视图视频的视频流集合,其中,该多视频由一组相机以一组视角同时捕获场景中的对象来生成,视角定义聚焦到该对象上的相机的光轴与该对象的参考轴线之间的角度;从该视频流集合中选择第一视频流子集和第二视频流子集,该第一视频流子集和该第二视频流子集分别与第一视角子集和第二视角子集相关联;确定与该第一视频流子集相关联的第一多视图视频数据和与该第二视频...

【专利技术属性】
技术研发人员:E
申请(专利权)人:荷兰应用自然科学研究组织
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1