使用GLTF2场景描述中的扩展来支持视频和音频数据制造技术

技术编号:33518361 阅读:24 留言:0更新日期:2022-05-19 01:26
一种用于访问媒体数据的示例性设备包括被配置为存储媒体数据的存储器;以及以电路实现的一个或多个处理器,所述一个或多个处理器被配置为:接收包括定时媒体对象的GL传输格式2.0(glTF2)比特流的场景描述;使用所述场景描述来确定该定时媒体对象在呈现环境中的位置;获取定时媒体对象针对当前呈现时间的当前定时媒体数据;以及根据定时媒体对象在当前呈现时间处的位置,呈现当前定时媒体数据。呈现当前定时媒体数据。呈现当前定时媒体数据。

【技术实现步骤摘要】
【国外来华专利技术】使用GLTF2场景描述中的扩展来支持视频和音频数据
[0001]本申请要求享受2020年9月30日提交的美国临时申请No.17/038,754和2019年10月1日提交的美国临时申请No.62/909,095的权益,故以引用方式将以上申请中的每一申请的全部内容并入本文。


[0002]本公开内容涉及经编码的视频数据的存储和传输。

技术介绍

[0003]数字视频能力可以并入到各种各样的设备中,其包括数字电视、数字直接广播系统、无线广播系统、个人数字助理(PDA)、膝上型计算机或桌面型计算机、数码相机、数字记录装置、数字媒体播放器、视频游戏设备、视频游戏控制台、蜂窝或卫星无线电话、视频电话会议设备等等。数字视频设备实现视频压缩技术,例如,由MPEG

2、MPEG

4、ITU

T H.263或ITU

T H.264/MPEG

4、第10部分所规定的标准、高级视频编码(AVC)、ITU

T H.265(也称为高效率视频编码(HEVC))、以及这些标准的扩展里所描述的那些技术,以更高效地发送和接收数字视频信息。
[0004]视频压缩技术执行空间预测和/或时间预测以减少或者消除视频序列中固有的冗余。对于基于块的视频编码,可以将视频帧或片段划分为宏块。还可以对每个宏块进行进一步划分。使用相对于相邻宏块的空间预测,对帧内编码(I)帧或片段中的宏块进行编码。帧间编码(P或B)帧或片段中的宏块可以使用相对于同一帧或片段中的相邻宏块的空间预测,或者使用相对于其它参考帧的时间预测。
[0005]在对视频数据进行编码之后,可以对视频数据进行打包以进行传输或存储。可以将视频数据组装成符合多种标准中的任何一种的视频文件,比如国际标准化组织(ISO)的基本媒体文件格式及其扩展(例如,AVC)。

技术实现思路

[0006]通常,本公开内容描述了用于扩展GL传输格式2.0(glTF2)以用于支持音频和视频的技术以及其它技术。通常,使用glTF2来描述静态场景,即所呈现的媒体数据不变的场景。场景数据可以描述呈现环境,即用户可以例如使用虚拟现实(VR)头戴式耳机或计算设备来导航的三维空间。根据本公开内容的技术,可以对glTF2进行修改以描述定时的(例如,动态的)媒体对象(如,音频和视频数据)。例如,根据这些技术的glTF2场景可以描述在三维空间中用于显示视频的屏幕的位置、或者在三维空间中用于播放音频数据的扬声器的位置。以这种方式,设备可以在正确的位置呈现当前定时媒体数据,使得用户能够观看/聆听该媒体,就好像该媒体是从三维空间中的相应位置呈现的一样。
[0007]在一个例子中,一种用于访问媒体数据的设备,所述设备包括被配置为存储媒体数据的存储器;以及以电路实现的一个或多个处理器,所述一个或多个处理器被配置为:接收包括定时媒体对象的GL传输格式2.0(glTF2)比特流的场景描述;使用所述场景描述来确
定所述定时媒体对象在呈现环境中的位置;获取所述定时媒体对象针对当前呈现时间的当前定时媒体数据;以及根据所述定时媒体对象在所述当前呈现时间处的所述位置,呈现所述当前定时媒体数据。
[0008]在另一个例子中,一种其上存储有指令的计算机可读存储介质,当所述指令被执行时,使处理器执行以下操作:接收包括定时媒体对象的GL传输格式2.0(glTF2)比特流的场景描述;使用所述场景描述来确定所述定时媒体对象在呈现环境中的位置;获取所述定时媒体对象针对当前呈现时间的当前定时媒体数据;以及根据所述定时媒体对象在所述当前呈现时间处的所述位置,呈现所述当前定时媒体数据。
[0009]在一个例子中,一种用于访问媒体数据的设备包括:用于接收包括定时媒体对象的GL传输格式2.0(glTF2)比特流的场景描述的单元;用于使用所述场景描述来确定所述定时媒体对象在呈现环境中的位置的单元;用于获取所述定时媒体对象针对当前呈现时间的当前定时媒体数据的单元;以及用于根据所述定时媒体对象在所述当前呈现时间处的所述位置,呈现所述当前定时媒体数据的单元。
[0010]在附图和下面的说明书中阐述了一个或多个例子的细节。根据说明书、附图以及权利要求书,其它特征、目的和优点将变得清晰明了。
附图说明
[0011]图1是示出一种示例性系统的框图,该示例性系统实现了用于通过网络来流传输媒体数据的技术。
[0012]图2是更详细地示出获取单元的示例性组件集合的框图。
[0013]图3是示出示例性多媒体内容的元素的概念图。
[0014]图4是示出示例性视频文件的元素的框图,其中该视频文件可以对应于表示的片段。
[0015]图5是根据本公开内容的技术,示出示例性扩展glTF2模式的概念图。
[0016]图6是根据本公开内容的技术,示出示例性循环缓冲区的概念图。
[0017]图7是根据本公开内容的技术,示出在视频源节点(被实现为解码的图像缓冲区)与媒体源之间的示例性连接的概念图。
[0018]图8是根据本公开内容的技术,示出访问媒体数据的示例性方法的流程图。
具体实施方式
[0019]GL传输格式2.0(glTF2)已被确定为一种场景描述候选格式,可以满足MPEG

1(运动图像专家组

浸入式)和6DoF(六自由度)应用的需求。例如,在github.com/KhronosGroup/glTF/tree/master/specification/2.0#specifying

extensions可获得的Khronos Group的GL传输格式(glTF)版本2.0中,描述了glTF2。然而,本公开内容分析了常规glTF2可能缺少的几个特征以及可以改进glTF2以提供这些缺失特征的技术。
[0020]通常,glTF2用于描述静态场景。也就是说,使用glTF2呈现的媒体数据是固定不变的。使用本公开内容的技术,glTF2可以用于描述包括动态媒体数据(例如,音频和视频数据)的场景。例如,三维渲染场景可以包括呈现视频数据的对象(例如,显示屏或其它对象)。同样,三维渲染场景可以包括位于三维渲染场景中的扬声器处的音频对象。
[0021]本公开内容的技术可以解决使用glTF2来支持定时媒体数据的各种要求。一个要求是,场景描述应当支持音频、视频和由MPEG标准化的其它媒体格式。常规的glTF2通常不支持音频或视频媒体格式。但是,常规的glTF2支持几种静止图像格式。
[0022]另一个要求是,场景描述应当支持定义,以指示子图和对象在其时间、空间和逻辑关系方面如何关联。常规的glTF2中部分支持该要求,因为除动画外,假定场景图的所有节点在时间0处是活动的,并且常规glTF2中没有场景更新的概念。
[0023]另一个要求是,场景描述应当支持场景中的对象和属性之间的同步。在常规的glTF2中,仅通过动画支持此功本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种用于访问媒体数据的设备,所述设备包括:被配置为存储媒体数据的存储器;以及以电路实现的一个或多个处理器,所述一个或多个处理器被配置为:接收包括定时媒体对象的GL传输格式2.0(glTF2)比特流的场景描述;使用所述场景描述来确定所述定时媒体对象在呈现环境中的位置;获取所述定时媒体对象针对当前呈现时间的当前定时媒体数据;以及根据所述定时媒体对象在所述当前呈现时间处的所述位置,呈现所述当前定时媒体数据。2.根据权利要求1所述的设备,其中,所述定时媒体对象包括视频对象,并且其中,所述一个或多个处理器还被配置为将所述视频对象的纹理帧存储到循环缓冲区。3.根据权利要求2所述的设备,其中,所述纹理帧中的每一个纹理帧与bufferView元素相关联。4.根据权利要求2所述的设备,其中,所述纹理帧中的每一个纹理帧以无符号整数值的对应2D矢量开始,所述无符号整数值的对应2D矢量包括与所述纹理帧的呈现时间戳相对应的32位时间戳和所述纹理帧的图像编号值。5.根据权利要求2所述的设备,其中,所述一个或多个处理器还被配置为:维持到所述循环缓冲区中的读指针和到所述循环缓冲区中的写指针;以及防止所述读指针超过所述写指针。6.根据权利要求1所述的设备,其中,所述场景描述包括指示所述定时媒体对象被存储在远程设备上的数据,并且其中,所述一个或多个处理器被配置为从所述远程设备获取所述当前定时媒体数据。7.根据权利要求6所述的设备,其中,所述场景描述的所述数据定义了所述定时媒体对象的并与所述远程设备相对应的统一资源定位符(URL)。8.根据权利要求1所述的设备,其中,所述场景描述包括指示所述定时媒体对象被本地存储的数据,并且其中,所述一个或多个处理器被配置为从所述存储器中获取所述当前定时媒体数据。9.根据权利要求8所述的设备,其中,所述场景描述包括:定义所述定时媒体对象的并与所述设备的本地主机地址相对应的统一资源定位符(URL)的数据。10.根据权利要求1所述的设备,其中,所述定时媒体对象包括视频对象,并且其中,所述一个或多个处理器被配置为:对所述视频对象的编码的视频数据进行解码,以产生解码的YUV数据;将所述解码的YUV数据转换为由本地图形处理单元(GPU)支持的纹理格式;以及通过具有同步信息的bufferView元素,使具有所述纹理格式的数据可用。11.根据权利要求1所述的设备,其中,所述一个或多个处理器还被配置为以extensionsUsed元素和extensionsRequired元素的方式来处理对于glTF2的MPEG_texture_video扩展。12.根据权利要求1所述的设备,其中,所述一个或多个处理器还被配置为确定所述定时媒体对象的URL、所述定时媒体对象的MIME类型、以及所述定时媒体对象的时间访问和映射信息。
13.根据权利要求1所述的设备,其中,所述一个或多个处理器被配置为从以下各项中的至少一项访问所述定时媒体对象:由视频MIME类型指示的并封装到定时轨道中的视频源、包含视频轨道和音频轨道的多路复用源、由URL指示的DASH媒体呈现、或者具有多种媒体类型的DASH媒体呈现。14.根据权利要求1所述的设备,其中,所述一个或多个处理器被配置为使用指定URL的HTTP GET请求来访问所述定时媒体对象,并且将自动播放属性、海报属性、控件*属性、循环属性或静音属性中的至少一项附加到所述HTTP GET请求中的所述URL。15.根据权利要...

【专利技术属性】
技术研发人员:I
申请(专利权)人:高通股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1