用于在ISOBMFF轨中封装注释区域的方法和设备技术

技术编号:36800510 阅读:10 留言:0更新日期:2023-03-08 23:39
本发明专利技术涉及生成媒体文件的方法,该方法包括:生成媒体数据样本的第一轨;生成至少一个注释区域,该注释区域与该注释区域的几何图形相关联,该注释区域与描述该注释区域的至少一个区域注释相关联,其中该注释区域与媒体数据样本的第一轨相关联;以及生成包括第一轨以及至少一个注释区域、相关联的几何图形和相关联的区域注释的媒体文件。的区域注释的媒体文件。的区域注释的媒体文件。

【技术实现步骤摘要】
【国外来华专利技术】用于在ISOBMFF轨中封装注释区域的方法和设备


[0001]本公开涉及用于在媒体轨中封装注释区域的方法和装置。

技术介绍

[0002]现代照相机和图像分析服务能够生成与图像或图像序列的一部分、子部分或者甚至图像或图像序列内的对象相关联的针对图像或图像序列的元数据(例如注释区域)。例如,照相机可以在记录视频的同时生成视频的聚焦区域或检测面部。作为另一示例,深度学习系统可以检测移动图像序列内的对象。
[0003]由照相机拍摄或由图像分析服务处理的图像或视频被存储在例如存储卡的存储装置上。所记录的视频通常被压缩以减小存储装置上的数据的大小。可以使用许多视频压缩标准,如由MPEG委员会:AVC、HEVC或VVC定义的标准。
[0004]一旦被压缩,视频就可以被存储或通过通信网络传输以供媒体播放器消费。例如,压缩视频序列可使用ISO基本媒体文件格式(ISOBMFF)封装成以产生ISO基本媒体文件或ISOBMFF段的集合。一些视频序列(例如爆发的图像)还可使用图像文件格式(例如HEIF或MIAF)存储为图像序列或图像轨。
[0005]国际标准组织基本媒体文件格式(ISOBMFF、ISO/IEC14496

12)为众所周知的灵活且可扩展的文件格式,其封装和描述经编码定时或非定时媒体数据以用于本地存储或用于经由网络或经由另一位流递送机制进行传输。扩展的示例是ISO/IEC14496

15,其描述用于各种基于NAL(网络抽象层)单元的视频编码格式的封装工具。这种编码格式的示例是AVC(高级视频编码)、SVC(可缩放视频编码)、HEVC(高效率视频编码)、L

HEVC(分层HEVC)以及VVC(通用视频编码)。文件格式扩展的另一示例是描述用于静态图像或静态图像序列(诸如HEVC静态图像等)的封装工具的ISO/IEC 23008

12。文件格式扩展的另一示例是定义全向媒体应用格式(OMAF)的ISO/IEC 23090

2。ISO基本媒体文件格式为面向对象的。其由称为框的构建块组成,对应于由唯一类型标识符(通常为四字符代码,也称为FourCC或4CC)表征的数据结构。全框是类似于另外包含版本和标志值属性的框的数据结构。在下文中,术语框可以指定全框或框这两者。这些框或全框在ISOBMFF文件中分层地或顺序地组织,并且定义描述编码的定时或非定时媒体数据、其结构和定时的参数(如果存在)。封装的媒体文件中的所有数据(媒体数据和描述媒体数据的元数据)包含在框中。该文件中没有其他数据。文件级框是不包含在其他框中的框。
[0006]在文件格式中,整个媒体呈现被称为动画(movie)。通过在文件的顶层的动画框(具有四字符代码

moov

)描述动画。该动画框表示包含描述媒体呈现的各种框的集合的初始化信息容器。逻辑地将其分割成由轨框(具有四字符代码

trak

)表示的轨。各个轨(由轨标识符(track_ID)唯一地标识)表示属于呈现(例如,视频或音频样本的帧)的媒体数据的定时序列。在各个轨内,数据的各个定时单元被称为样本;这可以是视频、音频的帧或定时元数据。按解码顺序序列隐式地对样本进行编号。各个轨框包含描述轨的样本的框的层级,例如,样本表框(

stbl

)包含轨中的媒体样本的所有时间和数据索引。实际样本数据存储
在称为媒体数据框(具有四字符代码

mdat

)或与动画框处于相同级别的标识的媒体数据框(具有四字符代码

imda

,类似于媒体数据框但包含附加标识符)的框中。动画也可以被分段并且在时间上组织为动画框,动画框包含用于整个呈现的信息,随后是媒体片段的列表,即,若干动画片段和媒体数据框(

mdat



imda

)的列表。在动画片段(具有四字符代码

moof

的框)内,存在描述媒体片段内的轨的轨片段(具有四字符代码

traf

的框)集合,每个动画片段零个或多于零个轨片段。轨片段进而含有零个或多于零个轨运行框(

trun

),各个轨运行框记录针对该轨片段的样本的连续运行。
[0007]ISOBMFF文件可包含形成多个轨的多个经编码定时媒体数据或经编码定时媒体数据的子部分。当子部分对应于视频源的一个或连续空间部分(随时间而取得(例如,随时间而取得的至少一个矩形区域,有时称为

区块



子图片

))时,对应的多个轨可以称为区块轨或子图片轨。
[0008]ISOBMFF及其扩展包括用于将轨、静态项或样本分组在一起并使分组描述与它们相关联的若干分组机制。组通常共享共同的语义和/或特性。
[0009]这些封装标准并不提供以可互操作的方式使描述或注释与图像内或图像序列内的区域相关联的容易手段。“容易手段”在此应被解释为可由通用的ISOBMFF读取器或基于ISOBMFF的标准读取器处理。例如,ISOBMFF不提供用于用户注释或文本描述的简单框或数据结构。存在用于用户数据的框,但它是用于供应商特定的元数据的容器框,因此不专用于互操作性。
[0010]Web视频文本轨格式(WebVTT)(来自W3C的候选推荐)提供针对视频内容的字幕或副标题,并且还提供文本视频描述、用于内容导航的章节、以及更一般地与音频或视频内容时间对准的任何形式的元数据。视频文件或媒体文件与WebVTT文件之间的关联可在HTML中用信号通知,但在ISOBMFF文件内在WebVTT轨与媒体轨之间不存在特定关系。

技术实现思路

[0011]已经设计本专利技术以解决一个或多于一个前述问题。本专利技术更具体地涉及用于描述视频轨中的注释区域(可能移动区域)的解决方案。根据实施例,注释区域的描述可以存储在其自己的轨中并与其描述的媒体轨相关联。注释区域的描述可以存储在其自己的轨中并与描述媒体轨的元数据轨相关联。注释区域的描述可以存储在媒体文件的特定部分内,例如

meta

框或样本描述中。注释区域的描述可以与轨、样本组或者子样本的组相关联。
[0012]根据本专利技术的第一方面,提供一种生成媒体文件的方法,该方法包括:
[0013]‑
生成媒体数据样本的第一轨;
[0014]‑
生成至少一个注释区域,所述注释区域与所述注释区域的几何图形相关联,所述注释区域与描述所述注释区域的至少一个区域注释相关联;其中所述注释区域与媒体数据样本的第一轨相关联;以及
[0015]‑
生成包括所述第一轨和所述至少一个注释区域、相关联本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种用于生成媒体文件的方法,所述方法包括:生成媒体数据样本的第一轨;生成至少一个注释区域,所述注释区域与所述注释区域的几何图形相关联,所述注释区域与描述所述注释区域的至少一个区域注释相关联,其中所述注释区域与所述媒体数据样本的所述第一轨相关联;以及生成包括所述第一轨以及所述至少一个注释区域、相关联的几何图形和相关联的区域注释的媒体文件。2.根据权利要求1所述的方法,其中,所述注释区域被定义为使用项参考框与所述第一轨相关联的项;所述区域注释被定义为与定义所述注释区域的项相关联的项属性。3.根据权利要求1所述的方法,其中,所述注释区域被定义为使用项参考框与第一轨相关联的项;所述区域注释被定义为直接或间接与所述第一轨相关联的项属性。4.根据权利要求1所述的方法,其中,所述方法还包括:生成包括存储为样本的所述注释区域的定时元数据的第二轨,其中所述第二轨使用轨参考与所述第一轨相关联。5.根据权利要求4所述的方法,其中,将区域注释存储为所述第二轨的样本的组的属性。6.根据权利要求4所述的方法,其中,所述方法还包括:生成样本的第三轨,各个样本是与所述第二轨的注释区域相关联的区域注释,其中所述第三轨使用轨参考与所述第二轨相关联。7.根据权利要求4所述的方法,其中,将区域注释存储为所述媒体文件的元数据部分中的属性容器的属性。8.根据权利要求7所述的方法,其中,通过所述第二轨中的样本的组,将注释区域与区域注释相关联。9.根据权利要求7所述的方法,其中,将区域注释与注释区域之间的关联存储在指示所述属性容器中的所述区域注释的索引的样本组描述条目中,其中所述样本组描述条目与所述第二轨中的样本的组相关联。10.根据权利要求1所述的方法,其中,所述第一轨包括样本组描述条目中所存储的所述注释区域,并且包括作为存储所述注释区域的样本的属性而存储的所述区域注释。11.根据权利要求1所述的方法,其中,所述方法还包括:生成指示描述区域的第一样本分组;以及生成直接或间接指示所述区域注释的第二样本分组。12.根据权利要求11所述的方法,其中,所述第二样本...

【专利技术属性】
技术研发人员:弗兰克
申请(专利权)人:佳能株式会社
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1