当前位置: 首页 > 专利查询>谷歌公司专利>正文

多视角音频和视频交互式回放制造技术

技术编号:13297562 阅读:73 留言:0更新日期:2016-07-09 15:42
一种交互式多视角模块识别与真实世界事件相关联的多个媒体项,所述多个媒体项中的每一个包括视频部分和音频部分。该交互式多视角模块根据公共参考时间线同步所述多个媒体项中的每一个的音频部分,确定与所述多个媒体项中的每一个相关联的相对地理位置并且至少基于同步的音频部分和相对地理位置将所述多个媒体项呈现在交互式多视角播放器界面中。

【技术实现步骤摘要】
【国外来华专利技术】
本公开涉及媒体观看服务领域,并且具体地,涉及多视角音频和视频交互式回放
技术介绍
在互联网上,内容共享平台或者其它应用允许用户上传、观看和共享诸如媒体项的数字内容。这种媒体项可包括音频剪辑、电影剪辑、TV剪辑和音乐视频,以及诸如视频博客、简短原创视频、图片、照片、其它多媒体内容等的业余爱好内容。用户可使用计算装置(诸如,智能电话、蜂窝电话、膝上型计算机、台式计算机、上网本、平板计算机)来使用、播放和/或消费媒体项(例如,观看数字视频,收听数字音乐)。随着视频共享和社交网络平台的普及,由用户生成的视频量不断增加。对于具有多个参与者的事件,诸如体育赛事或音乐会,许多视频被上传,涵盖了不同的视点和不同的时刻。当前视频共享站点尝试对这些视频进行推荐和排名,以便给予用户事件的所有可用视频。然而,所有视频内容通常呈现在搜索查询结果的无组织的列表中,而视频相对于事件的精确时间和视点却被丢失。因此,用户将往往仅观看到事件的单个视频,从而使得他们看到由单个内容创建者可见的通向事件的较小门户。
技术实现思路
以下是本公开的简要
技术实现思路
,以便提供本公开的一些方面的基本理解。此
技术实现思路
不是本公开的详尽概述。它既不旨在识别本公开的关键或决定性元素,也没有勾画本公开的特定实现方式的任何范围或者权利要求的任何范围。其唯一目的是作为稍后呈现的具体实施方式的前序,以简化形式呈现本公开的一些构思。在一个实现方式中,一种交互式多视角模块识别与真实世界事件相关联的多个媒体项,所述多个媒体项中的每一个包括视频部分和音频部分。交互式多视角模块根据公共参考时间线同步所述多个媒体项中的每一个的音频部分,确定与所述多个媒体项中的每一个相关联的相对地理位置,以及至少基于所同步的音频部分和所述相对地理位置将所述多个媒体项呈现在交互式多视角播放器界面中。在一个实现方式中,交互式多视角模块还通过基于所同步的音频部分组合所述多个媒体项,来生成与真实世界事件相关联的单个编辑的媒体项。为了识别与真实世界事件相关联的所述多个媒体项,交互式多视角模块确定具有识别所述真实世界事件的元数据的媒体项。为了同步所述多个媒体项中的每一个的音频部分,交互式多视角模块对所述多个媒体项中的每一个确定时间偏移,所述时间偏移最大化或以其他方式增加各个音频部分的基于频率的音频谱图之间的相关性,其中,所述时间偏移表示公共参考时间线上的位置。确定与所述多个媒体项中的每一个相关联的相对地理位置包括:交互式多视角模块基于所述多个媒体项中的每一个中可见的多个点,确定在真实世界事件的时间用于捕获所述多个媒体项中的每一个的分立的相机的相对位置。在一个实现方式中,为了在交互式多视角播放器界面中呈现所述多个媒体项,交互式多视角模块显示表示所述多个媒体项中的每一个的图标,其中,每个图标被显示在基于对应的相对地理位置的位置中。交互式多视角模块接收对表示所述多个媒体项中的第一媒体项的图标的用户选择,并且开始回放第一媒体项。随后,交互式多视角模块在第一媒体项的回放期间与公共参考时间线上的第一点对应的时间处接收对表示所述多个媒体项中的第二媒体项的图标的用户选择,并且在第二媒体项中与公共参考时间线上的第一点相对应的时间处开始回放第二媒体项。在一个实现方式中,交互式多视角模块预测用户将选择的后续媒体项,并且在用户选择所述后续媒体项之前缓冲所述后续媒体项。附图说明本公开在附图中通过示例的方式而非以限制方式来说明。图1是示出可实现本专利技术的实现方式的示例性网络架构的框图。图2是示出根据一些实现方式的交互式多视角模块的框图。图3是示出根据一些实现方式的交互式多视角处理流程的框图。图4是示出根据一些实现方式的交互式多视角视频生成方法的流程图。图5A是示出根据实现方式的与公共事件有关的两个媒体项对应的频谱图的示图。图5B是示出根据实现方式的图5A所示的频谱图之间的相关性分值的曲线图的示图。图6A和图6B是示出根据一些实现方式的交互式多视角视频回放界面的两个可能呈现的示例的示图。图7是示出根据一些实现方式的预测和缓冲时间线的示图。图8是示出根据一些实现方式的示例性计算机系统的框图。具体实施方式描述了用于多视角音频和视频交互式回放的实现方式。在一个实现方式中,交互式多视角系统通过从视频中恢复通常在获取/上传过程中丢失的至少两条信息片段,来将取自同一真实世界事件的视频数据组织成交互的、易于理解的并且直观的回放体验。该信息可包括例如相机在拍摄事件时的相机位置以及根据公共参考时间线的视频同步。在恢复位置和视频的时间同步之后,空间信息允许系统创建新型的基于地图的导航界面,从而将视频与其真实世界3D位置相链接。时间同步允许从事件的不同视点的无缝转换,而非如今的大部分共享站点提供的典型播放列表型转换。将视频在空间和时间中进行链接允许用户沿着超过单个视频的持续时间的事件时间线进行搜寻,并且还可允许用户交互地改变视点以得到从不同位置处对事件的感觉。真实世界事件可以是真实世界(例如,不是在互联网上)中发生的能够被观察和捕获(例如,在照片中和视频上)的任何事件。在一个实现方式中,本交互式多视角系统通过利用基于用户交互、社交反馈和视频质量的线索来预测接下来用户将要选择的最可能的视频视点,克服了对互联网协议传输的带宽的限制,从而在确保无缝视频切换的同时减小了带宽。这种多视角音频和视频交互式回放体验可应用于户外音乐会和体育赛事。例如,在其它实现方式中,众包视频能够用于改进监控,由用户生成的内容能够被耦合至广播画面,或者能够从多个角度呈现用于学习新技能的教程和小技巧。界面也能够与单个编辑的汇总视频(例如,导演剪辑版、或者源自所有视频的混搭)耦合,或者能够使用多个视频来提高集合中的各个视频的质量(例如,改善音频)。在一个实现方式中,公开了一种用于组织和呈现多视角视频内容的完整系统。由这种系统提供的回放可被称作自由视点视频。用于此任务的现有系统被限制于实验室捕获设备或多视角工作室,在其中容易控制相机的3D姿态和同步(例如,用于校准的基于魔法棒的方法)。这种体育赛事的广播录制同样受益于预先容易进行的校准,这已允许这种自由视点和矩阵式效果用在这种事件的广播画面中。自由视点还包括视角合成,即,使用现有物理相机视角生成新的合成视角。因此,在一个实现方式中,如果由用户提供的视角足够多,则视角合成能够是所描述的框架最上面的可能应用。图1是示出可实现本公开的实现方式的示例性网络架构100的框图。在一个实现方式中,网络架构100包本文档来自技高网...

【技术保护点】
一种方法,包括:由处理装置识别与真实世界事件相关联的多个媒体项,所述多个媒体项中的每一个包括视频部分和音频部分;根据公共参考时间线来同步所述多个媒体项中的每一个的所述音频部分;确定与所述多个媒体项中的每一个相关联的相对地理位置;以及至少基于所同步的音频部分和所述相对地理位置将所述多个媒体项呈现在交互式多视角播放器界面中。

【技术特征摘要】
【国外来华专利技术】2013.11.20 US 61/906,588;2014.07.03 US 14/323,8071.一种方法,包括:
由处理装置识别与真实世界事件相关联的多个媒体项,所述多个媒体项中的每一个包
括视频部分和音频部分;
根据公共参考时间线来同步所述多个媒体项中的每一个的所述音频部分;
确定与所述多个媒体项中的每一个相关联的相对地理位置;以及
至少基于所同步的音频部分和所述相对地理位置将所述多个媒体项呈现在交互式多
视角播放器界面中。
2.根据权利要求1所述的方法,进一步包括:
通过基于所同步的音频部分组合所述多个媒体项来生成与所述真实世界事件相关联
的单个编辑的媒体项。
3.根据权利要求1所述的方法,其中,识别所述多个媒体项包括:确定具有识别所述真
实世界事件的元数据的媒体项。
4.根据权利要求1所述的方法,其中,同步所述多个媒体项中的每一个的所述音频部分
包括:对所述多个媒体项中的每一个确定时间偏移,所述时间偏移增加每个音频部分的基
于频率的音频谱图的相关性,其中,所述时间偏移表示所述公共参考时间线上的位置。
5.根据权利要求1所述的方法,其中,确定与所述多个媒体项中的每一个相关联的所述
相对地理位置包括:基于所述多个媒体项中的每一个中可见的多个点,确定在所述真实世
界事件的时间用于捕获所述多个媒体项中的每一个的分立的相机的相对位置。
6.根据权利要求1所述的方法,其中,在所述交互式多视角播放器界面中呈现所述多个
媒体项包括:
显示表示所述多个媒体项中的每一个的图标,其中,每个图标被显示在基于相对应的
相对地理位置的位置中;
接收对表示所述多个媒体项中的第一媒体项的图标的用户选择并且开始回放所述第
一媒体项;以及
在所述第一媒体项的回放期间与所述公共参考时间线上的第一点相对应的时间处接
收对表示所述多个媒体项中的第二媒体项的图标的用户选择,并且在所述第二媒体项中与
所述公共参考时间线上的所述第一点相对应的时间处开始回放所述第二媒体项。
7.根据权利要求6所述的方法,进一步包括:
预测所述用户将选择的后续媒体项;以及
在用户选择所述后续媒体项之前缓冲所述后续媒体项。
8.一种存储指令的非暂时性机器可读存储介质,所述指令在被执行时使得处理装置执
行操作,所述操作包括:
由所述处理装置识别与真实世界事件相关联的多个媒体项,所述多个媒体项中的每一
个包括视频部分和音频部分;
根据公共参考时间线来同步所述多个媒体项中的每一个的所述音频部分;
确定与所述多个媒体项中的每一个相关联的相对地理位置;以及
至少基于所同步的音频部分和所述相对地理位置将所述多个媒体项呈现在交互式多
视角播放器界面中。
9.根据权利要求8所述的非暂时性机器可读存储介质,其中,所述操作进一步包括:
通过基于所同步的音频部分组合所述多个媒体项来生成与所述真实世界事件相关联
的单个编辑的媒体项。
10.根据权利要求8所述的非暂时性机器可读存储介质,其中,识别所述多个媒体项包
括:确定具有识别所述真实世界事件的元数据的媒体项。
11.根据权利要求8所述的非暂时性机器可读存储介质,其中,同步所述多个媒体项中
的每一个的所述音频部分包括:对所述多个媒体项中的每一个确定时间偏移,所述时间偏
移增加每个音频部分的基于频率的音频谱图的相关性,其中,所述时间偏移表示所述公共
参考时间线...

【专利技术属性】
技术研发人员:尼尔·比克贝克伊萨西·因古瓦达米安·凯利安德鲁·克劳福德休·登曼佩里·托宾史蒂文·本汀阿纳尔·科卡拉姆杰里米·多伊格
申请(专利权)人:谷歌公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1