本发明专利技术的实施例涉及使用音频对象的时间变化的音频对象聚类。提供一种用于在音频对象聚类中使用音频对象的时间变化的方法。该方法包括:获取与所述音频对象相关联的音轨的至少一个片段,所述至少一个片段包含所述音频对象;基于所述音频对象的至少一个属性,估计所述音频对象在所述至少一个片段的持续时间上的变化;以及至少部分地基于估计的所述变化,调整所述音频对象在所述音频对象聚类中对聚类中心的确定的贡献。还公开了相应的系统和计算机程序产品。
【技术实现步骤摘要】
本专利技术总体上涉及音频对象聚类,更具体地,涉及用于在音频对象聚类中使用音 频对象的时间变化的方法和系统。
技术介绍
传统上,音频内容W基于声道(channel based)的格式被创建和存储。在此使用 的术语"音频声道"或"声道"是指通常具有预定义物理位置的音频内容。例如,立体声、环 绕5. 1、环绕7. 1等都是用于音频内容的基于声道的格式。近来,很多传统的多声道系统已 经被扩展为支持一种新型格式,该种格式包括声道和音频对象二者。在此使用的术语"音 频对象"或简称"对象"是指在声场中存在特定持续时间的个体音频元素。一个音频对象 可W是动态的也可W是静态的。例如,音频对象可W是人、动物或者能够充当声源的任何 其他元素。音频对象和声道可W被分开发送,继而由重现系统动态使用W便基于回放设备 的配置来自适应地重建创作意图。作为示例,在称为"自适应音频内容"(adaptive audio content)的格式中,可W存在一个或多个音频对象W及一个或多个"静态环境声"(audio bed),静态环境声是将W预定义的、固定的位置进行重现的声道。 通过创建更具沉浸感的声场W及精准地控制离散的音频对象(无需考虑回放设 备的特定配置),基于对象的音频内容相对于传统基于声道的音频内容而言代表着显著的 进步。例如,在电影的音轨中可W包含多个不同声音元素,W对应于屏幕上画面、对话、噪声 和音效,该些音效从画面上的不同位置发出,并且与背景音乐和环境音效结合W创建整体 的听觉体验。 然而,基于对象的音频内容中的大量音频信号(静态环境声和音频对象)给音频 内容的编码和分发带来了新的挑战。将会理解,在很多情况下,诸如在经由蓝光光碟、广播 (蓝线、卫星和陆地广播)、移动网络、互联网机顶盒(0TT)或者因特网的分发中,用于传输 和处理所有静态环境声、音频对象和相关信息的带宽和/或其他资源可能是有限的。尽管 可W使用音频编码和压缩技术来减小待处理信息的量,但是该些技术在某些情况下是不适 用的,特别是对于复杂的场景W及带宽非常有限的网络(诸如,移动网络)。而且,音频编 码/压缩技术只能够通过考虑单声道或者声道配对内的兀余来降低比特率。对于基于对象 的音频内容,很多空间兀余并未被纳入考虑,诸如音频对象之间的空间位置重叠和空间掩 蔽效应(maskeffect)。为了利用空间兀余性来进一步降低资源需求,已经提供向音频对象应用聚类 (clustering)过程,使得得到的每个类能够代表一个或多个音频对象。通常,一个类可W包 含/合并彼此足够接近的多个音频对象(静态环境声可W作为具有预定义位置的音频对 象而被处理)。一般而言,在音频对象聚类中,需要考虑若干基本的标准。例如,应当准确地 表征和建模原始内容的空间特性,W便保持总体空间感。另外,在聚类过程中应当避免听觉 瑕疵或者对后续处理的任何问题/挑战。然而,在空间对象聚类的已知尝试中,聚类通常是 在每个峽的基础上执行的。例如,聚类中也(centroid)是针对每个峽而独立确定的,没有 考虑音频对象随时间的变化。因此,聚类过程的峽间稳定性相对较低,该很可能在呈现音频 对象类时引起听觉瑕疵。 有鉴于此,本领域中需要一种支持更加稳定的音频对象聚类的技术方案。
技术实现思路
为了解决上述问题,本专利技术提出一种用于音频对象聚类的方法和系统。 在一个方面,本专利技术的实施例提供一种用于在音频对象聚类中使用音频对象的时 间变化的方法。所述方法包括:获取与所述音频对象相关联的音轨的至少一个片段,所述至 少一个片段包含所述音频对象;基于所述音频对象的至少一个属性,估计所述音频对象在 所述至少一个片段的持续时间上的变化;W及至少部分地基于估计的所述变化,调整所述 音频对象在所述音频对象聚类中对聚类中也的确定的贡献。在方面的实施例还包括对应的 计算机程序产品。 在另一方面,本专利技术的实施例提供一种用于在音频对象聚类中使用音频对象的时 间变化的系统。所述系统包括:片段获取单元,被配置为获取与所述音频对象相关联的音轨 的至少一个片段,所述至少一个片段包含所述音频对象;变化估计单元,被配置为基于所述 音频对象的至少一个属性,估计所述音频对象在所述至少一个片段的持续时间上的变化; W及惩罚单元,被配置为至少部分地基于估计的所述变化,调整所述音频对象在所述音频 对象聚类中对聚类中也的确定的贡献。 通过下文描述将会理解,根据本专利技术的实施例,音频对象的时间变化可W被估计 并且在对音频对象进行聚类时被纳入考虑。例如,通过主要依赖于那些具有较小时间变化 的音频对象来确定聚类中也,能够有效地改善峽之间的对象向类的分配稳定性。也即,可W W-种更加稳定和一致的方式选择聚类中也。由此,可W在处理后的音频信号中避免听觉 上的瑕疵。【附图说明】 通过参考附图阅读下文的详细描述,本专利技术实施例的上述W及其他目的、特征和 优点将变得易于理解。在附图中,W示例而非限制性的方式示出了本专利技术的若干实施例,其 中: 图1示出了已知的音频对象聚类过程中的不稳定问题的示意图; 图2示出了根据本专利技术的示例实施例的用于在音频对象聚类中使用音频对象的 时间变化的方法的流程图; 图3示出了根据本专利技术的示例实施例的用于在音频对象聚类中使用音频对象的 时间变化的系统的框图;W及 图4示出了适于实现本专利技术的示例实施例的计算机系统的框图。 在各个附图中,相同或对应的标号表7]^相同或对应的部分。【具体实施方式】 下面将参考附图中示出的若干示例实施例来描述本专利技术的原理。应当理解,描述 该些实施例仅仅是为了使本领域技术人员能够更好地理解进而实现本专利技术,而并非W任何 方式限制本专利技术的范围。 如上所述,在已知的音频对象聚类方案中,对象向类的分配有时是不稳定的。在此 所说的稳定的分配是指:音频对象(至少对于那些静态的对象而言)被一致地分配给具有 相同位置的聚类中也。对于具有固定位置的音频对象,对象向类的分配通常是由所选择的 聚类中也的位置确定的。如果中也的位置相对稳定,则对象向类的分配也将会比较稳定。相 反,如果聚类中也频繁地或者快速地从一个位置向另一个位置移动甚至跳跃,则峽之间的 对象向类的分配稳定性很可能降低,由此引入一些听觉上的瑕疵。 图1示出了在已知的音频聚类过程中的不稳定性的一个示例。在所示的示例中, 将使用两个类来表示空间100中的H个音频对象101、102和103,其中音频对象101在空间 100的左前方,音频对象102在空间的右前方,并且音频对象103在空间100的前方中部。 在该种情况下,每个音频对象与重要性(importance)的值相关联,其指明各音频对象在音 频内容中的感知重要性。假设音频对象101和103的重要性值分别是1和1. 5,音频对象 102的重要性值在0. 5到1. 3之间变化。基于感知标准,音频对象103将总是被选作一个中 也,另一中也则在音频对象101与102之间切换。该样,音频对象101将在W位置(〇,〇,〇) 和化5,0,0)为中也的类之间切换。由此,音频对象101的感知位置将在空间100的左前 部和中前部之间跳跃,该将在处理后的音频信号中引起听觉上的瑕疵。 为了稳定对象向类的分配,根据本专利技术的示例实施例,在确定聚类中也时将估计本文档来自技高网...
【技术保护点】
一种用于在音频对象聚类中使用音频对象的时间变化的方法,所述方法包括:获取与所述音频对象相关联的音轨的至少一个片段,所述至少一个片段包含所述音频对象;基于所述音频对象的至少一个属性,估计所述音频对象在所述至少一个片段的持续时间上的变化;以及至少部分地基于估计的所述变化,调整所述音频对象在所述音频对象聚类中对聚类中心的确定的贡献。
【技术特征摘要】
【专利技术属性】
技术研发人员:陈连武,芦烈,J·布里巴特,
申请(专利权)人:杜比实验室特许公司,
类型:发明
国别省市:美国;US
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。