本发明专利技术公开了复杂度可缩放的感知节拍估计。本申请涉及用于估计诸如音频或组合视频/音频信号之类的媒体信号的节奏的方法和系统。特别地,本申请涉及由人类听众感知的节奏的估计,以及涉及用于以可缩放的计算复杂度进行节奏估计的方法和系统。一种用于从包括谱带复制数据的音频信号的编码的比特流中提取该音频信号的节奏信息的方法和系统。该方法包括以下步骤∶确定对于音频信号的一时间间隔在该编码的比特流中包含的谱带复制数据量相关联的有效载荷量;对于该音频信号的编码的比特流的连续的时间间隔,重复该确定步骤,从而确定有效载荷量的序列;识别该有效载荷量的序列的周期性;以及从识别的周期性提取音频信号的节奏信息。
【技术实现步骤摘要】
【专利摘要】本专利技术公开了复杂度可缩放的感知节拍估计。本申请涉及用于估计诸如音频或组合视频/音频信号之类的媒体信号的节奏的方法和系统。特别地,本申请涉及由人类听众感知的节奏的估计,以及涉及用于以可缩放的计算复杂度进行节奏估计的方法和系统。一种用于从包括谱带复制数据的音频信号的编码的比特流中提取该音频信号的节奏信息的方法和系统。该方法包括以下步骤∶确定对于音频信号的一时间间隔在该编码的比特流中包含的谱带复制数据量相关联的有效载荷量;对于该音频信号的编码的比特流的连续的时间间隔,重复该确定步骤,从而确定有效载荷量的序列;识别该有效载荷量的序列的周期性;以及从识别的周期性提取音频信号的节奏信息。【专利说明】复杂度可缩放的感知节拍估计 本申请是申请号为201080048994. 4、申请日为2010年10月26日、专利技术名称为"复 杂度可缩放的感知节拍估计"的专利技术专利申请的分案申请。
本申请涉及用于估计诸如音频或组合视频/音频信号之类的媒体信号的节奏 (tempo)的方法和系统。特别地,该申请涉及由人类听众感知的节奏的估计,以及用于以可 缩放的计算复杂度进行节奏估计的方法和系统。
技术介绍
例如PDA、智能电话、移动电话和便携式媒体播放器的便携式手持设备通常包括音 频和/或视频再现(render)能力并且已经变成重要的娱乐平台。此发展由无线或有线传 输能力在这样的设备中的逐渐渗透推进。由于诸如HE-AAC格式之类的媒体传输和/或存 储协议的支持,媒体内容可以被连续下载并存储到便携式手持设备上,从而提供实际上无 限量的媒体内容。 但是,由于有限的计算功率和能量消耗是重要的约束,因此低复杂度的算法对于 移动/手持设备是关键性的。这些约束对于新兴市场中的低端便携式设备更加关键。考虑 到在通常的便携式电子设备上可用的海量媒体文件,为了对媒体文件聚类(cluster)或分 类从而使得便携式电子设备的用户能够识别例如音频、音乐和/或视频文件的合适的媒体 文件,MIR(音乐信息检索)应用是期望的工具。用于这样的MIR应用的低复杂度的计算方 案是期望的,这是因为否则,它们在具有有限计算和功率资源的便携式电子设备上的可用 性将受到损害。 用于各种MIR应用(例如风格(genre)和情感(mood)分类、音乐概括 (smnmarization)、音频缩略化、自动播放列表生成和使用音乐相似性的音乐推荐系统等 等)的重要的音乐特征是音乐节奏。因而,具有低计算复杂度的用于节奏确定的过程将有 助于对于移动设备的所提到的MIR应用的分散实施的发展。 此外,虽然通常通过以BPM(每分钟拍数)计的活页乐谱或乐谱上的标记节奏 (notated tempo)来表征音乐节奏,但是此值通常不对应于感知节奏(perceptual tempo)。 例如,如果一群听众(包括熟练的音乐家)被要求评注音乐选段的节奏,则他们通常给出不 同的答案,即他们通常以不同的度量水平(metrical level)拍击。对于一些音乐选段,感 知的节奏较不含糊,并且所有听众通常以相同的度量水平拍击,但是对于其它音乐选段,节 奏可能是含糊的,并且不同的听众识别不同的节奏。换句话说,感知实验已经显示感知的节 奏可能不同于标记节奏。一段音乐可能感觉比它的标记节奏快或慢,因为占优势的感知的 律动(pulse)可能是比标记节奏高或低的度量水平。鉴于MIR应用应当优选地考虑最有可 能被用户感知的节奏这一事实,自动节奏提取器应当预测音频信号的在感知上最突出的节 奏。 已知的节奏估计方法和系统具有各种缺点。在很多情况下,它们限于特别的音频 编解码器,例如MP3,并且不能应用于利用其他编解码器编码的音轨。此外,这样的节奏估 计方法通常仅仅在应用于具有简单明了的旋律结构的西方流行音乐上时才能正常工作。另 夕卜,已知的节奏估计方法没有考虑感知方面,即它们没有针对估计最有可能被听众感知的 节奏。最后,已知的节奏估计方案通常在未压缩PCM域、变换域或压缩域中的仅仅之一中工 作。 期望的是提供克服已知节奏估计方案的上述缺点的节奏估计方法和系统。特别 地,期望的是提供编解码器不可知的和/或可适用于任何类型的音乐风格的节奏估计。此 夕卜,期望的是提供一种估计音频信号的在感知上最突出的节奏的节奏估计方案。此外,期望 一种可应用于上述域(即未压缩的PCM域、变换域和压缩域)中的任何一个中的音频信号 的节奏估计方案。还期望提供具有低计算复杂度的节奏估计方案。 节奏估计方案可以用于各种应用中。由于节奏是音乐中的基础语义信息,因此这 样的节奏的可靠估计将提高例如自动的基于内容的风格分类、情感分类、音乐相似、音频缩 略化和音乐概括之类的其他MIR应用的性能。此外,感知节奏的可靠估计对于音乐选择、t匕 较、混合和播放列表化是有用的统计。值得注意的是,对于自动播放列表生成器或音乐导航 仪或DJ装置,感知节奏或感觉通常比标记的或物理的节奏更相关(relevant)。此外,对于 感知的节奏的可靠估计可以对游戏应用有用。举例来说,音带节奏可以用于控制相关的游 戏参数,例如游戏的速度,反之亦然。这可以用于使用音频来个性化游戏内容并且用于为用 户提供增强的体验。进一步的应用领域可以是基于内容的音频/视频同步,其中音乐节拍 (beat)或节奏是用作用于定时事件的锚标(anchor)的首要信息源。 应当注意,在本申请中,术语"节奏"被理解为触觉律动(pulse)的速率。此触觉 也被称为脚拍击速率,即听众在收听例如音乐信号的音频信号时拍击他们的脚的速率。这 不同于定义音乐信号的层级结构的音乐计量。 W02006/037366A1描述了用于基于音乐片段的时域PCM表示生成编码的旋律图案 的设备和方法。US7518053B1描述了用于从两个音频流提取节拍并且将这两个音频流的节 拍对齐的方法。
技术实现思路
根据一方面,描述了一种用于从音频信号的编码的比特流中提取音频信号的节奏 信息的方法,其中该编码的比特流包括谱带复制数据。编码的比特流可以是HE-AAC比特流 或mp3PR0比特流。该音频信号可以包括音乐信号,并且提取节奏信息可以包括估计音乐信 号的节奏。 该方法可以包括确定对于音频信号的时间间隔编码的比特流中所包含的谱带复 制数据的量相关联的有效载荷量的步骤。值得注意的是,在编码的比特流是HE-AAC比特流 的情况下,后一步骤可以包括确定在该时间间隔中该编码的比特流的一个或多个填充元素 字段中所包括的数据的量,以及基于在该时间间隔中包括在该编码的比特流的该一个或多 个填充元素字段中的数据的量来确定有效载荷量。 由于谱带复制数据可以使用固定头部被编码这一事实,在提取节奏信息之前去除 这样的头部可能是有益的。特别地,该方法可以包括确定在该时间间隔中该编码的比特流 的一个或多个填充元素字段中所包含的谱带复制头部数据的量的步骤。此外,在该时间间 隔中该编码的比特流的该一个或多个填充元素字段中所包含的数据的净量可以通过扣除 或减去在该时间间隔中该编码的比特流的该一个或多个填充元素字段中所包含的谱带复 制头部数据的量来确定。因此,头部比特已被去掉,并且可以基于数据的本文档来自技高网...
【技术保护点】
一种用于估计音频信号的感知突出的节奏的方法,该方法包括∶确定来自该音频信号的调制谱,其中该调制谱包括指示该音频信号中的周期性的多个出现频率和相应的多个重要性值,其中该重要性值指示在该音频信号中的相应的出现频率的相对重要性;将物理上突出的节奏确定为与该多个重要性值的最大值对应的出现频率;从该调制谱确定音频信号的节拍度量;从该调制谱确定感知节奏指示符,其中该感知节奏指示符包含以下中的一个或多个:该调制谱的矩心、该音频信号的节拍强度、以及该调制谱的混乱程度;以及通过根据该节拍度量修改该物理上突出的节奏来确定感知突出的节奏,其中该修改步骤考虑了该感知节奏指示符和物理上突出的节奏之间的关系。
【技术特征摘要】
...
【专利技术属性】
技术研发人员:A·比斯沃斯,D·霍洛斯,M·舒格,
申请(专利权)人:杜比国际公司,
类型:发明
国别省市:荷兰;NL
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。