本发明专利技术提供采样媒体内容的自动识别。针对音频信号的相继时间分片生成声谱图。针对时间片通过计算来自用于时间片的列中的相应频率仓的量值的比率来生成一个或者多个采样散列矢量。在一级评估阶段中,执行采样散列矢量的位与查找表中的条目的确切匹配以标识一个或者多个参考散列矢量的组。在二级评估阶段中,执行在采样散列矢量与参考散列矢量组中的每个之间的相似程度以标识任何参考散列矢量,这些任何参考散列矢量是用于匹配采样媒体内容的候选,每个参考散列矢量代表参考媒体内容的时间分片。
【技术实现步骤摘要】
【国外来华专利技术】
本专利技术涉及用于自动识别音频媒体内容的音频识别系统和方法。
技术介绍
已知用于处理传入音频流(“节目”)并且搜索音乐和音效(“音轨”)的内部数据库以标识在节目内使用那些音轨的各种音频识别系统和方法。在现实世界中,音乐经常是节目的音频层中的仅一层。针对音频识别的挑战之一是即使在有同时出现的诸如音效、画外音、气氛等的其它音频层的境况中仍然识别音乐的标识。其它失真包括均衡(调整音轨中的颤音(tremble)和低音的相对总量)以及改变节奏和/或音调。一些音频识别技术基于使用标准算法对计算的散列值直接实施近邻搜索。当搜索的空间具有大量维度时,这样的标准算法没有很高效地执行。Philips Research 的 J. Haitsma等人在 2002年第 3 界 International Conferenceon Music Information Retrieval 的学报中发表的一篇标题为 “A Highly Robust AudioFingerprinting System”的文章描述了一种用于比较多媒体对象的媒体指纹识别系统。该文章描述了大量多媒体对象的指纹连同相关联的元数据(例如艺术家姓名、标题和专辑)一起存储在数据库中,从而指纹用作指向元数据的索引。然后可以通过计算指纹并且使用这一指纹以查询数据库来标识未标识的多媒体内容。该论文描述一种两阶段搜索算法,其基于仅在通过子指纹搜索而预选的候选位置处执行全指纹比较。使用以32位子指纹为条目的散列或者查找表来对候选位置定位。每个条目指向列表,指针指向各个32位子指纹在实际指纹列表中所在的位置。然而仍然需要一种用于更高效和更可靠标识音频媒体内容的装置、系统和方法。
技术实现思路
在权利要求中限定本专利技术的方面。在一个示例实施例中,提供采样媒体内容的自动识别。针对音频信号的相继时间分片生成声谱图。通过计算来自用于时间分片的列中的各个频率仓的量值的比率来针对时间分片生成一个或者多个采样矢量。在一级评估阶段(一级测试阶段)中,执行采样矢量的位与散列表中的条目的确切匹配以标识一个或者多个参考矢量的组。在二级评估阶段(二级测试阶段)中,执行在采样矢量与参考矢量组中的每个参考矢量之间的相似程度以标识任何参考矢量,这些任何参考矢量是用于匹配采样媒体内容的候选,每个参考矢量代表参考媒体内容的时间分片。也可以将矢量不同地描述为“散列”、“散列矢量”、“签名”或者“指纹”。本专利技术的实施例可以提供操作的可伸缩性和效率。本专利技术的实施例可以以参考音轨的很大数据库一起高效和可靠地工作。本专利技术的实施例可以运用具有良好鉴别力(大量‘熵’)的散列,从而根据节目音频生成的散列往往不与数据库中的太多散列匹配。本专利技术的实施例可以运用来自音频信号的声谱的大量测量。每个测量可以例如是对失真相对稳健的2位二进制数的形式。可以根据这些依赖于声谱的有限部分的测量来生成声谱散列集。本专利技术的实施例使用如下方法,该方法组合一级步骤中的确切匹配数据库搜索与使用可变深度树结构中存储的附加信息的精化步骤。这给予与近邻搜索的效果相似的效果,然而较常规近邻搜索实现了数量级的处理速度的增加。确切匹配搜索可以在计算机中被高效进行并且允许执行更快识别。实施例使得能够在使用很大的源指纹数据库时在失真的环境中进行准确识别,而处理要求与现有技术相比减少。一个实施例使得能够以如下方式创建与时刻对应的签名(或者指纹),该方式使得签名的参与简单确切匹配的部分的熵被仔细控制,而不是在未这样仔细控制签名的熵的情况下使用近似匹配。这可以实现准确性和可伸缩性,而处理器成本大量减少。一个示例实施例通过改变为了确切匹配而需要的来自散列的位数而考虑不同强度的各种散列,而不是从声谱图取得大量测量。例如,可以确切匹配强散列的仅前27位,而可以针对更弱散列匹配更大数目、例如前34位。本专利技术的实施例可以使用可变深度树结构以允许高效实施这些匹配操作。一个示例实施例可以提供在有噪声的环境中的准确识别,并且即使待识别的音频持续时间很短(例如少于三秒或者少于两秒或者少于一秒)仍然可以做到这一点。一个示例实施例可以提供相对于很大指纹化内容数据库源(例如超过一百万首歌曲)的识别。一个示例实施例可以实施于常规独立计算机上或者联网的计算机系统上。一个示例实施例可以显著提高现有识别系统的结果质量并且改善这样的系统的大规模实施成本。附图说明下文参照附图仅通过例子描述实施例。图I是示例装置的示意框图。图2是给出处理音频信号的方法的概况的流程图。图3是图示了在不同频率处设置量化级的例子的示意表示。图4图示了在测试矢量之间的距离的示例分布。图5是用于实施图2的方法的实施例的计算机系统的示意表示。图6更具体地图示了图5的计算机系统的数据库结构。具体实施例方式本专利技术的一个示例实施例提供一种处理传入音频流(“节目”)并且搜索音乐和音效(“音轨”)的内部数据库以标识在节目内使用那些音轨的音频识别系统。一个示例实施例的输出的一个例子可以是提示单的形式,该提示单列举对所用音轨的选择和它们在节目中出现于何处。一个示例实施例可以与例如一千万秒音乐的数据库一起工作。然而其它实施例可扩展成与大得多的数据库、例如十亿秒音乐的数据库一起工作,并且能够识别持续时间例如为三秒或者更少、例如一秒这一级的剪辑,而且可以在处理来自典型音乐电台的音频时在常规服务器计算机上在约十倍的速率实时操作。以下是本文中所用术语中的一些术语的定义“音轨”是将在以后某点识别的音频剪辑。所有可用音轨被处理并组合到数据库 中。“节目”是待识别的一段音频。假设节目包括组合在一起并且受到各种失真、点缀有其它材料的一些音轨。“失真”是发生在组成节目的音轨上的某事物。失真的例子是·噪声随机噪声与音轨混合;·画外音话音与音轨混合;·音调在维持基础定时的同时改变音调;·节奏在维持音调的同时改变定时;·速度改变音调和节奏二者(例如通过更快播放磁带)。注意,音调、节奏和速度相关并且可以组合任何两项以产生第三项。“散列”是从音轨或者节目的理想地未被失真改变的特定部分(时间分片)获得的小段息。图I是形成本专利技术实施例的装置110的例子的示意框图。信号源102可以是例如用于接收媒体节目、例如音频节目并且提供源信号104的麦克风、电台或者因特网节目接收器等的形式。声谱图生成器112可以可操作用于通过向源信号应用傅里叶变换根据源信号104生成声谱图,该声谱图包括多列,每列代表时间分片,并且包括多个频率仓,每个频率仓代表用于源信号的时间分片的各个频率分量范围。矢量生成器114可操作以通过计算来自用于源信号的时间分片的列中的相应频率仓的量值的比率、并且通过量化该比率以生成源矢量的数字,来生成用于时间分片的至少一个源矢量。数据库46包括参考矢量,每个参考矢量代表参考媒体内容的时间分片。内容评估器116可以分别包括一级、二级和三级评估器118、120和122。一级评估器118可操作以通过执行源矢量的数字与数据库46的查找表66中的条目的确切匹配来执行一级评估,其中查找表中的每个条目与参考矢量组关联,并且其中用来执行确切匹配的源矢量的数字数目可以在查找表66中的条目之间不同。可以将查找表66组织为导向叶的可变深度树,其中每个叶形成查找表中的与相应参考矢量组关联的条目。可以确本文档来自技高网...
【技术保护点】
【技术特征摘要】
【国外来华专利技术】...
【专利技术属性】
技术研发人员:亚历山大·保罗·塞尔比,马克·圣·约翰·欧文,
申请(专利权)人:阿德尔福伊有限公司,
类型:
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。