一种装置,其包括:输入端,其被配置为接收至少两个音频信号;频域变换器,其被配置为将所述至少两个音频信号变换为所述至少两个信号的频域表示;空间协方差处理器,其被配置为根据所述至少两个音频信号的频域表示生成观察空间协方差矩阵;波束成形器,其被配置为生成包括至少一个波束成形器内核的空间协方差矩阵模型;矩阵因式分解器,其被配置为生成音频对象的线性量值模型,将所述空间协方差矩阵模型和所述线性量值模型合并,以及进一步被配置为确定至少一个合并参数,使得用于合并的所述至少一个参数尝试优化所述合并;以及分离器,其被配置为基于所述至少一个合并参数对所述音频对象进行聚类以产生分离的音频源。
【技术实现步骤摘要】
【国外来华专利技术】
本申请涉及用于空间音频信号处理的装置。本专利技术进一步涉及但不限于用于移动 设备内的空间音频信号处理的装置。
技术介绍
空间音频信号正被更频繁地用于产生更身临其境的音频体验。立体声或多通道记 录可从记录或捕获装置传递给收听装置,并使用合适的多通道输出(诸如多通道扬声器布 置)和具有虚拟环绕处理的一对立体声头戴式受话器或头戴式耳机来进行重放。 应当理解,在不久的将来,诸如移动电话这样的移动装置将有可能具有多于两个 扩音器。这提供了记录真实的多通道音频的可能。通过先进的信号处理,进一步有可能的 是:通过确定诸如关联于音频源的方向这样的参数和基于其方向对所述音频源进行处理, 对从特定或所需方向来自扩音器的音频信号进行波束成形或定向处理。
技术实现思路
本申请的各个方面因而提供了一种空间音频捕获和处理,由此可以对收听方位或 视频和音频捕获方位差别进行补偿。 根据第一方面,提供了一种用于分离音频源的方法,其包括:接收至少两个音频信 号;将所述至少两个音频信号变换为所述至少两个信号的频域表示;根据所述至少两个音 频信号的频域表示生成观察空间协方差矩阵;生成包括至少一个波束成形器内核的空间协 方差矩阵模型;生成音频对象的线性量值(magnitude)模型;将所述空间协方差矩阵模型 和所述线性量值模型进行合并;确定至少一个合并参数,使得用于合并的所述至少一个参 数尝试优化所述合并;以及基于所述至少一个合并参数对所述音频对象进行聚类以产生分 离的音频源。 接收所述至少两个音频信号可以包括以下中的至少一个:从扩音器生成所述音频 信号,其中,所述扩音器从至少一个音频源接收声波;以及从存储器接收所述音频信号,所 述音频信号描述了来自至少一个音频源的声波。 将所述至少两个音频信号变换为所述至少两个信号的频域表示可以包括:对所述 至少两个音频信号实施时间到频率变换。 根据所述至少两个音频信号的频域表示生成观察空间协方差矩阵可以包括:根据 所述两个频域表示的自协方差生成观察空间协方差矩阵。 所述方法可以进一步包括:通过生成对扩音器阵列周围的空间场所进行采样的一 组查看方向在频域中的时间延迟,生成至少一个波束成形器内核。 生成至少一个波束成形器内核可以包括:生成对所述扩音器阵列周围的空间场所 进行采样的一组查看方向在频域中的所述时间延迟的自协方差。 生成音频对象的线性模型可以包括:对音频对象量值实施非负矩阵因式分解。 对音频对象量值实施非负矩阵因式分解可以包括:利用均匀分布在零和一之间的 随机值对线性模型参数Zk。、tlk和V k]进行初始化。 将空间协方差矩阵模型和所述线性量值模型进行合并可以包括:将所述空间协方 差矩阵模型乘以由所述线性模型表示的量值包络。 确定至少一个合并参数可以包括:确定空间协方差模型参数,以便最小化所述观 察空间协方差矩阵与所述空间协方差模型之间的差别。 确定所述空间协方差模型参数可以包括:基于复值非负矩阵因式分解实施迭代式 优化,从而使得表示所述至少一个音频对象的线性量值模型的参数被迭代地更新,直到所 述线性量值模型参数在各个更新之间不显著改变,或者处理了所定义数量的迭代为止。 基于所述复值非负因式分解实施所述迭代式优化可以包括:根据复数非负矩阵因 式分解的优化框架更新线性模型参数zk。、tlk和v k];以及更新所述空间协方差矩阵模型量 值。 更新所述空间协方差矩阵模型量值可以包括:更新所述至少两个音频信号的估计 量的相对量值差别。 基于所述至少一个合并模型参数对所述音频对象进行聚类以产生分离的音频源 可以包括:根据所述至少一个音频对象和根据所估计的线性量值模型参数生成至少一个音 频源。 所述方法可以进一步包括:基于与所述至少一个音频源相关联的所述至少一个合 并模型参数,合成至少一个音频信号。 根据第二方面,提供了一种装置,其包括:用于接收至少两个音频信号的构件;用 于将所述至少两个音频信号变换为所述至少两个信号的频域表示的构件;用于根据所述至 少两个音频信号的频域表示生成观察空间协方差矩阵的构件;用于生成包括至少一个波束 成形器内核的空间协方差矩阵模型的构件;用于生成音频对象的线性量值模型的构件;用 于将所述空间协方差矩阵模型和所述线性量值模型进行合并的构件;用于确定至少一个合 并参数,从而使得用于所述合并的所述至少一个参数尝试优化所述合并的构件;以及用于 基于所述至少一个合并参数对所述音频对象进行聚类以产生分离的音频源的构件。 用于接收所述至少两个音频信号的构件可以包括以下中的至少一个:从扩音器生 成所述音频信号,其中,所述扩音器从至少一个音频源接收声波;以及从存储器接收所述音 频信号,所述音频信号描述了来自至少一个音频源的声波。 用于将所述至少两个音频信号变换为所述至少两个信号的频域表示的构件可以 包括:用于对所述至少两个音频信号实施时间到频率变换的构件。 用于根据所述至少两个音频信号的频域表示生成所述观察空间协方差矩阵的构 件可以包括:根据所述两个频域表示的自协方差生成观察空间协方差矩阵。 所述装置可以进一步包括:用于通过生成对所述扩音器阵列周围的空间场所进行 采样的一组查看方向在频域中的时间延迟,生成至少一个波束成形器内核的构件。 用于生成至少一个波束成形器内核的构件可以包括:生成对所述扩音器矩阵周围 的空间场所进行采样的一组查看方向在频域中的时间延迟的自协方差。 用于生成音频对象的线性模型的构件可以包括:对音频对象量值实施非负矩阵因 式分解。 用于对音频对象量值实施非负矩阵因式分解的构件可以包括:用于利用均匀分布 在零和一之间的随机值对线性模型参数zkc]、4和V k]进行初始化的构件。 用于对空间协方差矩阵和所述线性量值模型进行合并的构件可以包括:用于将所 述空间协方差矩阵模型乘以由所述线性模型表示的量值包络的构件。 用于确定至少一个合并参数的构件可以包括:确定空间协方差模型参数,以便最 小化所述观察空间协方差矩阵和所述空间协方差模型之间的差别。 用于确定所述空间协方差模型参数的构件可以包括:基于复值非负矩阵因式分解 实施迭代式优化,从而使得表示所述至少一个音频对象的所述线性量值模型的参数被迭代 地更新,直到所述线性量值模型参数在各个更新之间不显著改变,或者处理了所定义数量 的迭代为止。 用于基于复值非负因式分解实施所述迭代式优化的构件可以包括:用于根据复数 非负矩阵因式分解的优化框架更新线性模型参数zkc]、hJPVk,的构件;以及用于更新所述 空间协方差矩阵模型量值的构件。 用于更新所述空间协方差矩阵模型量值的构件可以包括:用于更新所述至少两个 音频信号的估计量的相对量值差别的构件。 用于基于所述至少一个合并模型参数对所述音频对象进行聚类以产生分离的音 频源的构件可以包括:用于根据所述至少一个音频对象和根据所估计的线性量值模型参数 生成至少一个音频源的构件。 所述装置可以进一步包括:用于基于与所述至少一个音频源相关联的所述至少一 个合并模型参数来合成至少一个音频信号的构件。 根据第三方面,提供了一种装置,其包括:至少一个处理器以及包括用于一个或多 个程序的计算机代码的至少一个存储器,所述至少一个存储器和所述计算机代码被配置为 与所述至少一个处理器一起促使所述装本文档来自技高网...
【技术保护点】
一种用于分离音频源的方法,其包括:接收至少两个音频信号;将所述至少两个音频信号变换为所述至少两个信号的频域表示;根据所述至少两个音频信号的频域表示生成观察空间协方差矩阵;生成包括至少一个波束成形器内核的空间协方差矩阵模型;生成音频对象的线性量值模型;将所述空间协方差矩阵模型和所述线性量值模型合并;确定至少一个合并参数,从而使得用于合并的所述至少一个参数尝试优化所述合并;以及基于所述至少一个合并参数对所述音频对象进行聚类,以便产生分离的音频源。
【技术特征摘要】
【国外来华专利技术】
【专利技术属性】
技术研发人员:M·维勒尔莫,M·塔米,J·尼库恩,T·维尔塔宁,
申请(专利权)人:诺基亚技术有限公司,
类型:发明
国别省市:芬兰;FI
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。