声源位置检测的方法和装置制造方法及图纸

技术编号:29061778 阅读:33 留言:0更新日期:2021-06-30 09:05
一种检测音频信号中多个声音的各个声源位置的方法。该方法包括经由水平方向麦克风组和垂直方向麦克风组接收音频信号。通过分析所述音频信号来确定所述音频信号多个中声音的各个声源位置。针对水平方向麦克风组和垂直方向麦克风组进行分析,以确定相对于多个声音的各个声源位置的相应水平方向,并确定相对于多个声音的各个声源位置的相应垂直方向。计算所述多个声音的各个声源位置与水平方向麦克风组和垂直方向麦克风组之间的距离。组和垂直方向麦克风组之间的距离。组和垂直方向麦克风组之间的距离。

【技术实现步骤摘要】
【国外来华专利技术】声源位置检测的方法和装置
[0001]相关申请的交叉引用
[0002]本申请要求于2018年8月8日提交的标题为“用于声源定位的方法和装置”的美国专利申请号16/056,386的优先权,其全部内容通过引用合并于此。

技术介绍

[0003]在现代时代,对提供自动化技术以降低人工成本,提高生产率以及改善包括身体和/或精神残疾和残障人士在内的各种个人的可及性的重视度很高。可以帮助实现上述效果的
之一是能够收听和响应人类语音命令的机器。当前,语音激活机器能够执行多种任务。但是,在某些情况下,例如嘈杂的环境下,这些机器很难检测语音或声音源的位置,以便正确处理给定的命令。
[0004]对于具有正常听力和声音处理能力的人来说,即使在充满环境噪声的环境中,确定声源的位置通常也是一个相当简单的过程。也就是说,在由多种来源混合产生相似且不同的声音的环境中,普通人可以通过使用听觉和视觉线索在头脑中滤除不同且无关紧要的噪音来定位目标声音的来源,然后将他或她的身体对准声音发出的方向。
[0005]相反,在充满噪声的环境中,具有单个麦克风的机器由于许多原因而难以检测目标声源(例如,发出命令的人声)的位置。例如,与人类的双耳听觉机制不同,使用单个麦克风的机器无法分辨声源的入射角度和距离。另外,例如即使具有固定的定向麦克风的静止机器也不能调整自己以获取更好的声音。此外,在诸如繁忙的地铁站、火车站、机场、活动体育场、大都会街道等环境中,即使声波是有意向机器发出的,机器也很有可能接收到多个无意中直接定向的声波。例如,在地铁站中,一个人可能站在机器附近并发出命令,而与此同时,路过的人或旁观者也可能面对着机器而讲话。此外,可能还会有其他环境噪音反射或引导到机器,例如到达的地铁车厢的机械声音,正在现场播放或在车站扬声器上播放的音乐,信息公告,在地板上移动的人的声音等。在环境中的所有这些组合声音中可能会干扰并混淆各个发出用于机器的命令的语音。这样,机器可能难以确定要聚焦的声音,并且随后可能会终止收听过程。总而言之,具有固定麦克风的机器缺乏人的双耳倾听能力、大脑过滤机制以及定位语音源的重定向移动能力。
[0006]因此,需要改进的机器声源定位能力。
附图说明
[0007]具体实施方式参考附图进行阐述。在附图中,附图标记的最左边的数字标识该附图标记首次出现的附图。在不同附图中使用相同的附图标记表示相似或相同的项目。
[0008]图1示出了根据本公开实施例的用于检测声源位置的装置。
[0009]图2示出了根据本公开实施例的用于检测声源位置的方法的流程图。
[0010]图3示出了根据本公开实施例的确定音频信号中声音的声源位置的方法的流程图。
[0011]图4示出了根据本公开实施例的用于分析音频信号的方法的流程图。
[0012]图5示出了根据本公开实施例的用于检测声源位置的方法中的附加步骤或动作的流程图。
[0013]图6示出了根据本公开实施例的用于检测声源位置的方法中的附加步骤或动作的流程图。
[0014]图7示出了根据本公开的实施例的确定声音到麦克风阵列的到达方向(DOA)的方法的流程图。
[0015]图8示出了根据使用图7的方法进行的确定的声源定位技术的示例的极坐标示图。
[0016]图9示出根据本公开的实施例的确定声音到达麦克风阵列的到达方向(DOA)的替代方法的流程图。
[0017]图10示出了根据使用图9的方法用于一个频率进行的确定的声源定位技术的示例在500Hz的极坐标图。
[0018]图11示出根据使用图9的方法用于一个频率进行的确定的声源定位技术的示例在8000Hz的极坐标图。
[0019]图12示出了根据使用图9的方法进行的确定声源定位技术的示例的投票算法的极坐标图。
[0020]图13示出了根据使用图9的方法进行的确定的声源定位技术的示例的距离图。
[0021]图14示出了根据本公开的实施例的计算设备的示意图。
具体实施方式
[0022]总览
[0023]本公开针对一种用于经由电子装置来改进声音(例如,语音等)源位置检测的装置、系统和方法。尽管可以“听到”和解释声音(例如人类语音)的机器的概念已经存在了数十年,但近年来,一些公司已经开发出专门配置为通过语音直接与人类互动的设备。理解到根据环境的不同有明显的局限性,人类通常能够在有干扰噪声的情况下辨别出特定的声音,比如人声。此外,人类通常具有容易地使其身体重定向以定位特定声音的来源的能力。相反,由于在给定相同的环境下,人的听觉和处理声音的方式与机器接收声音的方式有所区别,因此在确定相同声音的环境下,由于机器难以确定声音来源的方向,以及确定应专注于哪种声音(或语音),因此可能难以理解和解释相同的声音。因此,本公开涉及机器从嘈杂的环境中获取音频信号并解析声音的能力。在一个实施例中,机器接收包括人类语音的音频信号,并且可以确定信号内的哪些噪声对应于人类语音,以注意并解释来自人类语音的命令。
[0024]如下所述,本申请的实施例可以体现在具有一个或多个处理器的机器中,所述一个或多个处理器在被执行时使机器执行动作(例如,操作,步骤等)。请注意,出于本申请的目的,由机器的一个或多个处理器执行的动作的任何讨论或叙述都包括该动作可以由位于该机器本地的一个或多个处理器执行,以及也可以通过网络与该机器通信的一个或多个远程处理器和/或服务器至执行。换句话说,根据本公开所执行的一个或多个动作可被触发以供处理,或被初始化以供由机器的一个或多个处理器处理,实际地由远程处理器/服务器执行,并且然后其结果可以从远程处理器/服务器中继回机器。例如,本公开的机器的实施例可以连接到云计算服务或其他基于远程的处理中心,以使得对机器处的鲁棒处理能力的需
求最小化。
[0025]用于声源位置检测的设备的说明性实施例
[0026]在如图1所示的实施例中,用于检测音频信号中的声音的各个源位置的装置100可以包括壳体102,所述壳体102用于容纳和/或支撑装置100的组件。装置100包括麦克风阵列104(此处也称为“麦克风”或“多个麦克风”,参见图7,例如“Mic0”,“Mic1”,“MicN”),用于从放置该设备的周围环境中获取音频信号。麦克风阵列104可以包括在水平方向上沿直线对齐的第一组麦克风104a和在垂直方向上沿直线对齐的第二组麦克风104b。此外,在一个实施例中,在水平方向上沿直线对齐的第一组麦克风104a可以位于在装置100的上侧中央的位置处,以便与用户将要定位以寻找设备的可能位置相对准。另外,在垂直方向上沿直线对齐的第二组麦克风104b可以位于沿着装置100的侧边缘的位置,并且针对垂直距离,第二组麦克风104b可以比地面更靠近装置的成像装置(参见下文),例如,对于具有成像装置的装置的实施例。
[0027]请注意,尽管图1仅描绘了两组麦克风,但是可以理解的是可以加入其他组麦克风。在加入另外的麦克风组的情况下,可以进一步理解的是,一个或多个另外的组(麦克风)本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种用于在嘈杂环境中检测目标声音的源位置的装置,包括:壳体;布置在所述壳体上的麦克风阵列,所述麦克风阵列包括:沿直线对齐的水平方向麦克风组,和沿直线对齐的垂直方向麦克风组;与麦克风阵列通信连接的一个或多个处理器;以及与所述一个或多个处理器通信连接的存储器,所述存储器包括指令,所述指令在被执行时,使所述一个或多个处理器执行动作,包括:从所述水平方向麦克风组和垂直方向麦克风组接收包括目标声音的音频信号,确定在所述音频信号中的所述目标声音相对于所述装置的声源位置,该确定包括:分析所述音频信号,所述分析包括:针对所述水平方向麦克风组,确定相对于所述目标声音的声源位置的水平方向,和针对所述垂直方向麦克风组,确定相对于所述目标声音的声源位置的垂直方向,和计算所述目标声音的声源位置与所述装置之间的距离。2.根据权利要求1所述的装置,其中,所述音频信号还包括与所述目标声音不同并且从不同的声源位置接收的至少一个不同声音,并且其中,所述动作还包括:确定所述音频信号中所述不同声音相对于所述装置的声源位置,和将所述不同声音与所述目标声音区分开。3.根据权利要求2所述的装置,其中,将所述不同声音与所述目标声音区分开包括:获得所述不同声音的不同声源位置的图像,确定所述图像是否对应于人脸的正面视图,和响应于确定所述图像不对应于人脸的正面视图,将所述不同声音视为干扰声音忽略。4.根据权利要求1所述的装置,其中,确定相对于所述目标声音的声源位置的水平方向包括:确定使从所述音频信号计算出的功率输出最大化的水平候选位置,所述水平候选位置为所述目标声音的声源位置相对于所述装置位置的方位角的测量值表达。5.根据权利要求1所述的装置,其中,确定相对于所述目标声音的声源位置的垂直方向包括确定使从音频信号计算出的功率输出最大化的垂直候选位置,所述垂直候选位置是所述目标声音的声源位置相对于所述装置位置的方位角的测量值表达。6.根据权利要求1所述的装置,其中,所述分析音频信号还包括:应用权重因子,在所述权重因子中,对音频信号的最高信噪比(SNR)特性赋予最高权重。7.根据权利要求1所述的装置,其中,分析音频信号还包括:应用权重因子,在该权重因子中,对音频信号的最低频率特性赋予最高权重。8.根据权利要求1所述的装置,其中,所述分析音频信号还包括:使用空域数据来估计背景噪声,其中,自适应率取决于音频信号的峰值的高度。9.一种用于检测音频信号中多个声音的各个声源位置的系统,包括:一个或多个处理器,所述一个或多个处理器被配置为从沿直线对齐的水平方向麦克风组和沿直线对齐垂直方向麦克风组接收音频信号;
存储器,所述存储器与所述一个或多个处理器通信连接的存储器,所述存储器包括指令,所述指令在被执行时使所述一个或多个处理器执行动作,包括:从所述水平方向麦克风组和垂直方向麦克风组接收音频信号,确定所述音频信号中多个声音的各个声源位置,所述确定...

【专利技术属性】
技术研发人员:冯津伟余涛
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1