声源位置检测的方法和装置制造方法及图纸

技术编号：29061778 阅读：33 留言：0更新日期：2021-06-30 09:05

一种检测音频信号中多个声音的各个声源位置的方法。该方法包括经由水平方向麦克风组和垂直方向麦克风组接收音频信号。通过分析所述音频信号来确定所述音频信号多个中声音的各个声源位置。针对水平方向麦克风组和垂直方向麦克风组进行分析，以确定相对于多个声音的各个声源位置的相应水平方向，并确定相对于多个声音的各个声源位置的相应垂直方向。计算所述多个声音的各个声源位置与水平方向麦克风组和垂直方向麦克风组之间的距离。组和垂直方向麦克风组之间的距离。组和垂直方向麦克风组之间的距离。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】声源位置检测的方法和装置
[0001]相关申请的交叉引用
[0002]本申请要求于2018年8月8日提交的标题为“用于声源定位的方法和装置”的美国专利申请号16/056,386的优先权，其全部内容通过引用合并于此。

技术介绍

[0003]在现代时代，对提供自动化技术以降低人工成本，提高生产率以及改善包括身体和/或精神残疾和残障人士在内的各种个人的可及性的重视度很高。可以帮助实现上述效果的
之一是能够收听和响应人类语音命令的机器。当前，语音激活机器能够执行多种任务。但是，在某些情况下，例如嘈杂的环境下，这些机器很难检测语音或声音源的位置，以便正确处理给定的命令。
[0004]对于具有正常听力和声音处理能力的人来说，即使在充满环境噪声的环境中，确定声源的位置通常也是一个相当简单的过程。也就是说，在由多种来源混合产生相似且不同的声音的环境中，普通人可以通过使用听觉和视觉线索在头脑中滤除不同且无关紧要的噪音来定位目标声音的来源，然后将他或她的身体对准声音发出的方向。
[0005]相反，在充满噪声的环境中，具有单个麦克风的机器由于许多原因而难以检测目标声源(例如，发出命令的人声)的位置。例如，与人类的双耳听觉机制不同，使用单个麦克风的机器无法分辨声源的入射角度和距离。另外，例如即使具有固定的定向麦克风的静止机器也不能调整自己以获取更好的声音。此外，在诸如繁忙的地铁站、火车站、机场、活动体育场、大都会街道等环境中，即使声波是有意向机器发出的，机器也很有可能接收到多个无意中直接定向的声波。例如，在地铁站中，一个人可能站...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种用于在嘈杂环境中检测目标声音的源位置的装置，包括：壳体；布置在所述壳体上的麦克风阵列，所述麦克风阵列包括：沿直线对齐的水平方向麦克风组，和沿直线对齐的垂直方向麦克风组；与麦克风阵列通信连接的一个或多个处理器；以及与所述一个或多个处理器通信连接的存储器，所述存储器包括指令，所述指令在被执行时，使所述一个或多个处理器执行动作，包括：从所述水平方向麦克风组和垂直方向麦克风组接收包括目标声音的音频信号，确定在所述音频信号中的所述目标声音相对于所述装置的声源位置，该确定包括：分析所述音频信号，所述分析包括：针对所述水平方向麦克风组，确定相对于所述目标声音的声源位置的水平方向，和针对所述垂直方向麦克风组，确定相对于所述目标声音的声源位置的垂直方向，和计算所述目标声音的声源位置与所述装置之间的距离。2.根据权利要求1所述的装置，其中，所述音频信号还包括与所述目标声音不同并且从不同的声源位置接收的至少一个不同声音，并且其中，所述动作还包括：确定所述音频信号中所述不同声音相对于所述装置的声源位置，和将所述不同声音与所述目标声音区分开。3.根据权利要求2所述的装置，其中，将所述不同声音与所述目标声音区分开包括：获得所述不同声音的不同声源位置的图像，确定所述图像是否对应于人脸的正面视图，和响应于确定所述图像不对应于人脸的正面视图，将所述不同声音视为干扰声音忽略。4.根据权利要求1所述的装置，其中，确定相对于所述目标声音的声源位置的水平方向包括：确定使从所述音频信号计算出的功率输出最大化的水平候选位置，所述水平候选位置为所述目标声音的声源位置相对于所述装置位置的方位角的测量值表达。5.根据权利要求1所述的装置，其中，确定相对于所述目标声音的声源位置的垂直方向包括确定使从音频信号计算出的功率输出最大化的垂直候选位置，所述垂直候选位置是所述目标声音的声源位置相对于所述装置位置的方位角的测量值表达。6.根据权利要求1所述的装置，其中，所述分析音频信号还包括：应用权重因子，在所述权重因子中，对音频信号的最高信噪比(SNR)特性赋予最高权重。7.根据权利要求1所述的装置，其中，分析音频信号还包括：应用权重因子，在该权重因子中，对音频信号的最低频率特性赋予最高权重。8.根据权利要求1所述的装置，其中，所述分析音频信号还包括：使用空域数据来估计背景噪声，其中，自适应率取决于音频信号的峰值的高度。9.一种用于检测音频信号中多个声音的各个声源位置的系统，包括：一个或多个处理器，所述一个或多个处理器被配置为从沿直线对齐的水平方向麦克风组和沿直线对齐垂直方向麦克风组接收音频信号；
存储器，所述存储器与所述一个或多个处理器通信连接的存储器，所述存储器包括指令，所述指令在被执行时使所述一个或多个处理器执行动作，包括：从所述水平方向麦克风组和垂直方向麦克风组接收音频信号，确定所述音频信号中多个声音的各个声源位置，所述确定...

【专利技术属性】
技术研发人员：冯津伟，余涛，
申请(专利权)人：阿里巴巴集团控股有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人