多设备唤醒词检测制造技术

技术编号:32716704 阅读:22 留言:0更新日期:2022-03-20 08:16
一种用于选择用于音频处理的设备的方法可以涉及从包括至少第一麦克风的第一设备接收第一唤醒词置信度度量并且从包括至少第二麦克风的第二设备接收第二唤醒词置信度度量。第一和第二唤醒词置信度度量可以与由第一设备确定的第一多个唤醒词置信度值的第一局部极大值和由第二设备确定的第二多个唤醒词置信度值的第二局部极大值对应。该方法可以包括将第一唤醒词置信度度量与第二唤醒词置信度度量进行比较并且至少部分基于第一唤醒词置信度度量与第二唤醒词置信度度量的比较来选择用于后续音频处理的设备。择用于后续音频处理的设备。择用于后续音频处理的设备。

【技术实现步骤摘要】
【国外来华专利技术】多设备唤醒词检测
[0001]对相关申请的交叉引用
[0002]本申请要求于2019年7月30日提交的美国临时专利申请No.62/880,112;以及2020年1月21日提交的No.62/964,018美国临时专利申请的优先权,所述申请通过引用并入本文。


[0003]本公开涉及用于从环境中的多个设备当中自动选择设备以用于音频处理的系统和方法。

技术介绍

[0004]音频设备,包括但不限于智能音频设备,已经被广泛部署并正在成为许多家庭的共同特征。虽然用于定位音频设备的现有系统和方法提供了益处,但是改进的系统和方法将是期望的。
[0005]符号和命名法
[0006]在本文中,我们使用表述“智能音频设备”来表示智能设备,它要么是单一目的的音频设备,要么是虚拟助手(例如,连接的虚拟助手)。单一目的音频设备是包括或耦合到至少一个麦克风(并且在一些示例中还可以包括或耦合到至少一个扬声器)并且很大程度上或主要被设计为实现单一目的的设备(例如,智能扬声器、电视(TV)或移动电话))。虽然TV通常可以播放(并且被认为能够播放)来自节目素材的音频,但在大多数情况下,现代TV运行某种操作系统,应用在操作系统上本地运行,包括看电视的应用。类似地,移动电话中的音频输入和输出可以做很多事情,但这些都是由电话上运行的应用服务的。在这个意义上,具有(一个或多个)扬声器和(一个或多个)麦克风的单一目的音频设备常常被配置为运行本地应用和/或服务以直接使用(一个或多个)扬声器和(一个或多个)麦克风。一些单一目的音频设备可以被配置为分组在一起以实现在地带或用户配置的区域上播放音频。
[0007]在本文中,“虚拟助手”(例如,连接的虚拟助手)是包括或耦合到至少一个麦克风(并且可选地还包括或耦合到至少一个扬声器)并且可以提供将多个设备(不同于虚拟助手)用于在某种意义上支持云或以其它方式未在虚拟助手本身中或之上实现的应用的能力的设备(例如,智能扬声器、智能显示器或语音助手集成设备)。虚拟助手有时可以一起工作,例如,以非常离散和有条件定义的方式。例如,两个或更多个虚拟助手可以在其中一个(即,最有信心听到唤醒词的一个)对这个词做出响应的意义上一起工作。连接的设备可以形成一种星座,它可以由一个主应用管理,这个主应用可以是(或包括或实现)虚拟助手。
[0008]在本文中,“唤醒词”在广义上用于表示任何声音(例如,人类发出的词,或某种其它声音),其中智能音频设备被配置为响应于检测到(“听到”)声音(通过使用包括在或耦合到智能音频设备的至少一个麦克风,或至少一个其它麦克风)而唤醒。在这种上下文中,“唤醒”表示设备进入它等待(即,正在侦听)声音命令的状态。
[0009]在本文中,表述“唤醒词检测器”表示被配置为连续搜索实时声音(例如,讲话)特
征与经训练的模型之间的对准的设备(或包括用于配置设备的指令的软件)。通常,无论何时唤醒词检测器确定已检测到唤醒词的概率超过预定义的阈值,就会触发唤醒词事件。例如,阈值可以是预定阈值,该阈值被调谐以在错误接受率和错误拒绝率之间给出良好的折衷。在唤醒词事件之后,设备可能进入它侦听命令并将接收到的命令传递给更大的、计算更密集的识别器的状态(可以被称为“唤醒”状态或“注意力”状态)。
[0010]贯穿本公开,包括在权利要求数中,“扬声器”和“喇叭”同义地用于表示由单个扬声器馈送驱动的任何发声换能器(或换能器的集合)。典型的头戴式耳机套件包括两个扬声器。扬声器可以被实现为包括多个换能器(例如,低音扬声器和高音扬声器),所有这些都由单个共同的扬声器馈送驱动。在一些情况下,扬声器馈送可以在耦合到不同换能器的不同电路系统分支中经历不同处理。
[0011]贯穿本公开,包括在权利要求中,“对”信号或数据执行操作(例如,对信号或数据进行滤波、缩放、变换或应用增益)的表述在广义上用于表示直接对信号或数据执行操作,或者对信号或数据的经处理的版本(例如,在对其执行操作之前已经过初步滤波或预处理的信号的版本)执行操作。
[0012]贯穿本公开,包括在权利要求书中,表述“系统”在广义上用于表示设备、系统或子系统。例如,实现解码器的子系统可以被称为解码器系统,并且包括这种子系统的系统(例如,响应于多个输入而生成X个输出信号的系统,其中子系统生成M个输入并且其它X

M个输入是从外部源接收的)也可以被称为解码器系统。
[0013]贯穿本公开,包括在权利要求书中,术语“处理器”在广义上用于表示可编程或以其它方式可配置(例如,使用软件或固件)为对数据(例如,音频或视频或其它图像数据)执行操作的系统或设备。处理器的示例包括现场可编程门阵列(或其它可配置集成电路或芯片组)、被编程和/或以其它方式被配置为对音频或其它声音数据执行流水线处理的数字信号处理器、可编程通用处理器或计算机,以及可编程微处理器芯片或芯片组。

技术实现思路

[0014]本公开的至少一些方面可以经由方法来实现。一些方法可以涉及从包括至少第一麦克风的第一设备接收第一唤醒词置信度度量。例如,第一唤醒词置信度度量可以与由第一设备确定的第一多个唤醒词置信度值的第一局部极大值(local maximum)对应。一些此类方法可以涉及从包括至少第二麦克风的第二设备接收第二唤醒词置信度度量。例如,第二唤醒词置信度度量可以与由第二设备确定的第二多个唤醒词置信度值的第二局部极大值对应。一些此类方法可以涉及将第一唤醒词置信度度量与第二唤醒词置信度度量进行比较并且至少部分基于第一唤醒词置信度度量与第二唤醒词置信度度量的比较来选择用于后续音频处理的设备。
[0015]在一些示例中,一种方法可以涉及从包括至少第三麦克风的第三设备接收第三唤醒词置信度度量。第三唤醒词置信度度量可以与由第三设备确定的第三多个唤醒词置信度值的第三局部极大值对应。一种方法可以涉及将第三唤醒词置信度度量与第一唤醒词置信度度量和第二唤醒词置信度度量进行比较,并且至少部分基于第一唤醒词置信度度量、第二唤醒词置信度度量与第三唤醒词置信度度量的比较来选择用于后续音频处理的设备。
[0016]根据一些实现方式,后续音频处理可以涉及语音识别过程。在一些示例中,后续音
频处理可以涉及命令识别过程。一些此类方法还可以涉及根据命令识别过程来控制所选择的设备。
[0017]在一些示例中,可以在确定唤醒词置信度值超过唤醒词检测开始阈值之后确定局部极大值。在一些此类示例中,可以通过在先前的唤醒词置信度值已经超过唤醒词检测开始阈值之后检测唤醒词置信度值的减小来确定局部极大值。根据一些此类实现方式,可以通过在先前的唤醒词置信度值已经超过唤醒词检测开始阈值之后检测音频帧n的唤醒词置信度值与音频帧n

k的唤醒词置信度值相比的减小来确定局部极大值,其中k是整数。一些此类示例可以涉及在第一设备、第二设备或另一设备的唤醒词置信度值以上升沿超过唤醒词检测开始阈值之后发起局部极大值确定时间间隔。一些此类示例可以涉及在第一设备、第二设备或另一设备的唤醒词置信度值降本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种选择用于音频处理的设备的方法,该方法包括:从包括至少第一麦克风的第一设备接收第一唤醒词置信度度量,第一唤醒词置信度度量与由第一设备确定的第一多个唤醒词置信度值的第一局部极大值对应;从包括至少第二麦克风的第二设备接收第二唤醒词置信度度量,第二唤醒词置信度度量与由第二设备确定的第二多个唤醒词置信度值的第二局部极大值对应;比较第一唤醒词置信度度量与第二唤醒词置信度度量;以及至少部分基于第一唤醒词置信度度量与第二唤醒词置信度度量的比较,选择用于后续音频处理的设备。2.如权利要求1所述的方法,还包括:从包括至少第三麦克风的第三设备接收第三唤醒词置信度度量,第三唤醒词置信度度量与由第三设备确定的第三多个唤醒词置信度值的第三局部极大值对应;比较第三唤醒词置信度度量与第一唤醒词置信度度量和第二唤醒词置信度度量;以及至少部分基于第一唤醒词置信度度量、第二唤醒词置信度度量与第三唤醒词置信度度量的比较,选择用于后续音频处理的设备。3.如权利要求1或权利要求2所述的方法,其中所述后续音频处理包括语音识别过程。4.如权利要求1

3中的任一项所述的方法,其中所述后续音频处理包括命令识别过程。5.如权利要求4所述的方法,还包括根据命令识别过程来控制选择的设备。6.如权利要求1

5中的任一项所述的方法,其中在确定唤醒词置信度值超过唤醒词检测开始阈值之后确定局部极大值。7.如权利要求6所述的方法,其中通过在先前的唤醒词置信度值已经超过唤醒词检测开始阈值之后检测唤醒词置信度值的减小来确定局部极大值。8.如权利要求6所述的方法,其中通过在先前的唤醒词置信度值已超过唤醒词检测开始阈值之后检测音频帧n的唤醒词置信度值与音频帧n

k的唤醒词置信度值相比的减小来确定局部极大值,其中k是整数。9.如权利要求6

8中的任一项所述的方法,还包括在第一设备、第二设备或另一设备的唤醒词置信度值以上升沿超过唤醒词检测开始阈值之后发起局部极大值确定时间间隔。10.如权利要求9所述的方法,还包括在第一设备、第二设备或另一设备的唤醒词置信度值降至低于唤醒词检测结束阈值之后终止局部极大值确定时间间隔。11.如权利要求1

10中的任一项所述的方法,其中:第一设备根据第一时钟域对由第一麦克风接收的音频数据进行采样;以及第二设备根据与第一时钟域不同的第二时钟域对由第二麦克风接收的音频数据进行采样。12.如权利要求1

11中的任一项所述的方法,其中该方法由被配置为至少部分执行后续音频处理的设备执行。13.如权利要求1

11中的任一项所述的方法,其中该方法由被配置为确定与多个唤醒词置信度值的局部极大值对应的唤醒词置信度度量的设备执行。14.如权利要求1

11中的任一项所述的方法,其中该方法由不被配置为执行后续音频处理的...

【专利技术属性】
技术研发人员:M
申请(专利权)人:杜比实验室特许公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1