当前位置: 首页 > 专利查询>英特尔公司专利>正文

利用相同的音频输入的设备唤醒和说话者验证制造技术

技术编号:21798495 阅读:31 留言:0更新日期:2019-08-07 10:21
在本文中描述了允许用户唤醒在低功率状态中运行的计算设备,并且用于通过说出单个唤醒短语来验证用户的技术。由低功率引擎来执行唤醒短语识别。在一些实施例中,低功率引擎也可以执行说话者验证。在其他实施例中,在唤醒短语被识别后将移动设备唤醒,并且除了低功率引擎之外的组件对包含唤醒短语的音频输入的一部分执行语音验证。多于一个唤醒短语可以与特定的用户关联,并且分离的用户可以与不同的唤醒短语关联。不同的唤醒短语可以使得设备从低功率状态转换到各种活动状态。

Wake-up and speaker verification using the same audio input device

【技术实现步骤摘要】
利用相同的音频输入的设备唤醒和说话者验证本申请是申请日为2013年7月11日并且申请号为201380077357.3的同名中国专利申请的分案申请。
技术介绍
大多数现代计算设备响应于各种事件(例如用户在一段时间内没有和设备进行交互)而进入低功率状态以保存电量。为了“唤醒”处于低功率状态中的设备,用户通常需要以某种方式与设备进行物理交互。例如,用户可能需要在键盘上点击Ctrl+Alt+Delete、按遥控器或智能电话上的按钮、或者解锁触摸屏。此外,用户通常需要例如在用户被允许操作设备之前,通过在触摸屏上输入密码而与设备进行第二次交互以作为授权或者验证过程的一部分。附图说明图1是利用相同的音频输入来识别唤醒短语并执行说话者验证的第一计算设备的方框图。图2是利用相同的音频输入来识别唤醒短语并执行说话者验证的第二计算设备的方框图。图3是利用相同的音频输入来唤醒计算设备并执行说话者验证的第一示例性方法的流程图。图4是利用相同的音频输入来唤醒计算设备并执行说话者验证的第二示例性方法的流程图。图5是利用相同的音频输入来唤醒计算设备并执行说话者验证的第三示例性方法的流程图。图6是其中可以实现本文所描述的技术的示例性计算设备的方框图。图7是可以执行计算机可执行指令以作为实现本文中所描述的技术的一部分的示例性处理器核心的方框图。具体实施方式在本文中公开的技术允许计算设备响应于用户说出单个唤醒短语而从低功率状态中唤醒,并且验证用户。因此,通过允许用户以更加免提和免视的方式与设备进行交互,可以使设备的用户界面更加自然。当设备处于低功率状态时,低功率引擎确定在设备处接收的音频输入是否包括人说出唤醒短语。如果检测到唤醒短语,则设备利用包含唤醒短语的音频的一部分来输入验证说话者。说话者验证可以由低功率引擎或由在检测到唤醒短语之后被唤醒的另一组件来执行。如在本文中使用的,术语“唤醒”或“叫醒”是指计算设备或计算设备的组件从低功率状态到活动状态的转换。低功率状态(例如,半睡半醒、睡眠或休眠状态)是计算设备比在活动状态中运行时消耗更少的电量的状态。例如,低功率状态可以是设备组件被禁用、或是以降低的时钟频率或供给电压运行的状态。例如,在低功率状态中运行的设备可以使其输出显示器关闭或变暗,或者使其处理器中的一个或多个以按比例缩小的频率运行。相应地,活动状态是计算设备比当在低功率状态中运行时消耗更多的电量的状态。因此,唤醒设备可以包括启用已经关闭了的输出显示器或按比例增大处理器的运行频率。现在参考附图,其中通篇使用的相同的标号是指相同的元件。在以下的描述中,为了说明的目的阐述了许多具体细节以便提供对本文的透彻的理解。然而,可以显而易见的是,可以在没有这些具体细节的情况下实践新颖的实施例。在其他实例中,以方框图形式示出了公知的结构和设备,以便于对这些结构和设备的描述。目的是为了覆盖权利要求的范围内的所有修改、等同物、以及替代物。图1是利用相同的音频输入来识别唤醒短语并执行说话者验证的第一计算设备100的方框图。计算设备(设备)100包括麦克风104、音频编码解码器108、低功率引擎(LPE)112、LPE驱动器116、说话者验证代理120、操作系统122和一个或多个应用程序124。计算设备100在麦克风104处接收音频输入,这生成被传递至音频编码解码器108的音频信号。音频编码解码器108进而将音频信号转换成被提供给LPE112的数字信号。低功率引擎112管理设备100中的捕获音频管线的方面。当设备处于低功率状态时,LPE112运行。在一些实施例中,当设备处于活动状态时,LPE112的组件也可以运行。除了当设备处于低功率状态时被启用之外,LPE112还可以以相对于当设备处于活动状态时提供给其他组件的频率或供给电压而言降低的频率或供给电压而运行。在一些实施例中,LPE112是低功率DSP(数字信号处理器)。LPE112包对由音频编码解码器108生成的数字音频信号进行编码的编码器128,以及对接收到的音频执行唤醒短语识别和说话者验证的话音(voice)触发器和说话者验证(VTSV)模块134。编码器128将音频编码成可以由VTSV模块134使用的格式,例如PCM(脉冲编码调制)。VTSV模块134包括话音活动检测模块138、唤醒短语识别模块142、说话者验证模块148以及可选地唤醒短语存储设备154。通常,当设备100进入低功率状态时,将VTSV模块134插入到音频捕获管线中,并且当设备100唤醒时,将VTSV模块134从音频捕获管线中移除。在一些实施例中,在设备100转换到低功率状态时是否将VTSV模块插入到音频捕获管线中是基于用户设定确定的。VTSV模块134确定被编码的音频输入是否包括唤醒短语并且对包括唤醒短语的音频输入的部分执行说话者验证。可以将在麦克风104处接收到的音频输入126的全部或部分传送至VTSV模块134。例如,只有在来自先前阶段的输入满足某些特性时,例如音频信号的幅度高于阈值水平,才可以将麦克风104、音频编码解码器108和/或编码器128配置为以将输出提供给音频捕获管线中的下一阶段。在其他实施例中,当设备100处于低功率状态中时,VTSV模块134处理在麦克风104处接收到的所有音频输入。话音活动检测模块138确定被编码的音频是否包括人类语音。如果包括,则将包括所述语音的音频输入的部分传送至唤醒短语识别模块142。唤醒短语识别模块142采用已知的语音识别技术以确定音频输入是否包括包含唤醒短语的语音。唤醒短语是可以使得在低功率状态中运行的计算设备唤醒的单词或短语(例如,“嘿,电话”、“起来”、“你好”)。在图1中,在计算设备100唤醒之前,还验证说话者。在其他实施例中,如在下文中关于图2所描述的,在检测到唤醒短语之后设备醒来,并且接着执行说话者验证。计算设备可以采用各种唤醒短语策略。例如,在一些实施例中,不同的用户可以使用相同的唤醒短语以唤醒计算设备。在其他实施例中,用户可以说出多个唤醒短语中的一个以唤醒设备。在其他实施例中,各种的唤醒短语可以和不同的用户关联。例如,一个或多个唤醒短语可以和第一用户关联,并且一个或多个第二唤醒短语可以和第二用户关联。而且,不同的唤醒短语可以使得计算设备从低功率状态转换到不同的活动状态,例如高性能、标准和低性能活动状态。例如,这些活动状态之间的不同可以是启用的设备组件或配件的数量,设备的组件运行的时钟频率、应用至设备的组件的供给电压等。在一些实施例中,唤醒短语可以是用户可编程的或被计算设备制造商配置的。唤醒短语识别模块142将音频输入和可以被设备存取的唤醒短语进行比较,所述唤醒短语例如存储在唤醒短语存储设备154中的唤醒短语。唤醒短语存储设备154还可以包括与被存储的唤醒短语相关联的一个或多个用户的指示。如果唤醒短语识别模块142确定音频输入包括唤醒短语,则说话者验证模块148验证说出唤醒短语的用户是有权操作设备的用户。在一些实施例中,利用已知的生物计量分析技术执行说话者验证。例如,可以将对音频输入执行的生物计量分析的结果与生物计量标识符或与被授权以操作计算设备的用户相关联的其他生物计量相关的信息进行比较。对包括唤醒短语的音频输入的部分执行说话者验证。因此,对相同的音频输入执行说话本文档来自技高网...

【技术保护点】
1.一种计算设备,包括:麦克风,其用于捕获与由人说出的语音相对应的音频输入;扬声器;无线通信电路;至少一个处理器;以及存储设备,其包括指令,所述指令在被执行时使得所述至少一个处理器至少用于:当所述计算设备处于第一状态时,识别所述音频输入中的唤醒短语,所述唤醒短语的识别是基于对所述音频输入进行的语音识别的执行的;对所述唤醒短语的识别做出响应,将所述计算设备从所述第一状态转换到第二状态;基于包含所述唤醒短语的所述音频输入的部分来尝试验证所述人;识别所述唤醒短语之后的所述音频输入中的命令;当所述命令是用户不可知的命令时,执行与所述命令相关联的第一操作;并且当所述人能够被验证并且所述命令不是用户不可知的命令时,执行与所述命令相关联的第二操作。

【技术特征摘要】
1.一种计算设备,包括:麦克风,其用于捕获与由人说出的语音相对应的音频输入;扬声器;无线通信电路;至少一个处理器;以及存储设备,其包括指令,所述指令在被执行时使得所述至少一个处理器至少用于:当所述计算设备处于第一状态时,识别所述音频输入中的唤醒短语,所述唤醒短语的识别是基于对所述音频输入进行的语音识别的执行的;对所述唤醒短语的识别做出响应,将所述计算设备从所述第一状态转换到第二状态;基于包含所述唤醒短语的所述音频输入的部分来尝试验证所述人;识别所述唤醒短语之后的所述音频输入中的命令;当所述命令是用户不可知的命令时,执行与所述命令相关联的第一操作;并且当所述人能够被验证并且所述命令不是用户不可知的命令时,执行与所述命令相关联的第二操作。2.根据权利要求1所述的计算设备,其中,所述第一状态是比所述第二状态更低的功率状态。3.根据权利要求1所述的计算设备,其中,当所述计算设备处于所述第一状态时,所述计算设备处于睡眠状态,并且当所述计算设备处于所述第二状态时,所述计算设备处于活动状态。4.根据权利要求1所述的计算设备,还包括显示屏幕,当所述计算设备处于所述第一状态时,所述显示屏幕处于被关闭或者被锁定中的至少一个。5.根据权利要求1所述的计算设备,其中,所述音频输入中的所述唤醒短语是第一音频输入中的第一唤醒短语,并且所述至少一个处理器用于:识别第二音频输入中的第二唤醒短语,所述第二唤醒短语与所述第一唤醒短语不同;并且对所述第二唤醒短语的识别做出响应,将所述计算设备从所述第一状态转换到所述第二状态。6.根据权利要求1-5中的任意一项所述的计算设备,其中,在将所述计算设备转换到所述第二状态之前,所述至少一个处理器用于尝试验证所述人。7.根据权利要求1-5中的任意一项所述的计算设备,其中,在将所述计算设备转换到所述第二状态之后,所述至少一个处理器用于尝试验证所述人。8.根据权利要求1-5中的任意一项所述的计算设备,其中,当所述人不能够被验证并且所述命令不是用户不可知的命令时,所述至少一个处理器用于防止执行所述第二操作。9.根据权利要求1-5中的任意一项所述的计算设备,其中,执行所述第一操作或所述第二操作中的至少一个包括启动电子邮件应用程序、消息传送应用程序、导航应用程序或网络浏览器应用程序中的至少一个。10.根据权利要求1-5中的任意一项所述的计算设备,其中,所述至少一个处理器用于通过对所述音频输入的生物计量分析结果与和所述计算设备相关联的一个或多个用户相对应的生物计量信息进行比较来尝试验证所述人。11.根据权利要求1-5中的任意一项所述的计算设备,其中,所述至少一个处理器包括数字信号处理器,所述数字信号处理器用于识别所述音频输入中的唤醒短语、尝试验证所述人或者识别所述音频输入中的命令中的至少一个。12.一种或多种有形的计算机可读存储设备或存储盘,其包括指令,所述指令在被执行时使得机器至少用于:当所述机器处于第一状态时,识别说话者的来自麦克风的音频输入中的唤醒短语,所述唤醒短语的识别是基于对所述音频输入进行的语音识别的性能的;对所述唤醒短语的识别做出响应,从所述第一状态转换到第二状态;基于包含所述唤醒短语的所述音频输入的部分来尝试验证所述说话者;识别所述唤醒短语之后的所述音频输入中的命令;当所述命令是用户不可知的命令时,执行与所述命令相关联的第一操作;并且当所述说话者能够被验证并且所述命令不是用户不可知的命令时,执行与所述命令相关联的第二操作。13.根据权要求12所述的一种或多种有形的计算机可读存储设备或存储盘,其中,所述第一状态是比所述第二状态更低的功率状态。14.根据权要求12所述的一种或多种有形的计算机可读存储设备或存储盘,其中,当所述机器处于所述第一状态时,所述机器处于睡眠状态,并且当所述机器处于所述第二状态时,所述机器处于活动状态。15.根据权利要求12所述的一种或多种有形的计算机可读存储设备或存储盘,其中,当所述机器处于所述第一状态时,与所述机器相关联的显示屏幕处于被关闭或者被锁定中的至少一个。16.根据权利要求12所述的一种或多种有形的计算机可读存储设备或存储盘,其中,所述音频输入中的所述唤醒短语是第一音频输入中的第一唤醒短语,并且所述指令使得所述机器用于:识别第二音频输入中的第二唤醒短语,所述第二唤醒短语与所述第一唤醒短语不同;并且对所述第二唤醒短语的识别做出响应,从所述第一状态转换到所述第二状态。17.根据权利要求12-16中的任意一项所述的一种或多种有形的计算机可读存储设备或存储盘,其中,所述指令使得所述机器用于在所述机器转换到所述第二状态之前尝试验证所述说话者。18.根据权利要求12-16中的任意一项所述的一种或多种有形的计算机可读存储设备或存储盘,其中,所述指令使得所述机器用于在所述机器转换到所述第二状态之后尝试验证所述说话者。19.根据权利要求12-16中的任意一项所述的一种或多种有形的计算机可读存储设备或存储盘,其中,所述指令使得所述机器当所述说话者不能够被验证并且所述命令不是用户不可知的命令时防止执行所述第二操作。20.根据权利要求12-16中的任意一项所述的一种或多种有形的计算机可读存储设备或存储盘,其中,执行所述第一操作或所述第二操作中的至少一个包括启动电子邮件应用程序、消息传送应用程序...

【专利技术属性】
技术研发人员:S·达杜L·克里希纳穆尔蒂F·M·塔拉佩尔P·R·达塔B·R·皮布勒M·E·戴舍尔M·S·乔希S·沙阿B·K·弗格尔
申请(专利权)人:英特尔公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1