当前位置: 首页 > 专利查询>英特尔公司专利>正文

用于改进型关键短语检测的中间评分和拒绝环回制造技术

技术编号:19397502 阅读:19 留言:0更新日期:2018-11-10 05:13
讨论涉及用于应用(例如,话音唤醒)的关键短语检测的技术。这些技术可以包括关键短语模型的一个或多个状态的中间评分和/或从关键短语模型的状态到拒绝模型的后向转移或拒绝环回,以基于接收到的表述来减少错误接受。

【技术实现步骤摘要】
【国外来华专利技术】用于改进型关键短语检测的中间评分和拒绝环回优先权要求该申请要求题为“INTERMEDIATESCORINGANDREJECTIONLOOPBACKFORIMPROVEDKEYPHRASEDETECTION”的2016年3月1日提交的美国专利申请序列号No.15/057,695的优先权,并且其通过完整引用得以合并。
技术介绍
关键短语或热点词语检测系统可以用于检测可以通过设备发起活动的词语或短语等。例如,设备可以基于检测到特定词语或短语来唤醒(例如,从低功率或休眠模式转移到有效模式)。这些话音唤醒或关键短语检测系统可能关注于通过有限的存储器和算力来检测所指定的短语以唤醒设备。这些系统的目标可以是使得两种可能的错误类型——错误拒绝(例如,错误地拒绝正确的短语)以及错误接受(例如,错误地接受错的短语)——最小化。具体地说,当所表述的短语的一部分匹配或在语音上相似于关键短语而所表述的短语的另一部分并不匹配或在语音上不相似时,这些错误接受可能更有可能产生。故此,尤其是当已经表述关键短语的一部分时,现有技术可能提供相对高的假阳性率。随着对于实现关键短语检测系统(例如,话音唤醒系统)的期望变得更广泛,这些问题可能变得严重。附图说明在附图中通过示例的方式而非通过限制的方式示出在此所描述的材料。为了说明的简明性和清楚性,附图所示的要素不一定按比例绘制。例如,为了清楚,一些要素的尺寸可以相对于其它要素夸大。此外,在考虑得适当的情况下,标号已经在附图之间重复,以指示对应或类似要素。在附图中:图1是用于提供关键短语检测的示例设置的说明性示图;图2是用于提供关键短语检测的示例系统的说明性示图;图3示出与关键短语检测关联的示例数据结构;图4示出示例声学模型深度神经网络;图5示出示例拒绝模型以及包括后向转移的示例关键短语模型;图6示出用于提供包括从关键短语模型到拒绝模型的后向转移的关键短语检测的示例处理;图7示出示例拒绝模型以及包括中间评分的示例关键短语模型;图8示出用于提供包括关键短语模型的中间评分的关键短语检测的示例处理;图9是示出用于包括后向转移的关键短语检测的示例处理的流程图;图10是示出用于包括中间评分的关键短语检测的示例处理的流程图;图11是用于执行关键短语检测的示例系统的说明性示图;图12是示例系统的说明性示图;以及图13示出全部根据本公开的至少一些实现方式所布置的示例设备。具体实施方式现参照附图描述一个或多个实施例。虽然讨论特定配置和布置,但应理解,仅为了说明的目的而进行该操作。本领域技术人员应理解,在不脱离说明书的精神和范围的情况下,可以采用其它配置和布置。本领域技术人员应理解,也可以在除了在此所描述的之外的各种其它系统和应用中采用在此所描述的技术和/或布置。虽然以下描述阐述可以例如在架构(例如,片上系统(SoC)架构)中显现的各个实现方式,但在此所描述的技术和/或布置的实现方式不限于特定架构和/或计算系统,并且可以通过用于相似目的的任何架构和/或计算系统得以实现。例如,采用例如多个集成电路(IC)芯片(例如,包括数字信号处理器、专用硬件等)和/或封装的各种架构和/或各种计算设备和/或消费者电子(CE)设备(例如,机顶盒、智能电话等)可以实现本文所描述的技术和/或布置。此外,虽然以下描述可以阐述大量具体细节(例如,系统组件的逻辑实现方式、类型和相互关系、逻辑分区/集成选取等),但可以在没有这些具体细节的情况下实践所要求的主题内容。在其它实例中,为了不掩盖在此所公开的材料,可以并不详细地示出一些材料(例如,控制结构和完整软件指令序列)。可以在硬件、固件、软件或其任何组合中实现在此所公开的材料。在此所公开的材料也可以实现为可以由一个或多个处理器读取并且执行的机器可读介质上所存储的指令。计算机可读介质可以包括用于存储或发送机器可读的形式的信息的任何介质和/或机构(例如,计算设备)。例如,机器可读介质可以包括只读存储器(ROM)、随机存取存储器(RAM)、磁盘存储介质;光存储介质;闪存设备;电、光、声学或其它形式的传输信号(例如,载波、红外信号、数字信号等)以及其它介质。说明书中对“一个实现方式”、“实现方式”、“示例实现方式”等的引用指示所描述的实现方式可以包括特定特征、结构或特性,但每一实施例可以不一定包括特定特征、结构或特性。此外,这些短语不一定指代同一实现方式。此外,当结合实施例描述特定特征、结构或特性时,认为其处于本领域技术人员的知识内,以结合其它实现方式作用于该特征、结构或特征,而无论是否在此明确地描述。本文描述与具有减少的关于应用(例如,话音唤醒)的错误接受的关键短语检测有关的方法、设备、装置、计算平台和物品。如上所述,关键短语或热点词语检测系统可以用于检测可以通过设备发起活动(例如,基于检测到关键短语而将设备从低功率或休眠模式唤醒到有效模式)的词语或短语等。如本文所使用的那样,术语关键短语可以指示待检测的任何音频指示符或声学事件(例如,短语、词语或一组音素或语音单元)或音频或声学事件(例如,婴儿的哭声、尖叫等)。此外,为了由系统使用,可以预先确定关键短语,使得可以提供预定关键短语的检测。在实施例中,基于能量的话音激活检测可以检测话语或某种形式的音频输入,并且本文所讨论的关键短语检测可以基于话音激活检测而得以发起。也如所描述的那样,关键短语或热点词语检测系统可能遭受错误拒绝和错误接受。例如,一些错误接受可能因在语音上相似于所定义的关键短语的表述并且因部分正确的表述而产生。例如,关于关键短语“HelloComputer”的部分正确的表述将包括包含“Hello”或“Computer”的表述。错误接受可以典型地是两种方式。首先,当表述的第一部分(例如,词语或音节)是正确的或在语音上相似于关键短语时,错误接受可能产生,并且虽然表述的其余部分是不正确的,但系统错误地接受表述。当表述的第二部分在语音上相似于关键短语的其余部分(虽然最终是不正确的)时,或当检测系统或模型并非正确地处理关键短语和表述比较时,可能提供这些错误接受。此外,当表述的第二部分或最终部分是正确的或在语音上相似于关键短语,并且即使表述的第一部分是不正确的也确定接受时,错误接受可能产生。当关键短语的第一部分非常短,使得其可能或多或少被旁路(例如,其在关键短语评分中并非被很强地加权)时,这些错误接受可能是更普遍的。在一些实施例中,可以通过提供从关键短语模型的中间状态到拒绝模型的拒绝环回或后向转移等来减少第一类型的错误接受(例如,表述的第一部分是正确的,而第二部分是不正确的)。例如,拒绝模型可以包括具有去往可以包括通过转移而互连的多个状态关键短语模型的转移的单个状态拒绝模型。可以在每个时间实例保持拒绝模型的单个状态和关键短语模型的多个状态的得分。对于关键短语模型的第一状态,来自拒绝模型的单个状态的转移可以提供:在每个时间实例,关于第一状态,通过将与第一状态对应的自环得分(例如,单个自环得分、或多个自环得分中的最大者)与第一状态在先前时间实例的得分和转移所提供的得分(例如,拒绝模型的单个状态在先前时间实例的得分)中的最大者相加来生成其得分。相似地,互连关键短语模型的多个状态的每个转移可以向接收状态提供之间的选取,通过来自该状态的(例如,来自先前时间本文档来自技高网...

【技术保护点】
1.一种计算机实现的用于关键短语检测的方法,包括:在当前时间实例,基于表示接收到的音频输入的子语音单元的得分来更新具有单个状态的基于起始状态的拒绝模型以及具有多个状态并且与预定关键短语关联的关键短语模型,其中,所述更新包括:提供从所述关键短语模型的所述多个状态中的特定状态到所述关键短语模型的所述多个状态中的下一状态并且到所述拒绝模型的所述单个状态的得分的转移;以及生成与所述基于起始状态的拒绝模型的所述单个状态对应的拒绝似然率得分以及与所述关键短语模型对应的关键短语似然率得分;以及基于所述拒绝似然率得分和所述关键短语似然率得分来确定接收到的音频输入是否与所述预定关键短语关联。

【技术特征摘要】
【国外来华专利技术】2016.03.01 US 15/057,6951.一种计算机实现的用于关键短语检测的方法,包括:在当前时间实例,基于表示接收到的音频输入的子语音单元的得分来更新具有单个状态的基于起始状态的拒绝模型以及具有多个状态并且与预定关键短语关联的关键短语模型,其中,所述更新包括:提供从所述关键短语模型的所述多个状态中的特定状态到所述关键短语模型的所述多个状态中的下一状态并且到所述拒绝模型的所述单个状态的得分的转移;以及生成与所述基于起始状态的拒绝模型的所述单个状态对应的拒绝似然率得分以及与所述关键短语模型对应的关键短语似然率得分;以及基于所述拒绝似然率得分和所述关键短语似然率得分来确定接收到的音频输入是否与所述预定关键短语关联。2.如权利要求1所述的方法,其中,所述更新包括:从与所述基于起始状态的拒绝模型关联的多个所述子语音单元的得分确定最高概率得分,并且将所述最高概率得分与从所述特定状态转移的得分和所述单个状态的先前得分中的最大者相加,以提供所述单个状态在所述当前时间实例的得分。3.如权利要求1所述的方法,其中,所述更新包括:提供从所述关键短语模型的所述多个状态中的第二状态到所述拒绝模型的所述单个状态的第二得分的第二转移;以及从与所述基于起始状态的拒绝模型关联的多个所述子语音单元的得分确定最高概率得分,并且将所述最高概率得分与从所述特定状态转移的得分、从所述第二状态转移的第二得分以及所述单个状态的先前得分中的最大者相加,以提供所述单个状态在所述当前时间实例的得分。4.如权利要求1所述的方法,其中,所述基于起始状态的拒绝模型的所述单个状态包括与所述子语音单元的得分中的第一得分关联的自环,并且所述关键短语模型的所述多个状态与所述子语音单元的得分中的第二得分关联,并且其中,在所述第一得分中不包括所述第二得分。5.如权利要求1所述的方法,其中,所述关键短语似然率得分包括与所述关键短语模型的第一状态关联的第一似然率得分和与所述关键短语模型的第二状态关联的第二似然率得分中的最小者。6.如权利要求1所述的方法,其中,所述关键短语模型的所述特定状态与所述预定关键短语内的词语结尾关联。7.如权利要求1所述的方法,其中,所述更新包括:从与所述下一状态对应的所述子语音单元的得分确定得分,并且将该得分与从所述特定状态转移的得分和所述下一状态的先前得分中的最大者相加,以提供所述下一状态在所述当前时间实例的得分。8.如权利要求1所述的方法,其中,所述关键短语似然率得分与所述关键短语模型的最终状态关联。9.如权利要求1所述的方法,其中,确定接收到的音频输入是否与所述预定关键短语关联包括:基于所述拒绝似然率得分和所述关键短语似然率得分来确定对数似然率得分,并且将所述对数似然率得分与阈值进行比较。10.一种用于执行关键短语检测的系统,包括:存储器,被配置为:存储声学模型、基于起始状态的拒绝模型以及与预定关键短语关联的关键短语模型;和数字信号处理器,耦合到所述存储器,所述数字信号处理器用于:在当前时间实例,基于表示接收到的音频输入的子语音单元的得分来更新具有单个状态的所述基于起始状态的拒绝模型以及具有多个状态的所述关键短语模型,其中,为了更新所述基于起始状态的拒绝模型和所述关键短语模型,所述数字信号处理器:提供从所述关键短语模型的所述多个状态中的特定状态到所述关键短语模型的所述多个状态中的下一状态以及到所述拒绝模型的所述单个状态的得分的转移,并且生成与所述基于起始状态的拒绝模型的所述单个状态对应的拒绝似然率得分以及与所述关键短语模型对应的关键短语似然率得分;以及基于所述拒绝似然率得分和所述关键短语似然率得分来确定接收到的音频输入是否与所述预定关键短语关联。11.如权利要求10所述的系统,其中,为了更新所述基于起始状态的拒绝模型和所述关键短语模型,所述数字信号处理器:从与所述基于起始状态的拒绝模型关联的多个所述子语音单元的得分确定最高概率得分,并将所述最高概率得分与从所述特定状态转移的得分和所述单个状态的先前得分中的最大者相加,以提供所述单个状态在所述当前时间实例的得分。12.如权利要求10所述的系统,其中,为了更新所述基于起始状态的拒绝模型和所述关键短语模型,所述数字信号处理器:提供从所述关键短语模型的所述多个状态中的第二状态到所述拒绝模型的所述单个状态的第二得分的第二转移;以及从与所述基于起始状态的拒绝模型关联的多个所述子语音单元的得分确定最高概率得分,并将所述最高概率得分与从所述特定状态转移的得分、从所述第二状态转移的所述第二得分以及所述单个状态的先前得分中的最大者相加,以提供所述单个状态在所述当前时间实例的得分。13.如权...

【专利技术属性】
技术研发人员:T·博克莱特A·马雷克T·多劳P·索邦
申请(专利权)人:英特尔公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1