上下文热词制造技术

技术编号:37472464 阅读:9 留言:0更新日期:2023-05-06 09:55
公开了用于上下文热词的方法、系统和装置,该系统和装置包括编码在计算机存储介质上的计算机程序。在一个方面,在计算设备的引导过程期间的一种方法包括由计算设备确定与计算设备相关联的上下文的动作。动作进一步包括,基于与计算设备相关联的上下文确定热词。动作进一步包括,在确定热词之后,接收与话语相对应的音频数据。动作进一步包括确定音频数据包括该热词。动作进一步包括,响应于确定音频数据包括热词,执行与该热词相关联的操作。执行与该热词相关联的操作。执行与该热词相关联的操作。

【技术实现步骤摘要】
上下文热词
[0001]本申请是国际申请日为2017年8月1日、申请号为201780081195.9、专利技术名称为“上下文热词”的专利技术专利申请的分案申请。


[0002]本说明书一般涉及自动语音处理。

技术介绍

[0003]使能语音的家庭或其他环境的现实——也就是说,其中用户只需要大声说出询问或命令,并且基于计算机的系统将在场并回答询问和/或使得执行命令的环境——就在我们身上。使能语音的环境(例如,家庭、工作场所、学校等)可以使用分布在环境的各个房间或区域中的连接的麦克风设备的网络来实施。通过这种麦克风的网络,用户有权利基本上从环境中的任何地方口头询问系统,而无需在他/她面前或甚至附近有计算机或其他设备。例如,在厨房烹饪的同时,用户可以问系统“三杯是多少毫升?”并且作为响应,从系统接收例如以合成的语音输出形式的回答。替换性地,用户可以问系统问题,诸如“我最近的加油站什么时候关门”,或者在准备离开房子时,问“我今天应该穿外套吗?”。
[0004]进一步,用户可以对系统进行询问和/或发出与用户的个人信息相关的命令。例如,用户可以问系统“我什么时候与约翰会面?”或者命令系统“提醒我回家后给约翰打电话”。

技术实现思路

[0005]对于使能语音的系统,用户与系统交互的方式被设计为主要(如果不是唯一的话)是借助于语音输入。因此,潜在地拾取在周围环境中进行的所有话语(包括不指向系统的那些话语)的系统必须在任何给定话语指向系统时具有一些辨别的方式,而不是例如指向环境中存在的个体。实现这一点的一个方式是使用热词(hotword),该热词通过环境中的用户之间的协议被保留为被说出以引起系统的注意的预定词。在示例环境中,用于引起系统注意的热词是词语“好的,计算机”。因此,每当说出词语“好的,计算机”时,它就被麦克风拾取,传送到系统,该系统执行语音建模技术以确定是否说出了热词,并且如果是,则等待随后的命令或询问。因此,指向该系统的话语采取一般形式[热词][询问],其中这个示例中的“热词”是“好的,计算机”,并且“询问”可以是可以由该系统单独或经由网络与服务器结合语音识别、解析并对其进行操作的任何问题、命令、声明或其他请求。
[0006]在用户向使能语音的系统(诸如移动电话)提供若干基于热词的命令的情况下,用户与电话的交互可能变得笨拙。用户可以说“好的,计算机,播放我的家庭作业播放列表”。电话可以开始播放播放列表中的第一首歌曲。用户可能希望推进到下一首歌曲并说“好的,计算机,下一首”。为了推进到又一首歌曲,用户可以再次说出“好的,计算机,下一首”。为了减轻不断重复热词的需要,电话可以被配置为仅将“下一首”识别为热词和询问两者,或者在这种情况下识别为命令。利用这个特征,用户与电话和音乐应用的交互变得更加自然,因
为代替“好的,计算机,下一首”,用户只需要说“下一首”就可以推进到下一首歌曲。
[0007]为了实现这一点,使能语音的系统确定系统的当前上下文并标识相关热词。上下文可以基于系统上运行的应用、系统的位置、系统的移动或任何其他类似情形。系统可以使用系统的上下文来标识附加的热词。例如,当音乐正在播放时,系统可以标识热词“下一首(next)”、“停止(stop)”和“后退(back)”以用于控制音乐。系统可以为标识的热词中的每一个请求热词模型。该系统可以使用热词模型以通过处理与用户语音相对应的音频数据的音频特性并将热词模型应用于该音频特性来识别新的热词。系统识别说出的热词,并执行相应的操作。如果用户说“停止”,并且因为系统正在播放音乐,“停止”是有效的热词,那么系统可能停止播放音乐。
[0008]本公开的实施例提供了一种方法,包括:在计算设备的数据处理硬件处接收对应于由与所述计算设备相关联的用户说出的第一话语的音频数据,所述第一话语包括默认热词,所述默认热词之后跟随有从所述计算设备回放音乐的命令;由所述数据处理硬件检测对应于由所述用户说出的第一话语的音频数据中的所述默认热词,所述音频数据中的所述默认热词的检测使得语音识别器对所述音频数据执行语音识别,以识别从所述计算设备回放音乐的所述命令;响应于所述语音识别器对所述音频数据执行语音识别以识别回放音乐的所述命令,由所述数据处理硬件执行从所述计算设备回放音乐的所述命令;以及在从所述计算设备回放音乐期间:由所述数据处理硬件激活附加热词的集合,其中每个附加热词与用于控制从所述计算设备回放音乐的相应动作相关联;由所述数据处理硬件基于从所述计算设备回放音乐期间的回放状态,将所述激活的附加热词的集合限制为所述激活的附加热词的集合的子集;在所述数据处理硬件处接收对应于由所述用户说出的第二话语的附加音频数据,所述第二话语包括所述激活的附加热词的集合的子集中的附加热词之一;由所述数据处理硬件检测对应于由所述用户说出的第二话语的附加音频数据中的附加热词;以及基于检测到对应于所述第二话语的附加音频数据中的所述附加热词,由所述数据处理硬件执行与检测到的附加热词相关联的相应动作,以控制从所述计算设备回放音乐。
[0009]本公开的实施例提供了一种计算设备,包括:数据处理硬件;和与所述数据处理硬件通信并存储指令的存储器硬件,当所述指令被所述数据处理硬件执行时,使得所述数据处理硬件执行操作,所述操作包括:接收对应于由与所述计算设备相关联的用户说出的第一话语的音频数据,所述第一话语包括默认热词,所述默认热词之后跟随有从所述计算设备回放音乐的命令;检测对应于由所述用户说出的第一话语的音频数据中的所述默认热词,所述音频数据中的所述默认热词的检测使得语音识别器对所述音频数据执行语音识别,以识别从所述计算设备回放音乐的所述命令;响应于所述语音识别器对所述音频数据执行语音识别以识别回放音乐的所述命令,执行从所述计算设备回放音乐的所述命令;以及在从所述计算设备回放音乐期间:激活附加热词的集合,其中每个附加热词与用于控制从所述计算设备回放音乐的相应动作相关联;基于从所述计算设备回放音乐期间的回放状态,将所述激活的附加热词的集合限制为所述激活的附加热词的集合的子集;接收对应于由所述用户说出的第二话语的附加音频数据,所述第二话语包括所述激活的附加热词的集合的子集中的附加热词之一;检测对应于由所述用户说出的第二话语的附加音频数据中的附加热词;以及基于检测到对应于所述第二话语的附加音频数据中的所述附加热词,执行与检测到的附加热词相关联的相应动作,以控制从所述计算设备回放音乐。
[0010]根据本申请中所描述的主题的创新性方面,一种用于抗回滚安全性的方法包括以下动作:由计算设备确定与该计算设备相关联的上下文;基于与计算设备相关联的上下文确定热词;在确定热词之后,接收与话语相对应的音频数据;确定音频数据包括热词;以及响应于确定音频数据包括热词,执行与热词相关联的操作。
[0011]这些和其他实施方式可以各自可选地包括以下特征中的一个或多个。确定音频数据包括热词的动作包括:确定音频数据包括热词,而不对音频数据进行语音识别。确定音频数据包括热词的动作包括:提取与话语相对应的音频数据的音频特征;通过处理音频特本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种方法,包括:在计算设备的数据处理硬件处接收对应于由与所述计算设备相关联的用户说出的第一话语的音频数据,所述第一话语包括默认热词,所述默认热词之后跟随有从所述计算设备回放音乐的命令;由所述数据处理硬件检测对应于由所述用户说出的第一话语的音频数据中的所述默认热词,所述音频数据中的所述默认热词的检测使得语音识别器对所述音频数据执行语音识别,以识别从所述计算设备回放音乐的所述命令;响应于所述语音识别器对所述音频数据执行语音识别以识别回放音乐的所述命令,由所述数据处理硬件执行从所述计算设备回放音乐的所述命令;以及在从所述计算设备回放音乐期间:由所述数据处理硬件激活附加热词的集合,其中每个附加热词与用于控制从所述计算设备回放音乐的相应动作相关联;由所述数据处理硬件基于从所述计算设备回放音乐期间的回放状态,将所述激活的附加热词的集合限制为所述激活的附加热词的集合的子集;在所述数据处理硬件处接收对应于由所述用户说出的第二话语的附加音频数据,所述第二话语包括所述激活的附加热词的集合的子集中的附加热词之一;由所述数据处理硬件检测对应于由所述用户说出的第二话语的附加音频数据中的附加热词;以及基于检测到对应于所述第二话语的附加音频数据中的所述附加热词,由所述数据处理硬件执行与检测到的附加热词相关联的相应动作,以控制从所述计算设备回放音乐。2.根据权利要求1所述的方法,其中,检测对应于所述第一话语的音频数据中的所述默认热词包括在不对所述音频数据执行语音识别的情况下检测所述音频数据中的所述默认热词。3.根据权利要求1所述的方法,其中,所述语音识别器在所述计算设备的所述数据处理硬件上执行。4.根据权利要求1所述的方法,还包括,响应于检测到对应于由所述用户说出的第一话语的音频数据中的所述默认热词,由所述数据处理硬件将对应于所述第一话语的音频数据提供给与所述数据处理硬件通信的服务器,所述服务器执行所述语音识别器以对所述音频数据执行语音识别,从而识别从所述计算设备回放音乐的所述命令。5.根据权利要求1所述的方法,其中,检测对应于所述第二话语的附加音频数据中的所述附加热词包括在不对所述附加音频数据执行语音识别的情况下检测所述附加音频数据中的所述附加热词。6.根据权利要求1所述的方法,其中,检测对应于所述第二话语的附加音频数据中的所述附加热词包括:提取对应于所述第二话语的所述附加音频数据的音频特征;使用热词检测器,通过处理所提取的音频特征来生成热词置信度得分;由所述热词检测器确定所述热词置信度得分是否满足热词置信度阈值;以及当所述热词置信度得分满足所述热词置信度阈值时,由所述热词检测器确定对应于所述第二话语的附加音频数据包括所述附加热词。
7.根据权利要求6所述的方法,还包括,当所述热词置信度得分不满足所述热词置信度阈值时:由所述热词检测器确定所述附加音频数据不包括对应于所述第二话语的所述附加音频数据不包括所述附加热词;以及由所述数据处理硬件绕过执行用于控制从所述计算设备回放音乐的相应动作。8.根据权利要求1所述的方法,其中,所述第二话语仅包括所述激活的附加热词的集合的子集中的附加热词之一。9.根据权利要求1所述的方法,其中,所述激活的附加热词的集合中的每个附加热词与被配置为识别相应附加热词的音频的相应热词模型相关联。10.根据权利要求1所述的方法,还包括由所述数据处理硬件在所述计算设备的存储器硬件上存储多个热词模型,所述多个热词模型中的被配置为识别所述附加热词中的相应一个的音频的每个热词模型与所述激活的附加热词的集合中的所述附加热词中的相应一个相关联。11.一种计算设备,包括:数据处理硬件;和与所述数据处理硬件通信并存储指令的存储器硬件,当所述指令被所述数据处理硬件执行时,使得所述数据处理硬件执行操作,所述操作包括:接收对应于由与所述计算设备相关联的用户说出的第一话语的音频数据,所述第一话语包括默认热词,所述默认热词之后跟随有从所述计算设备回放音乐的命令;检测对应于由所述用户说出的第一话语的音频数据中的所述默认热词,所述音频数据中的所述默认热词的检测使得语音识别器对所述音频数据执行语音识别,以识别从所述计算设备回放音乐的所述命令;响应于所述语音识别器对所述音频数据执行语音识别以识别回放音乐的所述命令,执行从所述计算设备回放音乐的所述命令;以及在从所述计算设备回放音乐期间:激活附加热词的集合,其中每个附加热词与用于控制从所述计算设备回放音乐的相应动作相关联;基于从所述计算设备回放音乐期间的回放状态,将所述激活的附加热词的集合限制为所述激活的附加热词的集合的子集;接收对应于由所述用户说出的第二话语的附加音频数据,所述第二话语包括所述激活的附加热词的集合的子集中的附加热词之一;检测对应于由所述用户说出的第二话语的附加音频数据中的附加热词;以及基于检测到对应于所述第二话语的附加音频数据中的所述附加热词,执行与检测到的附加热词相关联的相应动作,以控制从所述计算设备回放音乐。12.根据权利要求11所述的计算设备,其中,检测对应于所述第一话语的音频数据中的所述默认热词包括在不对所述音频数据执行语音识别的情况下检测所述音频数据中的所述默认热词。13.根据权利要求11所述的计算设备,其中,所述语音识别器在所述计算设备的所述数据处理硬件上执行。
14.根据权利要求11所述的计算设备,其中,所述操作还包括:响应于检测到对应于由所述用户说出的第一话语的音频数据中的所述默认热词,将对应于所述第一话语的音频数据提供给与所述数据处理硬件通信的服务器,所述服务器执行所述语音识别器以对所述音频数据执行语音识别,从而识别从所述计算设备回放音乐的所述命令。15.根据权利要求11所述的计算设备,其中,检测对应于所述第二话语的附加音频数据中的所述附加热词包括在不对所述附加音频数据执行语音识别的情况下检测所述附加音频数据中的所述附加热词。16.根据权利要求11所述的计算设备,其中,检测对应于所述第二话语的附加音频数据中的所述附加热词包括:提取对应于所述第二话语的所述附加音频数据的音频特征;使用热词检测器,通过处理所提取的音频特征来生成热词置信度得分;由所述热词检测器确定所述热词置信度得分是否满足热词置信度阈值;以及当所述热词置信度得分满足所述热词置信度阈值时,由所述热词检测器确定对应于所述第二话语的附加音频数据包括所述附加热词。17.根据权利要求16所述的计算设备1,其中,所述操作还包括,当所述热词置信度得分不满足所述热词置信度阈值时:由所述热词检测器确定所述附加音频数据不包括对应于所述第二话语的所述附加音频数据不包括所述附加热词;以及绕过执行用于控制从所述计算设备回放音乐的相应动作。18.根据权利要求11所述的计算设备,其中,所述第二话语仅包括所述激活的附加热词的集合的子集中的附加热词之一。19.根据权利要求11所述的计算设备,其中,所述激活的附加热词的集合中的每个附加热词与被配置为识别相应附加热词的音频的相应热词模型相关联。20.根据权利要求11所述的计算设备,其中所述操作还包括在所述计算设备的存储器硬件上存储多个热词模型,所述多个热词模型中的被配置为识别所述附加热词中的相应一个的音频的每个热词模型与所述激活的附加热词的集合中的所述附加热词中的相应一个相关联。21.一种计算机实施的方法,包括:由计算设备并且从所述计算设备被配置为运行的多个命令当中确定当前可用于由用户运行的命令,其中除所述命令之外的多个命令当前不可用于由所述用户运行;由所述计算设备确定热词,所述热词在被所述用户说出并被所述计算设备检测到时,指示所述计算设备运行所述命令,其中多个命令中的每一个对应于相应热词;由所述计算设备并且从多个热词模型当中选择热词模型,所述热词模型配置为识别所述热词的音频,其中所述多个热词模型中的每一个被配置为识别所述相应热词的音频;由所述计算设备接收话语的音频数据;由所述计算设备将所述话语的音频数据作为输入提供给所述热词模型,而不将所述话语的音频数据作为输入提供给除所述热词模型之外的多个热词模型;基于将所述话语的音频数据作为输入提供给所述热词模型,由所述计算设备确定所述话语包括所述热词;以及
基于确定所述话语包括所述热词,由所述计算设备执行所述命令。22.根据权利要求21所述的方法,包括:由所述计算设备确定所述计算设备的上下文,其中,基于所述计算设备的上下文来确定(i)当前可用于由用户运行的命令和(ii)除所述命令之外的多个命令当前不可用于由...

【专利技术属性】
技术研发人员:CT休斯IL莫雷诺A克拉库恩
申请(专利权)人:谷歌有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1