上下文热词制造技术

技术编号：37472464 阅读：9 留言：0更新日期：2023-05-06 09:55

公开了用于上下文热词的方法、系统和装置，该系统和装置包括编码在计算机存储介质上的计算机程序。在一个方面，在计算设备的引导过程期间的一种方法包括由计算设备确定与计算设备相关联的上下文的动作。动作进一步包括，基于与计算设备相关联的上下文确定热词。动作进一步包括，在确定热词之后，接收与话语相对应的音频数据。动作进一步包括确定音频数据包括该热词。动作进一步包括，响应于确定音频数据包括热词，执行与该热词相关联的操作。执行与该热词相关联的操作。执行与该热词相关联的操作。

全部详细技术资料下载

【技术实现步骤摘要】
上下文热词
[0001]本申请是国际申请日为2017年8月1日、申请号为201780081195.9、专利技术名称为“上下文热词”的专利技术专利申请的分案申请。

[0002]本说明书一般涉及自动语音处理。

技术介绍

[0003]使能语音的家庭或其他环境的现实——也就是说，其中用户只需要大声说出询问或命令，并且基于计算机的系统将在场并回答询问和/或使得执行命令的环境——就在我们身上。使能语音的环境(例如，家庭、工作场所、学校等)可以使用分布在环境的各个房间或区域中的连接的麦克风设备的网络来实施。通过这种麦克风的网络，用户有权利基本上从环境中的任何地方口头询问系统，而无需在他/她面前或甚至附近有计算机或其他设备。例如，在厨房烹饪的同时，用户可以问系统“三杯是多少毫升？”并且作为响应，从系统接收例如以合成的语音输出形式的回答。替换性地，用户可以问系统问题，诸如“我最近的加油站什么时候关门”，或者在准备离开房子时，问“我今天应该穿外套吗？”。
[0004]进一步，用户可以对系统进行询问和/或发出与用户的个人信息相关的命令。例如，用户可以问系统“我什么时候与约翰会面？”或者命令系统“提醒我回家后给约翰打电话”。

技术实现思路

[0005]对于使能语音的系统，用户与系统交互的方式被设计为主要(如果不是唯一的话)是借助于语音输入。因此，潜在地拾取在周围环境中进行的所有话语(包括不指向系统的那些话语)的系统必须在任何给定话语指向系统时具有一些辨别的方式，而不是例如指向环境中存在的个体。实现这一点的一个...

【技术保护点】

【技术特征摘要】
1.一种方法，包括：在计算设备的数据处理硬件处接收对应于由与所述计算设备相关联的用户说出的第一话语的音频数据，所述第一话语包括默认热词，所述默认热词之后跟随有从所述计算设备回放音乐的命令；由所述数据处理硬件检测对应于由所述用户说出的第一话语的音频数据中的所述默认热词，所述音频数据中的所述默认热词的检测使得语音识别器对所述音频数据执行语音识别，以识别从所述计算设备回放音乐的所述命令；响应于所述语音识别器对所述音频数据执行语音识别以识别回放音乐的所述命令，由所述数据处理硬件执行从所述计算设备回放音乐的所述命令；以及在从所述计算设备回放音乐期间：由所述数据处理硬件激活附加热词的集合，其中每个附加热词与用于控制从所述计算设备回放音乐的相应动作相关联；由所述数据处理硬件基于从所述计算设备回放音乐期间的回放状态，将所述激活的附加热词的集合限制为所述激活的附加热词的集合的子集；在所述数据处理硬件处接收对应于由所述用户说出的第二话语的附加音频数据，所述第二话语包括所述激活的附加热词的集合的子集中的附加热词之一；由所述数据处理硬件检测对应于由所述用户说出的第二话语的附加音频数据中的附加热词；以及基于检测到对应于所述第二话语的附加音频数据中的所述附加热词，由所述数据处理硬件执行与检测到的附加热词相关联的相应动作，以控制从所述计算设备回放音乐。2.根据权利要求1所述的方法，其中，检测对应于所述第一话语的音频数据中的所述默认热词包括在不对所述音频数据执行语音识别的情况下检测所述音频数据中的所述默认热词。3.根据权利要求1所述的方法，其中，所述语音识别器在所述计算设备的所述数据处理硬件上执行。4.根据权利要求1所述的方法，还包括，响应于检测到对应于由所述用户说出的第一话语的音频数据中的所述默认热词，由所述数据处理硬件将对应于所述第一话语的音频数据提供给与所述数据处理硬件通信的服务器，所述服务器执行所述语音识别器以对所述音频数据执行语音识别，从而识别从所述计算设备回放音乐的所述命令。5.根据权利要求1所述的方法，其中，检测对应于所述第二话语的附加音频数据中的所述附加热词包括在不对所述附加音频数据执行语音识别的情况下检测所述附加音频数据中的所述附加热词。6.根据权利要求1所述的方法，其中，检测对应于所述第二话语的附加音频数据中的所述附加热词包括：提取对应于所述第二话语的所述附加音频数据的音频特征；使用热词检测器，通过处理所提取的音频特征来生成热词置信度得分；由所述热词检测器确定所述热词置信度得分是否满足热词置信度阈值；以及当所述热词置信度得分满足所述热词置信度阈值时，由所述热词检测器确定对应于所述第二话语的附加音频数据包括所述附加热词。
7.根据权利要求6所述的方法，还包括，当所述热词置信度得分不满足所述热词置信度阈值时：由所述热词检测器确定所述附加音频数据不包括对应于所述第二话语的所述附加音频数据不包括所述附加热词；以及由所述数据处理硬件绕过执行用于控制从所述计算设备回放音乐的相应动作。8.根据权利要求1所述的方法，其中，所述第二话语仅包括所述激活的附加热词的集合的子集中的附加热词之一。9.根据权利要求1所述的方法，其中，所述激活的附加热词的集合中的每个附加热词与被配置为识别相应附加热词的音频的相应热词模型相关联。10.根据权利要求1所述的方法，还包括由所述数据处理硬件在所述计算设备的存储器硬件上存储多个热词模型，所述多个热词模型中的被配置为识别所述附加热词中的相应一个的音频的每个热词模型与所述激活的附加热词的集合中的所述附加热词中的相应一个相关联。11.一种计算设备，包括：数据处理硬件；和与所述数据处理硬件通信并存储指令的存储器硬件，当所述指令被所述数据处理硬件执行时，使得所述数据处理硬件执行操作，所述操作包括：接收对应于由与所述计算设备相关联的用户说出的第一话语的音频数据，所述第一话语包括默认热词，所述默认热词之后跟随有从所述计算设备回放音乐的命令；检测对应于由所述用户说出的第一话语的音频数据中的所述默认热词，所述音频数据中的所述默认热词的检测使得语音识别器对所述音频数据执行语音识别，以识别从所述计算设备回放音乐的所述命令；响应于所述语音识别器对所述音频数据执行语音识别以识别回放音乐的所述命令，执行从所述计算设备回放音乐的所述命令；以及在从所述计算设备回放音乐期间：激活附加热词的集合，其中每个附加热词与用于控制从所述计算设备回放音乐的相应动作相关联；基于从所述计算设备回放音乐期间的回放状态，将所述激活的附加热词的集合限制为所述激活的附加热词的集合的子集；接收对应于由所述用户说出的第二话语的附加音频数据，所述第二话语包括所述激活的附加热词的集合的子集中的附加热词之一；检测对应于由所述用户说出的第二话语的附加音频数据中的附加热词；以及基于检测到对应于所述第二话语的附加音频数据中的所述附加热词，执行与检测到的附加热词相关联的相应动作，以控制从所述计算设备回放音乐。12.根据权利要求11所述的计算设备，其中，检测对应于所述第一话语的音频数据中的所述默认热词包括在不对所述音频数据执行语音识别的情况下检测所述音频数据中的所述默认热词。13.根据权利要求11所述的计算设备，其中，所述语音识别器在所述计算设备的所述数据处理硬件上执行。
14.根据权利要求11所述的计算设备，其中，所述操作还包括：响应于检测到对应于由所述用户说出的第一话语的音频数据中的所述默认热词，将对应于所述第一话语的音频数据提供给与所述数据处理硬件通信的服务器，所述服务器执行所述语音识别器以对所述音频数据执行语音识别，从而识别从所述计算设备回放音乐的所述命令。15.根据权利要求11所述的计算设备，其中，检测对应于所述第二话语的附加音频数据中的所述附加热词包括在不对所述附加音频数据执行语音识别的情况下检测所述附加音频数据中的所述附加热词。16.根据权利要求11所述的计算设备，其中，检测对应于所述第二话语的附加音频数据中的所述附加热词包括：提取对应于所述第二话语的所述附加音频数据的音频特征；使用热词检测器，通过处理所提取的音频特征来生成热词置信度得分；由所述热词检测器确定所述热词置信度得分是否满足热词置信度阈值；以及当所述热词置信度得分满足所述热词置信度阈值时，由所述热词检测器确定对应于所述第二话语的附加音频数据包括所述附加热词。17.根据权利要求16所述的计算设备1，其中，所述操作还包括，当所述热词置信度得分不满足所述热词置信度阈值时：由所述热词检测器确定所述附加音频数据不包括对应于所述第二话语的所述附加音频数据不包括所述附加热词；以及绕过执行用于控制从所述计算设备回放音乐的相应动作。18.根据权利要求11所述的计算设备，其中，所述第二话语仅包括所述激活的附加热词的集合的子集中的附加热词之一。19.根据权利要求11所述的计算设备，其中，所述激活的附加热词的集合中的每个附加热词与被配置为识别相应附加热词的音频的相应热词模型相关联。20.根据权利要求11所述的计算设备，其中所述操作还包括在所述计算设备的存储器硬件上存储多个热词模型，所述多个热词模型中的被配置为识别所述附加热词中的相应一个的音频的每个热词模型与所述激活的附加热词的集合中的所述附加热词中的相应一个相关联。21.一种计算机实施的方法，包括：由计算设备并且从所述计算设备被配置为运行的多个命令当中确定当前可用于由用户运行的命令，其中除所述命令之外的多个命令当前不可用于由所述用户运行；由所述计算设备确定热词，所述热词在被所述用户说出并被所述计算设备检测到时，指示所述计算设备运行所述命令，其中多个命令中的每一个对应于相应热词；由所述计算设备并且从多个热词模型当中选择热词模型，所述热词模型配置为识别所述热词的音频，其中所述多个热词模型中的每一个被配置为识别所述相应热词的音频；由所述计算设备接收话语的音频数据；由所述计算设备将所述话语的音频数据作为输入提供给所述热词模型，而不将所述话语的音频数据作为输入提供给除所述热词模型之外的多个热词模型；基于将所述话语的音频数据作为输入提供给所述热词模型，由所述计算设备确定所述话语包括所述热词；以及
基于确定所述话语包括所述热词，由所述计算设备执行所述命令。22.根据权利要求21所述的方法，包括：由所述计算设备确定所述计算设备的上下文，其中，基于所述计算设备的上下文来确定(i)当前可用于由用户运行的命令和(ii)除所述命令之外的多个命令当前不可用于由...

【专利技术属性】
技术研发人员：CT休斯，IL莫雷诺，A克拉库恩，
申请(专利权)人：谷歌有限责任公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人