在不需要自动助理的基于语音的调用的情况下基于检测到的环境状况来选择性地调用自动助理制造技术

技术编号：34716557 阅读：26 留言：0更新日期：2022-08-31 17:59

本文阐述的实现方式涉及一种根据场境信号调用—代替要求用户显式地说出调用短语的自动助理。当用户处于具有启用了助理的设备的环境中时，能够处理表征环境的特征的场境数据以确定用户是否打算调用自动助理。因此，当由自动助理检测到这样的特征时，自动助理能够绕过要求来自用户的调用短语，并且替代地，响应于来自用户的一个或多个助理命令。自动助理能够基于使用训练数据的实例训练的训练后的机器学习模型来操作，训练数据的实例表征其中一个或多个用户调用了或者没有调用自动助理的先前交互。先前交互。先前交互。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】在不需要自动助理的基于语音的调用的情况下基于检测到的环境状况来选择性地调用自动助理

技术介绍

[0001]人类可以利用本文称为“自动助理”(也称为“数字代理”、“聊天机器人”、“交互式个人助理”、“智能个人助理”、“对话代理”等)的交互式软件应用来参与人机对话。例如，人类(其在他们与自动助理交互时可以被称为“用户”)可以使用可以在一些情况下被转换成文本并且然后被处理的口语自然语言输入(即，话语)和/或通过提供文本(例如，键入的)自然语言输入来提供命令和/或请求。
[0002]在一些实例中，自动助理的响应性能够受限于其中用户显式地调用自动助理的场景。例如，用户必须经常在自动助理将完全地处理口语话语之前显式地调用自动助理。能够经由客户端设备调用自动助理的一些用户接口输入能够包括在客户端设备处用于调用自动助理的硬件按钮和/或虚拟按钮(例如，对硬件按钮的轻敲、对由客户端设备显示的图形界面元素的选择)。能够附加地或替换地响应于一个或多个特定口语调用短语而调用许多自动助理，一个或多个特定口语调用短语也被称为“热词/短语”或“触发词/短语”(例如，诸如“嘿，助理”的调用短语)。作为显式调用的结果，用户通常在指示他们的自动助理协助特定任务之前花时间来调用他们的自动助理。这能够导致用户与自动助理之间的交互被不必要地延长，并且能够导致对各种计算和/或网络资源的对应的延长的使用。

技术实现思路

[0003]本文阐述的实现方式涉及能够被用于至少选择性地绕过对自动助理的显式调用的一个或多个机器学习模型的训练和/或实现方式，否则在调用自动助理来执...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种由一个或多个处理器实现的方法，所述方法包括：处理与用户和计算设备位于其中的环境相关联的场境数据，其中，所述计算设备提供对响应于来自所述用户的自然语言输入的自动助理的访问，其中，对所述场境数据的处理独立于所述用户是否提供了调用短语被执行，以及其中，对所述场境数据的处理使用利用基于一个或多个用户与一个或多个自动助理之间的先前交互的训练数据的实例训练的训练后的机器学习模型来执行；基于处理所述场境数据来使所述自动助理检测由所述用户正在提供的一个或多个助理命令，其中，代替所述自动助理需要所述用户向所述自动助理提供调用短语，所述自动助理检测由所述用户正在提供的所述一个或多个助理命令，以及其中，所述自动助理独立于所述用户是否向所述自动助理提供了所述调用短语而检测所述一个或多个助理命令；基于使所述自动助理检测所述一个或多个助理命令来确定所述用户向所述计算设备的自动助理接口提供了助理命令，其中，所述用户在没有显式地提供所述调用短语的情况下提供了所述助理命令；以及响应于确定所述用户提供了所述助理命令，使所述自动助理基于所述助理命令执行一个或多个动作。2.根据权利要求1所述的方法，其中，所述训练数据的所述实例中的至少一个实例是进一步基于表征存在于所述环境中的一个或多个相应计算设备的一个或多个先前状态的数据。3.根据权利要求2所述的方法，其中，所述训练数据的所述至少一个实例是进一步基于指示所述用户提供了特定助理命令同时所述一个或多个相应计算设备正在展示出所述一个或多个先前状态的其他数据。4.根据前述权利要求中的任一项所述的方法，其中，所述场境数据表征存在于所述环境中的所述一个或多个相应计算设备的一个或多个当前状态。5.根据前述权利要求中的任一项所述的方法，其中，使所述自动助理检测由所述用户正在提供的一个或多个助理命令包括：使所述计算设备绕过处理音频数据以确定是否由所述用户提供了所述调用短语。6.根据前述权利要求中的任一项所述的方法，进一步包括：基于处理所述场境数据来使所述环境中的一个或多个计算设备向所述用户渲染包括识别来自所述自动助理的询问的自然语言内容的输出。7.根据权利要求6所述的方法，其中，识别所述询问的所述自然语言内容是基于由所述自动助理选择的预期助理命令。8.根据权利要求7所述的方法，进一步包括：基于处理所述场境数据来确定一个或多个预期助理命令，其中，所述一个或多个预期助理命令包括所述预期助理命令，以及其中，所述训练数据的至少一个实例是基于其中所述自动助理也对所述预期助理命令做出响应的交互。9.根据权利要求7或8所述的方法，其中，所述预期助理命令对应于一个或多个特定动
作，所述一个或多个特定动作在由所述自动助理运行时使所述自动助理控制与所述用户相关联的一个或多个其他计算设备。10.根据前述权利要求中的任一项所述的方法，其中，所述场境数据缺乏表征由所述用户提供的任何调用短语的数据。11.根据前述权利要求中的任一项所述的方法，其中，使所述自动助理检测由所述用户正在提供的一个或多个助理命令包括：对使用连接到所述计算设备的一个或多个麦克风生成的捕获的音频数据执行语音至文本处理，其中，当所述自动助理不再检测一个或多个助理命令时，所述语音至文本处理是不活动的。12.根据前述权利要求中的任一项所述的方法，其中，使所述自动助理检测由所述用户正在提供的一个或多个助理命令包括：确定使用连接到所述计算设备的一个或多个麦克风生成的捕获的音频数据是否体现识别能够由所述自动助理执行的一个或多个动作的自然语言内容，其中，当所述自动助理不再检测一个或多个助理命令时，不再执行确定所述自然语言内容是否识别一个或多个动作。13.根据前述权利要求中的任一项所述的方法，进一步包括：基于处理所述场境数据来使所述计算设备渲染指示所述计算设备正在操作以检测来自所述用户的一个或多个助理命令的输出。14.根据前述权利要求中的任一项所述的方法，其中，所述训练数据的至少一个实例是基于其中所述自动助理对来自所述用户或另一用户的输入做出响应的交互。15.一种由一个或多个处理器实现的方法，所述方法包括：在计算设备处，确定用户向所述计算设备的自动助理接口提供了调用短语和助理命令，其中，所述计算设备提供对响应于来自所述用户的自然语言输入的自动助理的访问；响应于确定所述用户提供了所述调用短语和所述助理命令，使所述自动助理执行基于所述助理命令的一个或多个动作；处理与其中所述用户提供了所述调用短语和所述助理命令的环境相关联的场境数据，其中，所述场境数据使用利用基于一个或多个用户与一个或多个自动助理之间的先前交互的训练数据的实例训练的训练后的机器学习模型来处理，以及其中，所述训练数据的至少一个实例是基于其中特定自动助理在阈值时间段内对由另一环境中的特定用户说出的多个调用短语做出响应的交互；在确定所述用户提供了所述调用短语和所述助理命令之后：代替所述计算设备要求所述用户提供后续调用短语，基于处理所述场境数据来使所述自动助理检测由所述用户正在提供的一个或多个后续助理命令，以便对所述一个或多个后续助理命令做出响应；确定所述用户提供了附加助理命令；以及响应于确定所述用户提供了所述附加助理命令，使所述自动助理基于所述附加助理命令并且在所述用户没有提供所述后续调用短语的情况下执行一个或多个附加动作。
16.根据权利要求15所述的方法，其中，所述训...

【专利技术属性】
技术研发人员：彼塔尔，
申请(专利权)人：谷歌有限责任公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人