在不需要自动助理的基于语音的调用的情况下基于检测到的环境状况来选择性地调用自动助理制造技术

技术编号:34716557 阅读:16 留言:0更新日期:2022-08-31 17:59
本文阐述的实现方式涉及一种根据场境信号调用—代替要求用户显式地说出调用短语的自动助理。当用户处于具有启用了助理的设备的环境中时,能够处理表征环境的特征的场境数据以确定用户是否打算调用自动助理。因此,当由自动助理检测到这样的特征时,自动助理能够绕过要求来自用户的调用短语,并且替代地,响应于来自用户的一个或多个助理命令。自动助理能够基于使用训练数据的实例训练的训练后的机器学习模型来操作,训练数据的实例表征其中一个或多个用户调用了或者没有调用自动助理的先前交互。先前交互。先前交互。

【技术实现步骤摘要】
【国外来华专利技术】在不需要自动助理的基于语音的调用的情况下基于检测到的环境状况来选择性地调用自动助理

技术介绍

[0001]人类可以利用本文称为“自动助理”(也称为“数字代理”、“聊天机器人”、“交互式个人助理”、“智能个人助理”、“对话代理”等)的交互式软件应用来参与人机对话。例如,人类(其在他们与自动助理交互时可以被称为“用户”)可以使用可以在一些情况下被转换成文本并且然后被处理的口语自然语言输入(即,话语)和/或通过提供文本(例如,键入的)自然语言输入来提供命令和/或请求。
[0002]在一些实例中,自动助理的响应性能够受限于其中用户显式地调用自动助理的场景。例如,用户必须经常在自动助理将完全地处理口语话语之前显式地调用自动助理。能够经由客户端设备调用自动助理的一些用户接口输入能够包括在客户端设备处用于调用自动助理的硬件按钮和/或虚拟按钮(例如,对硬件按钮的轻敲、对由客户端设备显示的图形界面元素的选择)。能够附加地或替换地响应于一个或多个特定口语调用短语而调用许多自动助理,一个或多个特定口语调用短语也被称为“热词/短语”或“触发词/短语”(例如,诸如“嘿,助理”的调用短语)。作为显式调用的结果,用户通常在指示他们的自动助理协助特定任务之前花时间来调用他们的自动助理。这能够导致用户与自动助理之间的交互被不必要地延长,并且能够导致对各种计算和/或网络资源的对应的延长的使用。

技术实现思路

[0003]本文阐述的实现方式涉及能够被用于至少选择性地绕过对自动助理的显式调用的一个或多个机器学习模型的训练和/或实现方式,否则在调用自动助理来执行各种任务之前可能要求对自动助理的显式调用。换句话说,使用机器学习模型生成的输出能够被用于确定自动助理何时应该响应于口语话语、口语话语何时未先于对自动助理的显式调用。为了基于环境状况来确定是否调用自动助理,能够在处理各种不同的信号以生成指示是否应该绕过对自动助理的显式调用的输出时采用训练后的机器学习模型。例如,训练后的机器学习模型能够被用于处理表征其中用户可以与自动助理交互的环境的数据。在一些实现方式中,能够生成信号向量来表征环境内的各种不同的设备的操作状态。这些操作状态能够指示用户调用自动助理的意图,并且因此能够有效地取代口语调用短语。换句话说,当用户处于用户将通常要求自动助理执行特定动作的特定环境中时,训练后的机器学习模型能够被用于处理表征环境、用户、一天中的时间、位置和/或与环境和/或用户相关联的任何其他特性的场境数据。对场境数据的处理能够产生指示用户是否将请求执行助理动作的输出(例如,概率)。此概率能够用于使自动助理在响应于助理命令之前要求或者绕过要求用户提供调用短语(或其他显式调用)。
[0004]作为在不需要最初检测调用短语(或其他显式调用)的情况下调用自动助理的结果,能够保存各种计算和电力资源。例如,在每一个助理命令之前需要显式口语调用短语的计算设备与在每一个助理命令之前不需要显式口语调用短语的另一计算设备相比能够消耗更多的资源。当计算设备不再持续地监测调用而是相反处理已经可用的场境信号时,能
够保存诸如电力和处理带宽的资源。当用户与自动助理之间的交互由于在满足大多数助理命令之前不再需要由用户提供调用短语而被缩短时,能够保存进一步资源,诸如处理带宽和客户端设备电力资源。例如,由于用户至少选择性地不需要利用口语调用短语或其他显式调用输入作为助理命令的开端,用户与包含自动助理的客户端设备的交互能够在持续时间上更短。
[0005]用于训练机器学习模型的训练数据的实例能够是基于一个或多个用户与一个或多个自动助理之间的交互。例如,在至少一个交互中,用户可以提供后面跟有助理命令(例如,“保护我的警报系统。”)的调用短语(例如,“嘿,助理
…”
),以及后面跟有另一助理命令的另一调用短语(例如,“另外

嘿,助理,播放一些音乐。”)。可能已经在特定环境中在阈值时间段(例如,1分钟)内提供了两个调用短语和两个助理命令,从而指示用户可能再次在相同环境中在后续时间点处并且在阈值时间段内发出那些助理命令的可能性。在一些实现方式中,从此场景生成的训练数据的实例能够将特定环境的一个或多个特征表征为与调用短语和/或助理命令具有正相关性或负相关性。例如,训练数据的实例能够包括对应于特定环境的特征的训练实例输入以及指示应该绕过对助理的显式调用的“1”或其他正值的训练实例输出。
[0006]在一些实现方式中,与其中用户与自动助理交互的环境相关联的一个或多个计算设备的性质能够是用于绕过调用短语检测的基础。例如,训练数据的实例能够是基于其中用户当位于他们家里的厨房中时与他们的自动助理交互的场景。厨房可以包括一个或多个智能设备,诸如可经由自动助理控制的冰箱、烤箱和/或平板设备。当用户提供后面跟有助理命令的调用短语时,一个或多个智能设备的一个或多个性质和/或状态能够是可识别的。能够将这些性质和/或操作状态用作从其生成训练数据的实例的基础。例如,训练数据的实例能够包括反映那些性质和/或操作状态的训练实例输入,以及指示应该绕过助理的显式调用的“1”或其他正值的训练实例输出。例如,当用户提供诸如“助理,将烤箱预加热到350度”的第一调用短语和第一助理命令时,厨房中的平板设备能够正在以低功率模式操作。从此场景生成的训练数据的实例能够是基于平板设备处于低功率模式并且当用户在厨房中提供用于预加热烤箱的助理命令时烤箱最初是关闭的。换句话说,训练数据的实例能够提供设备状态(例如,平板设备状态和烤箱设备状态)与助理命令(例如,“预加热烤箱”)之间的正相关性。此后,使用训练数据的实例训练的机器学习模型能够被用于确定是否绕过要求来自用户的调用短语(或其他显式输入)来调用自动助理。例如,当在厨房或用户能够在其中与他们的自动助理交互的另一类似环境中出现类似场境时,能够基于训练后的机器学习模型来随后调用自动助理。例如,能够使用训练后的机器学习模型来处理场境特征以生成预测输出,并且如果预测输出满足阈值(例如,大于0.7的阈值或其他值,其中预测输出是概率),则能够绕过对显式输入的要求。
[0007]在一些实现方式中,能够基于平板设备正在播放音乐并且烤箱正在350华氏度下操作的另一场景来生成训练数据的另一实例。例如,训练数据的另一实例能够提供在环境的一个或多个特征、各种设备的操作状态、来自一个或多个用户的非调用动作、来自一个或多个传感器(例如,接近传感器)的信号、和/或用户没有在阈值时间段内提供后续助理命令之间的相关性。例如,用户能够提供诸如“助理,关闭烤箱”的调用短语和助理命令。随后,并且在特定阈值时间段内,用户能够避免提供另一调用短语和另一助理命令。因此,能够基于
平板设备播放音乐、自动助理被指示要关闭烤箱以及用户没有发出后续调用短语或后续助理命令—至少没有在阈值时间段内发出后续调用短语或后续助理命令来生成训练数据的实例。例如,训练数据的实例能够包括对应于特定环境的特征的训练实例输入,以及指示应该绕过对助理的显式调用的“0”或其他负值的训练实例输出。训练数据的此实例能够被用于训练一个或多个机器学习模型以便确定是否本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种由一个或多个处理器实现的方法,所述方法包括:处理与用户和计算设备位于其中的环境相关联的场境数据,其中,所述计算设备提供对响应于来自所述用户的自然语言输入的自动助理的访问,其中,对所述场境数据的处理独立于所述用户是否提供了调用短语被执行,以及其中,对所述场境数据的处理使用利用基于一个或多个用户与一个或多个自动助理之间的先前交互的训练数据的实例训练的训练后的机器学习模型来执行;基于处理所述场境数据来使所述自动助理检测由所述用户正在提供的一个或多个助理命令,其中,代替所述自动助理需要所述用户向所述自动助理提供调用短语,所述自动助理检测由所述用户正在提供的所述一个或多个助理命令,以及其中,所述自动助理独立于所述用户是否向所述自动助理提供了所述调用短语而检测所述一个或多个助理命令;基于使所述自动助理检测所述一个或多个助理命令来确定所述用户向所述计算设备的自动助理接口提供了助理命令,其中,所述用户在没有显式地提供所述调用短语的情况下提供了所述助理命令;以及响应于确定所述用户提供了所述助理命令,使所述自动助理基于所述助理命令执行一个或多个动作。2.根据权利要求1所述的方法,其中,所述训练数据的所述实例中的至少一个实例是进一步基于表征存在于所述环境中的一个或多个相应计算设备的一个或多个先前状态的数据。3.根据权利要求2所述的方法,其中,所述训练数据的所述至少一个实例是进一步基于指示所述用户提供了特定助理命令同时所述一个或多个相应计算设备正在展示出所述一个或多个先前状态的其他数据。4.根据前述权利要求中的任一项所述的方法,其中,所述场境数据表征存在于所述环境中的所述一个或多个相应计算设备的一个或多个当前状态。5.根据前述权利要求中的任一项所述的方法,其中,使所述自动助理检测由所述用户正在提供的一个或多个助理命令包括:使所述计算设备绕过处理音频数据以确定是否由所述用户提供了所述调用短语。6.根据前述权利要求中的任一项所述的方法,进一步包括:基于处理所述场境数据来使所述环境中的一个或多个计算设备向所述用户渲染包括识别来自所述自动助理的询问的自然语言内容的输出。7.根据权利要求6所述的方法,其中,识别所述询问的所述自然语言内容是基于由所述自动助理选择的预期助理命令。8.根据权利要求7所述的方法,进一步包括:基于处理所述场境数据来确定一个或多个预期助理命令,其中,所述一个或多个预期助理命令包括所述预期助理命令,以及其中,所述训练数据的至少一个实例是基于其中所述自动助理也对所述预期助理命令做出响应的交互。9.根据权利要求7或8所述的方法,其中,所述预期助理命令对应于一个或多个特定动
作,所述一个或多个特定动作在由所述自动助理运行时使所述自动助理控制与所述用户相关联的一个或多个其他计算设备。10.根据前述权利要求中的任一项所述的方法,其中,所述场境数据缺乏表征由所述用户提供的任何调用短语的数据。11.根据前述权利要求中的任一项所述的方法,其中,使所述自动助理检测由所述用户正在提供的一个或多个助理命令包括:对使用连接到所述计算设备的一个或多个麦克风生成的捕获的音频数据执行语音至文本处理,其中,当所述自动助理不再检测一个或多个助理命令时,所述语音至文本处理是不活动的。12.根据前述权利要求中的任一项所述的方法,其中,使所述自动助理检测由所述用户正在提供的一个或多个助理命令包括:确定使用连接到所述计算设备的一个或多个麦克风生成的捕获的音频数据是否体现识别能够由所述自动助理执行的一个或多个动作的自然语言内容,其中,当所述自动助理不再检测一个或多个助理命令时,不再执行确定所述自然语言内容是否识别一个或多个动作。13.根据前述权利要求中的任一项所述的方法,进一步包括:基于处理所述场境数据来使所述计算设备渲染指示所述计算设备正在操作以检测来自所述用户的一个或多个助理命令的输出。14.根据前述权利要求中的任一项所述的方法,其中,所述训练数据的至少一个实例是基于其中所述自动助理对来自所述用户或另一用户的输入做出响应的交互。15.一种由一个或多个处理器实现的方法,所述方法包括:在计算设备处,确定用户向所述计算设备的自动助理接口提供了调用短语和助理命令,其中,所述计算设备提供对响应于来自所述用户的自然语言输入的自动助理的访问;响应于确定所述用户提供了所述调用短语和所述助理命令,使所述自动助理执行基于所述助理命令的一个或多个动作;处理与其中所述用户提供了所述调用短语和所述助理命令的环境相关联的场境数据,其中,所述场境数据使用利用基于一个或多个用户与一个或多个自动助理之间的先前交互的训练数据的实例训练的训练后的机器学习模型来处理,以及其中,所述训练数据的至少一个实例是基于其中特定自动助理在阈值时间段内对由另一环境中的特定用户说出的多个调用短语做出响应的交互;在确定所述用户提供了所述调用短语和所述助理命令之后:代替所述计算设备要求所述用户提供后续调用短语,基于处理所述场境数据来使所述自动助理检测由所述用户正在提供的一个或多个后续助理命令,以便对所述一个或多个后续助理命令做出响应;确定所述用户提供了附加助理命令;以及响应于确定所述用户提供了所述附加助理命令,使所述自动助理基于所述附加助理命令并且在所述用户没有提供所述后续调用短语的情况下执行一个或多个附加动作。
16.根据权利要求15所述的方法,其中,所述训...

【专利技术属性】
技术研发人员:彼塔尔
申请(专利权)人:谷歌有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1