由助理设备基于周围感测来推理助理动作制造技术

技术编号:36704367 阅读:16 留言:0更新日期:2023-03-01 09:24
实施方式能够基于传感器数据的实例确定周围状态,该周围状态反映用户的状态和/或用户的环境的状态。能够使用周围感测机器学习(ML)模型来处理周围状态,以生成被建议由自动助理代表用户执行的(多个)建议的动作。在一些实施方式中,能够提供(多个)建议的动作的对应表示以供呈现给用户,并且能够由自动助理响应于对(多个)建议的动作的用户选择来执行(多个)建议的动作。在另外或替代的实施方式中,能够由自动助理自动地执行(多个)建议的动作。实施方式能够基于与自动助理的交互另外或替代地生成用于训练周围感测ML模型的训练实例。地生成用于训练周围感测ML模型的训练实例。地生成用于训练周围感测ML模型的训练实例。

【技术实现步骤摘要】
【国外来华专利技术】由助理设备基于周围感测来推理助理动作

技术介绍

[0001]人类能够利用在本文中称为“自动助理”(也称为“聊天机器人”、“交互式个人助理”、“智能个人助理”、“个人语音助理”、“谈话代理”等)的交互式软件应用从事人机对话。例如,人类(当与自动助理交互时可以被称为“用户”)可以向自动助理提供显式输入(例如,命令、查询和/或请求),该显式输入能够使自动助理生成并提供响应输出、控制一个或多个物联网(IoT)设备,并且/或者执行一个或多个其他功能(例如,助理动作)。由用户提供的此显式输入能够是例如说出的自然语言输入(即,口语话语)和/或键入的自然语言输入,说出的自然语言输入可以在一些情况下被转换成文本(或其他语义表示),然后被进一步处理。
[0002]在一些情况下,自动助理可以包括自动助理客户端以及基于云的(多个)对应方,该自动助理客户端由助理设备在本地运行并且由用户直接地从事,该基于云的对应方利用云的几乎无限的资源来帮助自动助理客户端对用户的输入做出响应。例如,自动助理客户端能够向(多个)基于云的对应方提供用户的口语话语的音频数据(或其文本转换),以及可选地指示用户的身份的数据(例如,凭证)。基于云的对应方可以对显式输入执行各种处理以将(多个)结果返回给自动助理客户端,该自动助理客户端然后向用户提供对应输出。在其他情况下,自动助理可以由助理设备在本地专门运行并且由用户直接地从事以减少延时。
[0003]许多用户可以经由助理动作使自动助理从事于执行例程日常任务。例如,用户可以例行地提供使自动助理检查天气、检查上班路线沿途的交通、启动车辆的一个或多个显式用户输入,和/或使自动助理在用户吃早餐时执行其他助理动作的其他显式用户输入。作为另一示例,用户可以例行地提供使自动助理播放特定播放列表、跟踪锻炼的一个或多个显式用户输入,和/或使自动助理执行其他助理动作以为用户去跑步做准备的其他显式用户输入。然而,如果自动助理能够推理用户的周围状态(例如,即将去跑步)和/或用户的环境(例如,厨房)的周围状态,则自动助理能够前摄地建议执行这些助理动作中的一个或多个助理动作,从而减少涉及自动助理的一些显式用户输入并且缩短与自动助理交互的持续时间。另外或替代地,这些助理动作中的一个或多个助理动作能够被自动地执行,从而消除涉及自动助理的一些显式用户输入并且缩短与自动助理交互的持续时间。

技术实现思路

[0004]本文中描述的实施方式涉及生成被建议由自动助理代表用户执行的一个或多个建议的动作(例如,例程)。自动助理能够使用周围感测机器学习(ML)模型来处理传感器数据的实例,以生成建议的动作中的一个或多个。传感器数据的实例能够从用户的环境中的一个或多个助理设备获得(例如,从(多个)助理设备的(多个)传感器获得)。在一些实施方式中,能够基于处理传感器数据的实例来确定周围状态,并且周围感测ML模型能够处理该周围状态以生成建议的动作中的一个或多个。在另外或替代的实施方式中,周围感测ML模型能够直接地处理传感器数据的实例以生成建议的动作中的一个或多个。在各种实施方式中,使用周围感测ML模型所生成的一个或多个建议的动作中的每一个能够与对应的预测量
度相关联。在那些实施方式的一些版本中,诸如当与建议的动作中的一个或多个相关联的对应的预测量度满足第一阈值量度但不满足第二阈值量度时,自动助理能够使得建议的动作中的一个或多个的对应表示被提供以供呈现给用户(例如,在视觉上和/或可听地)。在那些实施方式的另外或替代版本中,诸如当与建议的动作中的一个或多个相关联的对应的预测量度满足第一阈值量度和第二阈值量度时,自动助理能够使得代表用户自动地执行建议的动作中的一个或多个。
[0005]例如,假定给定助理设备是具有显示器并位于用户的主要住所中的交互式独立扬声器设备。进一步假定用户每工作日早晨在主要住所的厨房里制作和/或吃早餐(例如,基于至少捕获用户制作并吃早餐的声音的周围音频数据来确定)。进一步假定,当用户在厨房里制作并吃早餐时,用户通常经由给定助理设备调用自动助理,并且要求自动助理提供用户的当前位置的天气更新和通勤的交通更新。因此,当用户随后在主要住所的厨房里制作和/或吃早餐(例如,基于至少捕获用户制作并吃早餐的声音的后续周围音频数据来确定)时,自动助理能够前摄地向用户建议天气更新和/或交通更新并且/或者自动地提供天气更新和/或交通更新(例如,早餐例程),而没有自动助理曾经被用户显式地调用。
[0006]在一些实施方式中,能够基于多个训练实例来训练周围感测ML模型。训练实例中的每一个能够包括训练实例输入和训练实例输出。训练实例输入能够包括例如传感器数据的实例和/或基于传感器数据的实例而确定的周围状态。如本文中描述的,传感器数据能够包括由用户的环境中的一个或多个助理设备生成的、与周围感测事件相对应的任何数据。例如,传感器数据的实例能够包括捕获周围噪声或声音的音频数据、捕获用户的环境运动的运动数据、捕获周围中的多个助理设备的配对的配对数据、捕获助理设备中的一个或多个的状态(或状态变化)的设备状态数据、时间数据、和/或由助理设备中的一个或多个生成的其他数据。如本文中描述的,基于传感器数据的实例而确定的周围状态能够是多个根本不同的周围状态(例如,类、类别等)中的一个或多个,该多个根本不同的周围状态可以利用不同程度的粒度来定义。例如,并且参考以上示例,所确定的周围状态可以是早餐周围状态或基于传感器数据的实例而确定的更一般烹饪周围状态,传感器数据包括捕获烹饪声音(例如,食物咝咝响、电器叮当响等)和/或用户吃饭(例如,刀具发叮当声、咀嚼声音等)的周围音频数据。此外,训练实例输出能够包括例如经由助理设备中的一个或多个进行的一个或多个用户发起的时间上对应的动作的指示,时间上对应的动作在时间上对应于传感器数据和/或周围状态的实例。例如,并且参考以上示例,一个或多个时间上对应的动作的指示能够包括天气更新动作、交通更新动作的指示,和/或在处于早餐或烹饪周围状态下时执行的任何其他用户发起的动作的指示。
[0007]如以上所指出的,在一些实施方式中,训练实例输入能够包括周围状态。在这些实施方式中,可以使用分类器或周围ML模型(例如,其不同于本文中描述的周围感测ML模型)来处理传感器数据的实例,以确定训练实例输入的周围状态。例如,能够处理传感器数据的实例以生成嵌入(例如,较低维度表示),并且能够在嵌入空间中将该嵌入与指配给相应周围状态的多个根本不同的嵌入进行比较。能够基于嵌入空间中所生成的嵌入与指配给相应周围状态的多个根本不同的嵌入之间的距离来确定周围状态。例如,并且关于以上示例,基于处理烹饪声音而生成的音频嵌入可能在嵌入空间中更接近与烹饪周围状态相关联的第一嵌入,而不是与锻炼周围状态相关联的第二嵌入。结果,能够确定周围状态对应于烹饪周
围状态。能够使用周围感测ML模型随后处理周围状态,以在给定周围状态的情况下(可选地使用嵌入空间或另外的嵌入空间)预测一个或多个动作。此外,能够将一个或多个预测的动作(和/或与其相关联的对应的预测量度)与一个或多个时间上对应的动作(和/或与其相关联的真实值量度)的指本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种由一个或多个处理器实现的方法,所述方法包括:基于传感器数据的实例确定周围状态,所述传感器数据的所述实例是经由用户的助理设备的一个或多个传感器检测到的,并且所述周围状态反映所述用户的状态或所述用户的环境的状态;使用训练后的周围感测机器学习ML模型来处理所述周围状态以生成一个或多个建议的动作,所述一个或多个建议的动作被建议由所述用户的所述助理设备或另外的助理设备代表所述用户执行;使所述建议的动作中的一个或多个的对应表示被提供以供经由所述助理设备或所述另外的助理设备呈现给所述用户;以及响应于接收到对所述建议的动作中的一个或多个的所述对应表示的用户选择:使所述建议的动作中的一个或多个由所述助理设备或所述另外的助理设备代表所述用户执行。2.根据权利要求1所述的方法,其中,所述一个或多个建议的动作中的每一个与预测量度相关联。3.根据权利要求2所述的方法,其中,使所述一个或多个建议的动作的所述表示被提供以供呈现给所述用户响应于确定与所述一个或多个建议的动作中的每一个相关联的所述预测量度满足第一阈值量度以及响应于确定与所述一个或多个建议的动作中的每一个相关联的所述预测量度未能满足第二阈值量度。4.根据任一前述权利要求所述的方法,其中,使所述一个或多个建议的动作的所述对应表示被提供以供经由所述助理设备或所述另外的助理设备呈现给所述用户包括:使针对所述一个或多个建议的动作中的每一个的对应的可选择元素在所述助理设备或所述另外的助理设备的显示器处在视觉上被渲染。5.根据权利要求4所述的方法,其中,接收对所述建议的动作中的一个或多个的所述对应表示的用户选择包括:接收对所述对应的可选择元素中的给定对应的可选择元素的用户选择。6.根据权利要求1至3中的任一项所述的方法,其中,使所述一个或多个建议的动作的所述对应表示被提供以供经由所述助理设备或所述另外的助理设备呈现给所述用户包括:使所述一个或多个建议的动作的指示在所述助理设备或所述另外的助理设备的一个或多个扬声器处被可听地渲染。7.根据权利要求6所述的方法,其中,接收对所述建议的动作中的一个或多个的所述对应表示的所述用户选择包括:经由所述用户的口语话语接收所述用户选择,所述用户的所述口语话语是经由所述助理设备或所述另外的助理设备的一个或多个麦克风检测到的。8.根据任一前述权利要求所述的方法,所述方法进一步包括:使所述周围状态的指示被提供以供连同所述一个或多个动作的所述表示一起呈现给所述用户。9.根据任一前述权利要求所述的方法,其中,基于所述传感器数据的所述实例确定所述周围状态包括:处理所述传感器数据的所述实例以确定所述周围状态。
10.根据任一前述权利要求所述的方法,其中,所述传感器数据的所述实例捕获以下一个或多个:音频数据、运动数据或配对数据。11.一种由一个或多个处理器实现的方法,所述方法包括:基于传感器数据的实例确定周围状态,所述传感器数据的所述实例是经由用户的助理设备的一个或多个传感器检测到的,并且所述周围状态反映所述用户的状态或所述用户的环境的状态;使用训练后的周围感测机器学习ML模型来处理所述周围状态以生成一个或多个建议的动作,所述一个或多个建议的动作被建议由所述用户的所述助理设备或另外的助理设备代表所述用户执行;以及使所述建议的动作中的一个或多个由所述助理设备或所述另外的助理设备代表所述用户自动地执行。12.根据权利要求11所述的方法,其中,所述一个或多个建议的动作中的每一个与预测量度相关联。13.根据权利要求12所述的方法,其中,使所述建议的动作中的一个或多个由所述助理设备或所述另外的助理设备自动地执行响应于确定与所述一个或多个建议的动作中的每一个相关联的所述预测量度满足第一阈值量度以及响应于确定与所述一个或多个建议的动作中的每一个相关联的所述预测量度满足第二阈值量度。14.一种由一个或多个处理器实现的方法,所述方法包括:确定传感器数据的实例对应于周围感测事件,所述传感器数据的所述实例是经由用户的助理设备的一个或多个传感器获得的;标识在所述周围感测事件的阈值持续时间内执行的时间上对应的动作,所述时间上对应的动作是由所述用户经由所述用户的所述助理设备或另外的助理设备执行的用户发起的动作;以及响应于标识所述时间上对应的动作:在所述助理设备处并且基于所述传感器数据的所述实例和所述时间上对应的动作,生成要在训练周围感测机器学习ML模型时利用的训练实例;以及使基于所述训练实例训练所述周围感测ML模型。15.根据权利要求14所述的方法,其中,所...

【专利技术属性】
技术研发人员:维克托
申请(专利权)人:谷歌有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1