助理命令的被动消歧制造技术

技术编号:38999589 阅读:11 留言:0更新日期:2023-10-07 10:31
本文阐述的实施方式涉及一种自动化助理,该自动化助理能够初始化与被预测为响应于用户输入的解释相关联的助理命令的执行,同时提供针对与也被预测为响应于用户输入的替代解释相关联的替代助理命令的建议。建议的替代助理命令能够是可选择的,使得当被选择时,自动化助理能够从执行助理命令转向到初始化所选择的替代助理命令的执行。此外,建议的替代助理命令能够在其任何用户选择之前被部分地履行。因此,本文阐述的实施方式能够使自动化助理能够在被预测为响应于用户输入的助理命令之间快速且有效地转向。之间快速且有效地转向。之间快速且有效地转向。

【技术实现步骤摘要】
【国外来华专利技术】助理命令的被动消歧

技术介绍

[0001]人类可以与在本文中被称为“自动化助理”(也被称为“数字代理”、“聊天机器人”、“交互式个人助理”、“智能个人助理”、“助理应用”、“会话代理”等)的交互式软件应用进行人机对话。例如,人类(当他们与自动化助理交互时可以被称为“用户”)可以使用口头自然语言输入(即,话语)和/或通过提供文本(例如,键入的)自然语言输入来向自动化助理提供命令和/或请求,口头自然语言输入在一些情况下可以被转换为文本然后被处理。
[0002]在许多情况下,与自动化助理交互能够产生许多误解包括助理请求和/或命令的模糊用户输入的机会。例如,假设用户提供对可通过多个不同媒体应用可获得的媒体内容(例如,歌曲)的回放的请求。在该示例中,自动化助理可以提供输出(例如,听觉和/或视觉输出),该输出要求用户选择要用于媒体内容回放的特定应用,而不是自动化助理自动地选择特定应用并响应于该请求立即回放媒体内容。此外,还假设存在具有相同名称的多个媒体内容项,自动化助理可以提供要求用户选择具有相同名称的特定媒体内容项的附加或替代输出(例如,听觉和/或视觉输出),而不是自动化助理响应于请求选择特定媒体内容并使特定媒体内容在特定应用处回放。结果,自动化助理与用户之间的对话被延长,从而浪费了客户端设备处用于实现自动化助理与用户之间的对话的计算资源并浪费了用户的时间。
[0003]在一些情况下,甚至假设自动化助理确实自动地选择要用于回放媒体内容的特定应用和/或响应于该请求自动地选择特定媒体内容,通常没有有效的机制供用户转向到也可以响应于该请求的替代应用或替代媒体内容。例如,假设对回放媒体内容的请求是对回放标题为“Crazy”的歌曲的请求,该歌曲可用于通过多个不同的媒体应用回放。进一步假设存在不同艺术家的标题为“Crazy”的多首歌曲,至少包括第一艺术家和第二艺术家。在该示例中,如果用户意图使得回放第二艺术家的“Crazy”,但是自动化助理自动地选择第一艺术家的“Crazy”并自动地使其回放,则可能需要用户提供进一步的用户输入以取消回放第一艺术家的“Crazy”,并提供甚至进一步的用户输入(通常细化为包括第二艺术家的姓名)以使第二艺术家的“Crazy”被提供以用于回放。结果,自动化助理与用户之间的对话被延长,从而浪费了客户端设备处用于实现自动化助理与用户之间的对话的计算资源。

技术实现思路

[0004]本文阐述的一些实施方式涉及自动地初始化至少第一操作的执行以履行包括在由用户提供的口头话语中的助理命令的自动化助理。此外,在由自动化助理执行第一操作时,自动化助理同时使得提供与口头话语中包括的助理命令的替代履行相关联的对应替代操作的可选择元素以呈现给用户。因此,如果用户选择可选择元素,则自动化助理终止第一操作的执行,并自动初始化与口头话语中包括的助理命令的替代履行相关联的对应替代操作的执行。以本文描述的这些和其他方式,自动化助理能够被动地消除口头话语的歧义,使得当第一操作不对应于用户预期的特定操作时,用户不必随后重新提交口头话语或任何澄清的口头话语。换句话说,自动化助理能够初始化被预测为响应于口头话语的给定操作的执行,并且能够快速且有效地转向到也被认为响应于口头话语的替代操作。如本文所使用
的,在由自动化助理执行第一操作的同时,自动化助理同时使得可选择元素被提供以呈现给用户能够包括:在由自动化助理自动地初始化第一操作的同时和/或在由自动化助理自动地初始化第一操作的时间之前和/或之后的阈值持续时间内,使得可选择元素被提供以呈现给用户。
[0005]在这些实施方式的一些版本中,能够基于口头话语来生成表征被预测为响应于口头话语的多个解释的助理输入数据。在这些实施方式中,多个解释中的每一个能够包括与对应意图相关联的对应的一个或多个对应参数,以及与对应意图相关联的用于一个或多个对应参数的一个或多个对应槽值。此外,能够基于助理输入数据生成表征多个解释中的每一个与包括在口头话语中的助理命令之间的预测的对应程度的度量数据。在一些实施方式中,度量数据能够包括例如与使用各种组件处理口头话语相关联的置信度水平,诸如与基于使用自动语音识别(ASR)模型处理口头话语而生成的ASR输出相关联的ASR度量、与基于使用自然语言理解(NLU)模型处理ASR输出而生成的NLU输出相关联的NLU度量、与基于使用履行模型和/或规则处理NLU输出而生成的履行输出相关联的履行度量,和/或与处理口头话语相关联的其他度量。在附加或替代实施方式中,度量数据能够基于提供口头话语的用户的用户简档数据、与提供口头话语的用户类似的其他用户的用户简档数据、跨特定地理区域的包括该请求的口头话语的聚合增加和/或其他数据。在那些实施方式的一些版本中,能够使用处理这些各种信号以生成度量数据的一个或多个机器学习模型和/或启发式过程来生成度量数据。基于助理输入数据和度量数据,自动化助理能够使得与多个解释中的第一解释相关联的第一操作被自动地初始化以履行包括在口头话语中的助理命令,并且能够使与多个解释中的其他解释相关联的可选择元素被提供以呈现给用户。
[0006]例如,假设用户提供“Play the song'Crazy'(播放歌曲“Crazy”)”的口头话语。自动化助理能够使用各种组件(例如,ASR组件、NLU组件、履行组件和/或其他组件)来处理口头话语,以生成表征多个解释的助理输入数据。在该示例中,基于响应于口头话语而确定回放标题为“Crazy”的歌曲的用户意图,多个解释中的每个解释可以与音乐意图相关联。然而,在提供口头话语时,用户指定了与音乐意图相关联的歌曲参数(例如,“Crazy”)的槽值,但是没有指定与音乐意图相关联的艺术家参数相关联的槽值、与音乐意图相关联的应用参数的槽值、或者可以与音乐意图相关联的任何其他参数的槽值。尽管如此,在生成表征被预测为响应于口头话语的多个解释的助理输入数据时,自动化助理能够推断各种槽值以生成多个解释。例如,第一解释能够包括音乐意图、用于歌曲参数的槽值“Crazy”、用于艺术家参数的槽值“艺术家1”、以及用于应用参数的槽值“应用1”;第二解释能够包括音乐意图、用于歌曲参数的槽值“Crazy”、用于艺术家参数的槽值“艺术家2”、以及用于应用参数的槽值“应用1”;第三解释能够包括音乐意图、用于歌曲参数的槽值“Crazy”、用于艺术家参数的槽值“艺术家1”、以及用于应用参数的槽值“应用2”;等等。
[0007]尽管参考各自共享相同意图(例如,音乐意图)的多个解释描述了上述示例,但是应当理解到,这是为了示例的目的而不意味着限制。与上述示例相反,假设用户替代地提供了“Play

The Floor is Lava

(播放“The Floor is Lava”)”的口头话语。类似地,自动化助理能够使用各种组件(例如,ASR组件、NLU组件、履行组件和/或其他组件)来处理口头话语,以生成表征多个解释的助理输入数据。然而,在该示例中,多个解释可以与不同的意图相关联。例如,第一解释能够包括音乐意图、用于歌曲参数的槽值“The Floor is Lava”本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种由一个或多个处理器实现的方法,所述方法包括:在计算设备处接收指向自动化助理的用户的口头话语,所述口头话语包括要由所述自动化助理履行的助理命令;基于所述口头话语来生成助理输入数据,所述助理输入数据表征被预测为响应于所述口头话语的多个解释,所述解释中的每个解释包括对应意图、与所述对应意图相关联的一个或多个对应参数以及用于所述一个或多个对应参数中的每个参数的一个或多个对应槽值,并且所述解释中的每个解释包括至少一个唯一对应槽值;基于所述助理输入数据生成度量数据,所述度量数据表征在所述多个解释中的每个解释与包括在所述口头话语中的所述助理命令之间的预测对应程度;基于所述度量数据和所述助理输入数据,使得所述自动化助理自动地初始化与所述多个解释中的第一解释相关联的第一操作的执行,以履行所述口头话语中包括的所述助理命令;以及基于所述度量数据和所述助理输入数据,使得一个或多个可选择建议元素被渲染在所述计算设备的显示界面处,所述一个或多个可选择建议元素中的每一个与所述多个解释中的对应替代解释相关联,以履行所述口头话语中包括的所述助理命令,其中,对所述一个或多个可选择建议元素中的给定可选择建议元素的用户选择使得所述自动化助理初始化与所述给定可选择建议元素相关联的对应替代操作的执行。2.根据权利要求1所述的方法,其中,使得所述自动化助理自动地初始化所述第一操作的执行以履行包括在所述口头话语中的所述助理命令使得第一应用生成特定内容的实例。3.根据权利要求1或权利要求2所述的方法,进一步包括:响应于使得所述自动化助理自动地初始化所述第一操作的执行以履行包括在所述口头话语中的所述助理命令:使得自动语音识别ASR处理或自然语言理解NLU处理偏向于与所述一个或多个可选择建议元素相关联的内容。4.根据前述权利要求中任一项所述的方法,进一步包括:基于所述度量数据和所述助理输入数据,使得所述自动化助理访问应用数据,以促进准备履行与所述一个或多个可选择建议元素相关联的所述对应替代操作。5.根据前述权利要求中任一项所述的方法,进一步包括:基于所述口头话语,确定用于与所述多个解释相关联的所述对应参数中的一个或多个对应参数的所述对应槽值中的一个或多个对应槽值不是由所述用户经由所述口头话语指定的,其中,所述自动化助理推断用于与所述第一解释相关联的所述对应参数中的一个或多个对应参数的特定槽值。6.根据权利要求5所述的方法,进一步包括:基于所述口头话语来推断用于所述对应替代解释中的每一个的替代特定槽值,其中,对所述给定可选择建议元素的所述用户选择使得使用所述替代特定槽值来初始化所述替代操作。7.根据权利要求6所述的方法,其中,所述特定槽值标识用于渲染特定内容的第一应
用,并且其中,所述替代特定槽值标识用于渲染替代特定内容的不同的第二应用。8.根据权利要求6所述的方法,其中,所述特定槽值标识用于渲染特定内容的第一实体引用,并且其中,所述替代特定槽值标识用于渲染替代特定内容的不同的第二实体引用。9.根据前述权利要求中任一项所述的方法,其中,使得所述一个或多个可选择建议元素被渲染在所述计算设备的所述显示界面处包括:在使得所述自动化助理自动地初始化所述第一操作的执行以履行包括在所述口头话语中的所述助理命令之后,使得所述一个或多个可选择建议元素在所述计算设备的所述显示界面处被渲染阈值持续时间。10.一种由一个或多个处理器实现的方法,所述方法包括:在计算设备处接收指向自动化助理的用户的口头话语,所述口头话语包括要由所述自动化助理履行的助理命令;基于所述口头话语生成度量数据,所述度量数据标识第一度量和第二度量,所述第一度量表征第一操作被预测为满足所述助理命令的程度,所述第二度量表征第二操作被预测为满足所述助理命令的另一程度;基于所述第一操作和所述第二操作,生成表征响应于所述口头话语的助理图形用户界面GUI的GUI数据,其中,生成所述GUI数据以标识第一可选择元素和第二可选择元素,以及其中,所述第一可选择元素可被选择以控制所述第一操作的执行,并且所述第二可选择元素可被选择以自动地初始化所述第二操作的执行;响应于接收到所述口头话语,使得所述自动化助理自动地初始化所述第一操作的执行;以及使得所述计算设备的显示界面根据所述GUI数据和所述度量数据来渲染所述助理GUI。11.根据权利要求10所述的方法,其中,在所述助理GUI处,当所述第一操作被预测为满足所述助理命令的程度大于所述第二操作被预测为满足所述助理命令的另一程度时,所述第一可选择元素比所述第二可选择元素更突出地布置。12.根据权利要求10或权利要求11所述的方法,其中,使得所述显示界面根据所述GUI数据和所述度量数据来渲染所述助理GUI包括:使得所述第一可选择元素被布置成与所述第二可选择元素相邻,其中,在所述助理GUI处,当所述第一操作被预测为满足所述助理命令的程度大于所述第二操作被预测为满足所述助理命令的另一程度时,所述第一可选择元素的第一区域大于所述第二可选择元素的...

【专利技术属性】
技术研发人员:布雷特
申请(专利权)人:谷歌有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1