使用自动化助理功能的校正来训练设备上的机器学习模型制造技术

技术编号:33878662 阅读:15 留言:0更新日期:2022-06-22 17:08
客户端设备的处理器可以:接收捕获所述客户端设备的环境的环境属性的传感器数据;使用机器学习模型来处理所述传感器数据,以生成指定一个或多个当前休眠的自动化助理功能是否被激活的预测输出;做出关于是否触发所述一个或多个当前休眠的自动化助理功能的决定;在做出所述决定之后,确定所述决定是不正确的;并且响应于确定所述确定不正确,基于将所述预测输出与地面实况输出进行比较来生成梯度。在一些实现方式中,所生成的梯度由所述客户端设备的处理器用于更新设备上的语音识别模型的权重。在一些实现方式中,所生成的梯度被附加地或可替代地传送到远程系统以用于远程更新全局语音识别模型的全局权重。局语音识别模型的全局权重。局语音识别模型的全局权重。

【技术实现步骤摘要】
【国外来华专利技术】使用自动化助理功能的校正来训练设备上的机器学习模型

技术介绍

[0001]人类可以使用在本文被称为“自动化助理”(也称为“数字代理”、“交互式个人助理”、“智能个人助理”、“助理应用”、“对话代理”等)的交互式软件应用进行人机对话。例如,人类(当他们与自动化助理交互时可以被称为“用户”)可以使用口头自然语言输入(即话语),该口头自然语言输入在某些情况下可以被转换成文本然后被处理,通过提供文本(例如,键入的)自然语言输入和/或通过无触摸和/或话语的物理运动(例如手势、眼睛注视、面部运动等)来向自动化助理提供命令和/或请求。自动化助理通过提供响应用户界面输出(例如,可听和/或可视用户界面输出)、控制一个或多个智能设备、和/或控制实现自动化助理的设备的一个或多个功能(例如,控制设备的其他应用)来响应请求。
[0002]如上所述,许多自动化助理被配置成经由口头话语来交互。为了保护用户隐私和/或为了节省资源,自动化助理基于在经由(至少部分地)实现自动化助理的客户端设备的麦克风检测到的音频数据中存在的所有口头话语而抑制执行一个或多个自动化助理功能。相反,基于口头话语的某些处理仅响应于确定存在某些条件而发生。
[0003]例如,包括自动化助理和/或与自动化助理对接的许多客户端设备包括热词检测模型。当这样的客户端设备的麦克风未被去激活时,客户端设备可以使用热词检测模型来连续地处理经由麦克风检测到的音频数据,以生成指示是否存在一个或多个热词(包括多词短语)的预测输出,诸如“嘿助理(Hey Assistant)”、“好的助理(OK Assistant)”和/或“助理(Assistant)”。当预测输出指示存在热词时,在阈值时间量内(并且可选地,被确定为包括语音活动)跟随的任何音频数据可以由一个或多个设备上和/或远程自动化助理部件(诸如语音识别部件、声音活动检测部件等)来处理。此外,可以使用自然语言理解引擎来处理(来自语音识别部件的)识别文本,和/或可以基于自然语言理解引擎输出来执行动作。动作可以包括例如生成和提供响应和/或控制一个或多个应用和/或智能设备。然而,当预测输出指示不存在热词时,对应的音频数据将被丢弃而不进行任何进一步处理,从而节省资源和保护用户隐私。
[0004]一些自动化助理附加地或可替代地实现可以被启用的继续对话模式。当被启用时,继续对话模式可以处理在被引导到自动化助理的先前口头话语的阈值时间量内和/或在自动化助理已经基于先前口头话语执行动作之后的阈值时间量内经由客户端设备的麦克风检测到的任何口头输入。例如,用户可以(例如,经由热词、硬件或软件按钮等)最初调用自动化助理并且提供“打开起居室灯具”的初始话语,紧接着提供“打开厨房灯具”的后续话语。当启用继续对话模式时,自动化助理将对后续话语起作用,而无需用户再次调用助理。
[0005]继续对话模式可以在旨在由自动化助理处理的用户的后续话语和不是如此预期的话语(例如,替代地针对另一人的话语)之间进行区分。在这样做时,可以可选地连同来自后续话语的识别文本和/或其表示(例如,基于识别文本生成的自然语言理解数据)一起使用机器学习模型来处理捕获后续话语的音频数据。预测输出基于处理来生成并且指示后续话语是否旨在用于自动化助理。仅当预测输出指示后续话语旨在用于自动化助理时,才激
活另一自动化助理功能。否则,另一自动化助理功能不被激活,并且与后续话语相对应的数据被丢弃。另一功能可以包括例如后续话语旨在用于自动化助理和/或基于后续话语执行动作的另一验证。
[0006]上述和/或其他机器学习模型(例如,下面描述的附加机器学习模型)在许多情况下表现良好,其预测输出指定自动化助理功能是否被激活。然而,仍然存在基于机器学习模型的假阴性确定和假阳性确定的发生。
[0007]利用假阴性,预测输出指定不激活自动化助理功能,尽管被处理以生成预测输出的音频数据(和/或其他数据)适合于激活那些功能。例如,假设使用热词检测模型生成的预测输出是概率,并且在自动化助理功能被激活之前,该概率必须大于0.85。如果口头话语确实包括热词,但是基于处理音频数据而生成的预测输出仅为0.82,则功能将不会被激活并且这将被认为是假阴性。假阴性的发生可以延长人类/自动化助理交互,从而迫使人类重复最初旨在激活自动化助理功能的话语(和/或执行其他动作)。
[0008]利用假阳性,预测输出指定激活自动化助理功能,尽管被处理以生成预测输出的音频数据(和/或其他传感器数据)不适合于激活那些功能。例如,假设使用热词检测模型生成的预测输出是概率,并且在自动化助理功能被激活之前,该概率必须大于0.85。如果口头话语不包括热词,但是基于处理音频数据而生成的预测输出是0.86,则功能将仍然被激活并且这将被认为是假阳性。除了隐私考虑之外,假阳性的发生会由于不必要地激活功能而浪费网络和/或计算资源。

技术实现思路

[0009]本文所公开的一些实现方式涉及改进在确定是否要发起自动化助理功能时利用的机器学习模型的性能。如本文更详细地描述的,这样的机器学习模型可以包括例如热词检测模型、继续对话模型、无热词调用模型和/或其他机器学习模型。各种实现方式在客户端设备处基于使用本地存储在客户端设备处的机器学习模型处理音频数据和/或其他传感器数据来生成预测输出。那些实现方式还基于预测输出来做出关于是否发起一个或多个自动化助理功能的决定。例如,该决定可以基于预测输出是否满足阈值。此外,那些实现方式在客户端设备处本地并且基于分析另一用户界面输入和/或其他数据来确定基于预测输出做出的决定是否正确。当确定该决定不正确(即,该决定是假阴性或假阳性)时,那些实现方式在客户端设备处本地基于将预测输出与地面实况输出(例如,满足阈值的地面实况输出)进行比较来生成梯度。
[0010]在一些实现方式中,所生成的梯度由客户端设备的一个或多个处理器用于基于所生成的梯度来更新机器学习模型的一个或多个权重。例如,反向传播和/或其他技术可以用于基于梯度更新权重。这可以改进本地存储在客户端设备处的机器学习模型的性能,从而基于使用机器学习模型生成的预测输出来减轻假阴性和/或假阳性的发生。此外,这使得能够针对客户端设备的用户的属性(诸如在处理捕获口头话语的音频数据的机器学习模型的情况下的音调、语调、口音和/或其他语音特性)改进设备上的机器学习模型的性能。
[0011]在一些实现方式中,所生成的梯度附加地或可替代地由客户端设备通过网络传送到远程系统。在那些实现方式中,远程系统利用所生成的梯度以及来自附加客户端设备的附加梯度来更新对应的全局机器学习模型的全局权重。基于确定对应的决定不正确,可以
在对应的附加客户端设备处本地类似地生成来自附加客户端设备的附加梯度。在各种实现方式中,客户端设备传送所生成的梯度,而不传送用于生成被确定为不正确的预测输出的任何数据(例如,音频数据和/或其他传感器数据),并且不传送用于确定预测输出不正确的任何数据(例如,另一用户界面输入)。远程系统可以在更新全局模型时利用所生成的梯度,而无需参考或使用这样的数据。与传送用于生成预测输出并且确定预本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种由客户端设备的一个或多个处理器执行的方法,所述方法包括:经由所述客户端设备的一个或多个麦克风接收捕获用户的口头话语的音频数据;使用本地存储在所述客户端设备处的机器学习模型来处理所述音频数据,以生成预测输出;基于所述预测输出未能满足阈值而做出抑制发起一个或多个当前休眠的自动化助理功能的决定;在做出抑制发起所述一个或多个当前休眠的自动化助理功能的决定之后:基于在接收到所述音频数据之后在所述客户端设备处接收到的另一用户界面输入,确定所述决定是不正确的;以及响应于确定所述决定是不正确的:基于将所述预测输出与满足所述阈值的地面实况输出进行比较来生成梯度,以及基于所生成的梯度来更新所述机器学习模型的一个或多个权重。2.根据权利要求1所述的方法,其中,确定所述决定是不正确的进一步基于所述预测输出的大小。3.根据权利要求2所述的方法,其中,进一步基于所述预测输出的大小来确定所述决定是不正确的包括确定所述预测输出在未能满足用于发起所述一个或多个当前休眠的自动化助理功能的阈值的同时在所述阈值的阈值范围内。4.根据任一项前述权利要求所述的方法,其中,基于在接收到所述音频数据之后在所述客户端设备处接收到的另一用户界面输入来确定所述决定是不正确的是基于接收所述音频数据与接收所述另一用户界面输入之间的持续时间。5.根据任一项前述权利要求所述的方法,其中,所述另一用户界面输入是在附加音频数据中捕获的附加口头话语,并且还包括:使用所述机器学习模型处理所述附加音频数据,以生成附加预测输出;以及基于所述附加预测输出满足所述阈值,做出发起所述一个或多个当前休眠的自动化助理功能的附加决定;其中,基于在接收到所述音频数据之后在所述客户端设备处接收到的另一用户界面输入,确定所述决定是不正确的包括:基于发起所述一个或多个当前休眠的自动化助理功能的附加决定来确定所述决定是不正确的。6.根据任一项前述权利要求所述的方法,其中,所述另一用户界面输入是在附加音频数据中捕获的附加口头话语,并且还包括:确定所述口头话语与所述附加口头话语之间的相似性的一个或多个度量;其中,基于在接收到所述音频数据之后在所述客户端设备处接收到的另一用户界面输入来确定所述决定是不正确的是基于所述口头话语与所述附加口头话语之间的相似性的一个或多个度量。7.根据权利要求6所述的方法,其中,相似性的一个或多个度量包括以下各项中的一个或多个:基于所述口头话语的持续时间与所述附加口头话语的持续时间的比较的持续时间相似性,
基于所述口头话语的声音特性与所述附加口头话语的声音特性的比较的声音相似性,或者基于所述口头话语的识别文本和所述附加口头话语的识别文本的比较的文本相似性。8.根据任一项前述权利要求所述的方法,其中,所述另一用户界面输入是在附加音频数据中捕获的附加口头话语,并且其中基于在接收到所述音频数据之后在所述客户端设备处接收到的另一用户界面输入来确定所述决定是不正确的包括:基于以下各项来确定所述决定是不正确的:所述附加口头话语的一个或多个声学特征,或使用本地存储在所述客户端设备处的语音识别模型从所述附加口头话语所识别的文本。9.根据任一项前述权利要求所述的方法,其中,确定所述决定是不正确的包括确定指示所述决定是不正确的置信度的置信度度量,并且还包括:基于所述置信度度量来确定满足所述阈值的地面实况输出的大小。10.根据任一项前述权利要求所述的方法,其中,所述一个或多个当前休眠的自动化助理功能包括以下各项中的一个或多个:语音识别,自然语言理解(NLU),将所述音频数据或后续音频数据传送到远程服务器,将识别文本从所述语音识别传送到远程服务器,或基于所述识别文本和/或来自所述NLU的NLU输出来生成响应。11.根据任一项前述权利要求所述的方法,其中,所述机器学习模型是热词检测模型,并且其中所述一个或多个当前休眠的自动化助理功能包括以下各项中的一个或多个:使用本地存储在所述客户端设备处的语音识别模型的语音识别,将所述音频数据传送到远程服务器,将识别文本从所述语音识别传送到所述远程服务器,或使用本地存储在所述客户端设备处的自然语言理解模型来对所述识别文本进行自然语言理解。12.根据任一项前述权利要求所述的方法,其中,所述机器学习模型是继续对话模型,并且其中所述一个或多个当前休眠的自动化助理功能包括以下各项中的一个或多个:将所述音频数据传送到远程服务器,将识别文本从所述音频数据的本地语音识别传送到所述远程服务器,或基于所述音频数据或所述识别文本来生成响应。13.根据权利要求12所述的方法,其中,所述预测输出还基于使用所述机器学习模型来处理所述识别文本和/或基于所述识别文本所生成的自然语言理解数据。14.根据任一项前述权利要求所述的方法,还包括:通过网络向远程系统传送所生成的梯度而不传送以下各项中的任一个:所述音频数据和所述另一用户界面输入;其中,所述远程系统利用所生成的梯度和来自附加客户端设备的附加梯度来更新与所述机器学习模型相对应的全局机器学习模型的全局权重。
15.根据权利要求14所述的方法,其中,所述全局语音识别模型的更新的全局权重被存储在所述远程系统的存储器中。16.根据权利要求14或权利要求15所述的方法,还包括:在所述客户端设备处从所述远程系统接收所述全局机器学习模型,其中,接收所述全局机器学习模型是在所述远程系统基于所生成的梯度和所述附加梯度来更新所述全局机器学习模型的全局权重之后;以及响应于接收到所述全局机器学习模型,在所述客户端设备的本地存储中利用所述全局机器学习模型来替换所述机器学习模型。17.根据权利要求14或权利要求15所述的方法,还包括:在所述客户端设备处从所述远程系统接收所述更新的全局权重,其中接收所述更新的全局权重是在所述远程系统基于所生成的梯度和所述附加梯度来更新所述全局机器学习模型的全局权重之后;以及响应于接收到所述更新的全局权重,在所述客户端设备的本地存储中利用所述更新的全局权重来替换所述机器学习模型的权重。18.根据任一项前述权利要求所述的方法,还包括:基于来自所述客户端设备的一个或多个传感器的传感器数据来确定所述客户端设备的当前状态满足一个或多个条件,其中,生成所述梯度和/或更新所述一个或多个权重是响应于确定所述客户端设备的当前状态满足所述一个或多个条件而执行的。19.一种由客户端设备的一个或多个处理器执行的方法,所述方法包括:经由所述客户端设备的一个或多个传感器部件接收捕获所述客户端设备的环境的一个或多个环境属性的传感器数据;使用本地存储在所述客户端设备处的机器学习模型来处理所述传感器数据,以生成指定一个或多个当前休眠的自动化助理功能是否被激活的预测输出;基于所述预测输出未能满足阈值来做出关于是否触发所述一个或多个当前休眠的自动化助理功能的决定;在做出所述决定之后,确定所述决定是不正确的;以及响应于确定所述确定不正确:基于将所述预测输出与满足所述阈值的地面实况输出进行比较来生成梯度,以及基于所生成的梯度来更新所述机器学习模型的一个或多个权重。20...

【专利技术属性】
技术研发人员:弗朗索瓦丝
申请(专利权)人:谷歌有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1