用于热词/关键词检测的用户中介制造技术

技术编号:36155838 阅读:25 留言:0更新日期:2022-12-31 20:02
本文中描述了用于改善在确定是否要启动(多个)自动化助理功能时使用的(多个)机器学习模型的性能和阈值的技术。一种方法包括:经由客户端设备的一个或多个麦克风接收捕捉用户的口头话语的音频数据;使用机器学习模型处理音频数据以生成预测输出,所述预测输出指示音频数据中存在一个或多个热词的概率;确定所述预测输出满足次级阈值,所述次级阈值指示所述音频数据中存在所述一个或多个热词的程度比初级阈值更低;响应于确定预测输出满足次级阈值,提示用户指示口头话语是否包括热词;从用户接收对提示的响应;以及基于所述响应调整初级阈值。初级阈值。初级阈值。

【技术实现步骤摘要】
【国外来华专利技术】用于热词/关键词检测的用户中介

技术介绍

[0001]人类能够使用交互式软件应用参与人机对话,交互式软件应用在这里被称为“自动化助理”(也称为“数字代理”、“交互式个人助理”、“智能个人助理”、“助理应用”、“会话代理”等)。例如,人类(当他们与自动化助理交互时,可以被称为“用户”)可以使用口头自然语言输入(即,话语)向自动化助理提供命令和/或请求,在一些情况下,可以通过提供文本(例如,键入的)自然语言输入,和/或通过触摸和/或(多个)无话语的物理运动(例如,手势、眼睛注视、面部运动等),将口头自然语言输入转换成文本,然后进行处理。自动化助理通过提供响应用户界面输出(例如,听觉和/或视觉用户界面输出)、控制一个或多个智能设备、和/或控制实现自动化助理的设备的一个或多个功能(例如,控制设备的(多个)其他应用)来响应请求。
[0002]如上所述,许多自动化助理被配置成经由口头话语进行交互。为了保护用户隐私和/或节省资源,自动化助理避免基于经由实现(至少部分实现)自动化助理的客户端设备的(多个)麦克风检测到的音频数据中存在的所有口头话语来执行一个或多个自动化助理功能。相反,基于口头话语的某些处理仅响应于确定某些条件存在而发生。
[0003]例如,包括自动化助理和/或与自动化助理接口连接的许多客户端设备包括热词检测模型。当这种客户端设备的(多个)麦克风未被禁用时,客户端设备能够使用热词检测模型来连续处理经由(多个)麦克风检测到的音频数据,以生成指示是否存在一个或多个热词(包括多词短语)的预测输出,例如“Hey Assistant(嘿助理)”、“OK Assistant(好的助理)”和/或“Assistant(助理)”。当预测输出指示存在热词时,在阈值时间量内跟随的任何音频数据(并且可选地被确定为包括话音活动)能够由一个或多个设备上的和/或远程自动化助理组件来处理,诸如(多个)语音识别组件、(多个)话音活动检测组件等。此外,能够使用(多个)自然语言理解引擎来处理(来自(多个)语音识别组件的)所识别的文本,和/或能够基于自然语言理解引擎输出来执行(多个)动作。该(多个)动作能够包括例如生成和提供响应和/或控制一个或多个应用和/或智能设备。然而,当预测输出指示不存在热词时,对应的音频数据将被丢弃而不进行任何进一步的处理,从而节省资源和保留用户隐私。
[0004]一些自动化助理附加地或替代地实现能够被启用的继续对话模式。当被启用时,继续对话模式能够在针对自动化助理的先前口头话语的阈值时间量内和/或在自动化助理已经基于先前口头话语执行了(多个)动作之后的阈值时间量内处理经由客户端设备的(多个)麦克风检测到的任何口头输入。例如,用户能够最初调用自动化助理(例如,经由热词、硬件或软件按钮等)并提供“turn on living room lights(打开起居室灯)”的初始话语,并且然后不久之后提供“turn on the kitchen lights(打开厨房灯)”的后续话语。当继续对话模式被启用时,自动化助理将对后续话语采取动作,而无需用户再次调用助理。
[0005]继续对话模式能够区分旨在由自动化助理处理的用户的后续话语和不旨在这样处理的(多个)话语(例如,改为针对另一个人的话语)。在这样做时,能够使用机器学习模型来处理捕捉后续话语的音频数据,可选地连同来自后续话语和/或其(多个)表示的识别文本(例如,基于识别文本生成的自然语言理解数据)。基于该处理生成预测输出,并且该预测
输出指示后续话语是否旨在用于自动化助理。只有当预测输出指示后续话语是旨在用于自动化助理的时,才激活进一步的自动化助理功能。否则,不激活其它的(多个)自动化助理功能,并且丢弃对应于后续话语的数据。其它(多个)功能能够包括,例如,进一步验证后续话语是旨在用于自动化助理的和/或基于该后续话语执行(多个)动作。
[0006]预测输出指示(多个)自动化助理功能是否被激活的上述和/或其他机器学习模型(例如,下面描述的附加机器学习模型)在许多情况下表现良好。然而,仍然存在基于(多个)机器学习模型的错误否定确定和错误肯定确定的发生。
[0007]在错误否定的情况下,预测输出指示不激活(多个)自动化助理功能,尽管被处理以生成预测输出的音频数据(和/或其他数据)适于激活这些功能。例如,假设使用热词检测模型生成的预测输出是概率,并且在激活(多个)自动化助理功能之前,该概率必须大于0.85。如果口头话语确实包括热词,但是基于处理音频数据生成的预测输出仅为0.82,则该(多个)功能将不会被激活,并且这将被认为是错误否定。错误否定的出现能够延长人/自动化助理的交互,迫使人重复最初旨在激活自动化助理功能的话语(和/或执行其他动作)。
[0008]在错误肯定的情况下,预测输出决定激活(多个)自动化助理功能,尽管被处理以生成预测输出的音频数据(和/或其他传感器数据)不适于激活这些功能。例如,假设使用热词检测模型生成的预测输出是一个概率,并且在激活(多个)自动化助理功能之前,该概率必须大于0.85。如果口头话语不包括热词,但是基于处理音频数据生成的预测输出是0.86,则(多个)功能仍将被激活,并且这将被认为是错误肯定。除了隐私问题之外,错误肯定的发生能够由于不必要地激活(多个)功能而浪费网络和/或计算资源。

技术实现思路

[0009]本文中公开的一些实施方式针对通过自动调整用于确定是否要启动(多个)自动化助理功能的阈值来改善(多个)机器学习模型的性能。如本文中更详细描述的,这种机器学习模型能够包括例如热词检测模型和/或其他机器学习模型。各种实施方式在客户端设备处使用本地存储在客户端设备处的机器学习模型,基于处理音频数据和/或其他传感器数据来生成预测输出。这些实施方式进一步基于预测输出来决定是否启动一个或多个自动化助理功能。例如,该决定能够基于预测输出是否满足阈值。此外,这些实施方式在客户端设备本地并基于分析其它的用户界面输入和/或其他数据来确定基于预测输出做出的决定是否正确。当确定决定是不正确的(即,决定是错误否定或错误肯定)时,那些实施方式自动调整阈值。
[0010]在一些实施方式中,自动调整的阈值可以持续并被用于关于是否启动一个或多个自动化助理功能的一个或多个后续决定。例如,可以使用自动调整的阈值,直到根据本文中描述的一个或多个方法做出进一步调整自动调整的阈值的决定(例如,响应于错误否定或错误肯定)。在一些实施方式中,自动调整的阈值可以随时间被动态调整,以适应用户和/或环境条件(例如,引入或移除噪声制造者或其他背景噪声)。这能够通过减少基于预测输出的错误否定和/或错误肯定的发生以及结果作为响应而浪费的计算资源来改善性能。
[0011]在示例中,当用户在夏季月份期间开始使用诸如风扇的有噪声的电器时,可以自动降低阈值(例如,响应于在用户开始使用有噪声的电器之后发生的一个或多个错误否定)。自动调整阈值的过程可以是迭代过程,其中通过基于错误肯定和/或错误否定的重复
调整来微调阈值。在该示例中,在用户开始使用有噪声的电器之后,阈值可以基于多个错误否定被自动降本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种由一个或多个处理器实现的方法,所述方法包括:经由客户端设备的一个或多个麦克风接收捕捉用户的口头话语的音频数据;使用机器学习模型处理所述音频数据以生成预测输出,所述预测输出指示所述音频数据中存在一个或多个热词的概率;确定所述预测输出满足次级阈值,所述次级阈值指示所述音频数据中存在所述一个或多个热词的程度比初级阈值低;响应于确定所述预测输出满足所述次级阈值,提示所述用户指示所述口头话语是否包括热词;从所述用户接收对所述提示的响应;以及基于所述响应调整所述初级阈值。2.根据权利要求1所述的方法,进一步包括响应于所述预测输出满足所述初级阈值,启动自动化助理功能。3.根据权利要求1或权利要求2所述的方法,其中,所述机器学习模型是热词检测模型,并且进一步包括基于所述响应使用联合学习来训练所述热词检测模型。4.根据前述权利要求中的任一项所述的方法,其中:所述预测输出不满足所述初级阈值;所述响应指示所述口头话语包括所述热词;并且基于所述响应调整所述初级阈值包括降低所述初级阈值。5.根据前述权利要求中的任一项所述的方法,其中:所述预测输出满足所述初级阈值;所述响应指示所述口头话语不包括所述热词;并且基于所述响应调整所述初级阈值包括提高所述初级阈值。6.根据前述权利要求中的任一项所述的方法,其中,所述提示进一步响应于确定所述用户先前已经被提示的次数没有超过比率限制。7.根据前述权利要求中的任一项所述的方法,其中,所述提示进一步响应于确定免打扰状态被禁用。8.根据前述权利要求中的任一项所述的方法,其中,所述提示进一步响应于确定所述用户在预定时间段期间没有访问所述客户端设备。9.一种由一个或多个处理器实现的方法,所述方法包括:经由客户端设备的一个或多个麦克风接收捕捉用户的口头话语的音频数据;使用机器学习模型处理所述音频数据以生成预测输出,所述预测输出指示所述音频数据中存在一个或多个热词的概率;确定所述预测输出满足阈值;从所述用户接收所述口头话语不包括热词的指示;以及响应于确定所述预测输出满足所述阈值并且接收到所述口头话语不包括所述热词的指示,调整所述阈值。10.根据权利要求9所述的方法,进一步包括响应于确定所述预测输出满足所述阈值,并且在接收到所述口头话语不包括所述热词的所述指示之前,启动自动化助理功能。
11.根据权利要求9或权利要求10所述的方法,其中:所述机器学习模型是热词检测模型,并且所述程序指令进一步能够执行以基于所述口头话语不包括所述热词的所述指示来训练所述热词检测模型。12.根据权利要求9至11中的任一项所述的方法,其中,调整所述阈值包括提高所述阈值。13.根据权利要求9至12中的任一项所述的方法,进一步包括:提示所述用户指示所述口头话语是否包括所述热词,其中,接收所述口头话语不包括所述热词的指示作为对所述提示的响应。14.根据权利要求13所述的方法,其中,所述提示是响应于确定...

【专利技术属性】
技术研发人员:亚历克斯
申请(专利权)人:谷歌有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1