数字助理的意图和槽检测制造技术

技术编号:23632321 阅读:70 留言:0更新日期:2020-04-01 00:43
本文中描述了一种机制,用于适应在已经使用具有第一组特征的第一组用户输入来训练的语言理解模型中使用的机器学习模型,以使用具有第二组特征的用户输入来有效地进行操作。损失是根据第一组特征、第二组特征或第一组和第二组共同的特征定义的。损失包括源侧标记损失、重建损失、对抗域分类损失、非对抗域分类损失、正交损失和目标侧标记损失中的一个或多个。使用梯度下降法将损失联合最小化,并将所得系数用于重新训练机器学习模型。

Intention of digital assistant and slot detection

【技术实现步骤摘要】
【国外来华专利技术】数字助理的意图和槽检测
该申请一般地涉及数字助理和其他对话系统。更具体地,该申请涉及在数字助理和其他对话系统中使用的语言理解模型的意图和槽检测的改进。
技术介绍
自然语言理解是数字助理和其他对话系统的一个组件。自然语言理解组件使用机器学习模型来从对系统的输入中提取语义含义。在自然语言理解组件中训练机器学习模型通常是在启动时通过使用开发人员或其他实体所创建的合成数据来完成的。然而,这样的合成数据不可避免地与实际用户输入不匹配,这导致相对较低的语义含义识别,直到收集到足够的数据并且重新训练了模型为止。收集足够的数据可能需要相对较长的一段时间。除了冷启动模型之外,关于输入的统计数据还倾向于随时间变化。这意味着即使机器学习模型被很好地训练,但随着时间的流逝,系统性能会因为输入统计数据的变化而下降。在此上下文中出现了本专利技术的实施例。附图说明图1示出了数字助理系统的示例架构。图2示出了根据本公开的一些方面的用于训练语言理解模型的示例架构。图3示出了根据本公开的一些方面的用于训练语言理解模型的示例架构。图4示出了根据本公开的一些方面的用于触发对语言理解模型的重新训练的代表性流程图。图5示出了根据本公开的一些方面的用于重新训练语言理解模型的代表性流程图。图6示出了根据本公开的一些方面的用于当重新训练语言理解模型时考虑到损失的代表性流程图。图7示出了适合于实现本文所公开的系统和其他方面或者执行本文所公开的方法的代表性机器架构。<br>具体实施方式以下描述包括例示了说明性实施例的说明性性系统、方法、用户界面、技术、指令序列、和计算机器程序产品。在以下的描述中,出于解释的目的,阐述了许多具体细节以便提供对专利技术主题的各种实施例的理解。然而,对于本领域技术人员而言显而易见的是,可以在没有这些具体细节的情况下实践本专利技术主题的实施例。通常而言,没有详细示出公知的指令实例、协议、结构、和技术。概述提供以下概述以用在以下具体实施方式中另外描述的简化形式引入对概念的选择。该概述不旨在标识所要求保护的主题的关键特征或必要特征,也不旨在用于限制所要求保护的主题的范围。其唯一目的是以简化的形式呈现本专利技术的一些概念,以作为稍后呈现的更加详细的描述的序言。近年来,用户越来越依赖数字助理和其他对话代理(例如,聊天机器人)来访问信息并执行任务。为了完成发送给数字助理和/或其他对话代理的任务和查询,数字助理和/或其他对话代理利用语言理解模型来帮助将输入信息转换成能够由系统使用的语义表示。机器学习模型通常用于根据用户输入来创建语义表示。自然语言输入的语义表示可以包括一个或多个意图和一个或多个槽(slot)。如本文所使用的,“意图”是用户的目标。例如,意图是关于用户从特定输入想要什么的确定。该意图还可以指示系统如何行动。“槽”表示输入中存在的可操作内容。例如,如果用户输入是“向我显示Avatar(阿凡达)的预告片”,则用户的意图是获取和观看内容。槽将包括描述内容名称的“Avatar”和描述内容类型的“预告片”。如果输入是“为我订购披萨”,则意图是订购/购买某些东西,并且槽将包括披萨,这是用户希望订购的。意图/槽常常被组织成多个域,这些域在较高的层级上表示输入所属的场景或任务,例如通信、天气、地点、日历等。构建数字助理和/或其他对话代理的一个挑战是如何构建鲁棒的意图检测和槽标记模块。当构建用于意图检测和/或槽标记的新的机器学习模型时,通常不存在用户数据,并且常常使用用于模拟预期用户输入的合成数据来初始训练机器学习模型。很难创建与实际用户输入紧密匹配的合成训练数据。另外,很难创建足够的合成训练数据来完全训练机器学习模型。这就是所谓的“冷启动”问题。合成训练数据和实际用户数据之间的差异会引擎域转移,其被称为部署转移。在用于意图检测和/或槽标记的现有(即,经训练的)机器学习模型的情况下,用于训练机器学习模型的数据会随着时间而过时,这是因为用户输入倾向于随着时间而具有不同的特征。例如,用户要求事物的方式,他们要求的事物、以及其他方面会随着时间而改变。这也会引起域转移,在这种情况下被称为时间转移。陈旧的训练数据(合成训练数据和/或“旧”训练数据)与当前用户输入之间的分布不匹配会导致模型过度拟合有缺陷的训练数据,并且当评估输出以识别模型的正确性和鲁棒性时表现不佳。因此,与当前训练方法一同存在的一个技术问题是能够开发一种在面对新数据时更加鲁棒的经训练的机器学习模型。本公开提出了一种解决技术问题的方法,其将该问题作为域适应问题来解决。该方法将有缺陷的训练数据集视为源域,并且将评估数据集视为目标域。该系统使用高级神经域适应引擎,该引擎包括基于随机化预测的对抗性训练。该系统可以在有监督和无监督的训练方法两者中被使用,并且产生超越传统方法的令人惊讶的改进。该系统以将三个双向长短期记忆(BiLSTM)神经网络表示为编码器开始。一个编码器引出特定于源的特征,一个编码器引出特定于目标的特征,而一个编码器引出域不变特征(即,不会将源域与目标域区分开的特征)。基于对这三个编码器的表示,得出了一些损失。这些损失表示当系统从有缺陷的源域数据(例如,合成的或老的陈旧数据)转移到目标域数据时在系统中存在的损失。接着,系统使用聚合损失作为联合优化机会,并且应用数值方法来沿梯度采取步骤,直到在阈值量内达到局部最小值为止。接着,在机器学习模型(另一个BiLSTM网络)中使用所得到的机器学习系数。实现所公开的训练方法的系统将从导出的损失表示开始,并且选择一个或多个损失以进行联合优化。接着,数值方法将所选择的损失的聚合最小化。接着,将所得的系数应用于在语言理解模型中所使用的BiLSTM网络,以产生经训练的语言理解模型。下面的描述还呈现了测试结果,所述测试结果示出了从所公开的训练方法得出的意图检测和槽标记的准确性的令人惊讶的改进。描述图1示出了数字助理系统的示例架构100。本公开不限于数字助理系统,但可以应用在利用机器学习将用户输入转换成语义表示(例如,意图和槽)的任何系统中。然而,在该描述中将使用数字助理的示例以避免尴尬的重复,即所应用的系统可以是利用机器学习将用户输入转换成语义表示的任何系统。数字助理的操作的简化解释没有作为关于数字助理如何工作的教程而呈现,而是被呈现为示出能够由本文公开的系统训练的机器学习过程如何在代表性上下文中操作。因此,已经将解释保持在相对简化的水平,以便提供期望的上下文,而不会深入到数字助理的详细操作中。用户可以使用某种计算设备102来通常通过网络106向数字助理系统108提供输入并且从其接收响应。示例计算设备102可以包括但不限于移动电话、智能电话、平板设备、智能手表、可穿戴设备、个人计算机、台式计算机、膝上型计算机、游戏设备、电视机,或其他任何可以使用或合适使用数字助理的设备,例如家电或车辆。在一些实现中,可以在计算设备108上提供数字助理。在其他实现中,数字助理可以通过网络被访问并且本文档来自技高网...

【技术保护点】
1.一种用于训练语言理解模型的方法,包括:/n访问用于训练对话系统的机器学习模型的初始训练数据集以及输入到所述对话系统中的用户输入数据集,所述初始训练数据集表示对所述对话系统的可能或实际的输入;/n将所述初始训练数据集设置为源域,并且将收集的用户输入设置为目标域;/n创建对多个损失的表示,每个损失是基于源域、所述目标域、或两者的;/n定义包括所述多个损失的聚合损失;/n使用数值方法来确定用于所述机器学习模型的系数集,所确定的系数集在阈值数量的局部最小值内将所述聚合损失最小化;/n使用所确定的系数集来重新训练所述机器学习模型。/n

【技术特征摘要】
【国外来华专利技术】20170727 US 15/661,8551.一种用于训练语言理解模型的方法,包括:
访问用于训练对话系统的机器学习模型的初始训练数据集以及输入到所述对话系统中的用户输入数据集,所述初始训练数据集表示对所述对话系统的可能或实际的输入;
将所述初始训练数据集设置为源域,并且将收集的用户输入设置为目标域;
创建对多个损失的表示,每个损失是基于源域、所述目标域、或两者的;
定义包括所述多个损失的聚合损失;
使用数值方法来确定用于所述机器学习模型的系数集,所确定的系数集在阈值数量的局部最小值内将所述聚合损失最小化;
使用所确定的系数集来重新训练所述机器学习模型。


2.根据权利要求1所述的方法,其中,所述多个损失包括以下中的一项或多项:
源域标记损失;
重建损失;
对抗域分类损失;
非对抗域分类损失;以及
正交损失。


3.根据权利要求2所述的方法,其中,所述多个损失还包括所述目标域标记损失。


4.根据权利要求2所述的方法,其中,所述源域标记损失是基于引出特定于源域的特征的第一BiLSTM网络和引出域不变特征的第二BiLSTM网络得出的。


5.根据权利要求2所述的方法,其中,所述重建损失是基于引出特定于源域的特征的第一BiLSTM网络、引出特定于目标域的特征的第二BiLSTM网络、和引出域不变特征的第三BiLSTM网络得出的。


6.根据权利要求2所述的方法,其中,所述对抗域分类损失是基于引出域不变特征的第一BiLSTM网络得出的。


7.根据权利要求2所述的方法,其中,所述非对抗域分类损失是基于引出特定于源域的特征的第一BiLSTM网络和引出特定于目标域的特征的第二BiLSTM网络得出的。


8.根据权利要求2所述的方法,其中,所述正交损失是基于引出特定于源域的特征的第一BiLSTM网络、引出特定于目标域的特征的第二BiLSTM网络、以及引出域不变特征的第三BiLSTM网络得出的。


9.根据权利要求1、2、3、4、5、6、7或8所述的方法,其中,所述初始训练数据包括被创建用于冷启动所述机器学习模型的合成数据,并且其中,所述用户输入数据集包括...

【专利技术属性】
技术研发人员:I·齐图尼D·金YB·金
申请(专利权)人:微软技术许可有限责任公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1