数字助理的意图和槽检测制造技术

技术编号：23632321 阅读：70 留言：0更新日期：2020-04-01 00:43

本文中描述了一种机制，用于适应在已经使用具有第一组特征的第一组用户输入来训练的语言理解模型中使用的机器学习模型，以使用具有第二组特征的用户输入来有效地进行操作。损失是根据第一组特征、第二组特征或第一组和第二组共同的特征定义的。损失包括源侧标记损失、重建损失、对抗域分类损失、非对抗域分类损失、正交损失和目标侧标记损失中的一个或多个。使用梯度下降法将损失联合最小化，并将所得系数用于重新训练机器学习模型。

Intention of digital assistant and slot detection

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】数字助理的意图和槽检测
该申请一般地涉及数字助理和其他对话系统。更具体地，该申请涉及在数字助理和其他对话系统中使用的语言理解模型的意图和槽检测的改进。
技术介绍
自然语言理解是数字助理和其他对话系统的一个组件。自然语言理解组件使用机器学习模型来从对系统的输入中提取语义含义。在自然语言理解组件中训练机器学习模型通常是在启动时通过使用开发人员或其他实体所创建的合成数据来完成的。然而，这样的合成数据不可避免地与实际用户输入不匹配，这导致相对较低的语义含义识别，直到收集到足够的数据并且重新训练了模型为止。收集足够的数据可能需要相对较长的一段时间。除了冷启动模型之外，关于输入的统计数据还倾向于随时间变化。这意味着即使机器学习模型被很好地训练，但随着时间的流逝，系统性能会因为输入统计数据的变化而下降。在此上下文中出现了本专利技术的实施例。附图说明图1示出了数字助理系统的示例架构。图2示出了根据本公开的一些方面的用于训练语言理解模型的示例架构。图3示出了根据本公开的一些方面的用于训练语言理解模型的示例架构。图4示出了根据本公开的一些方面的用于触发对语言理解模型的重新训练的代表性流程图。图5示出了根据本公开的一些方面的用于重新训练语言理解模型的代表性流程图。图6示出了根据本公开的一些方面的用于当重新训练语言理解模型时考虑到损失的代表性流程图。图7示出了适合于实现本文所公开的系统和其他方面或者执行本文所公开的方法的代表性机器架构。<...

【技术保护点】
1.一种用于训练语言理解模型的方法，包括：/n访问用于训练对话系统的机器学习模型的初始训练数据集以及输入到所述对话系统中的用户输入数据集，所述初始训练数据集表示对所述对话系统的可能或实际的输入；/n将所述初始训练数据集设置为源域，并且将收集的用户输入设置为目标域；/n创建对多个损失的表示，每个损失是基于源域、所述目标域、或两者的；/n定义包括所述多个损失的聚合损失；/n使用数值方法来确定用于所述机器学习模型的系数集，所确定的系数集在阈值数量的局部最小值内将所述聚合损失最小化；/n使用所确定的系数集来重新训练所述机器学习模型。/n

【技术特征摘要】
【国外来华专利技术】20170727 US 15/661,8551.一种用于训练语言理解模型的方法，包括：
访问用于训练对话系统的机器学习模型的初始训练数据集以及输入到所述对话系统中的用户输入数据集，所述初始训练数据集表示对所述对话系统的可能或实际的输入；
将所述初始训练数据集设置为源域，并且将收集的用户输入设置为目标域；
创建对多个损失的表示，每个损失是基于源域、所述目标域、或两者的；
定义包括所述多个损失的聚合损失；
使用数值方法来确定用于所述机器学习模型的系数集，所确定的系数集在阈值数量的局部最小值内将所述聚合损失最小化；
使用所确定的系数集来重新训练所述机器学习模型。

2.根据权利要求1所述的方法，其中，所述多个损失包括以下中的一项或多项：
源域标记损失；
重建损失；
对抗域分类损失；
非对抗域分类损失；以及
正交损失。

3.根据权利要求2所述的方法，其中，所述多个损失还包括所述目标域标记损失。

4.根据权利要求2所述的方法，其中，所述源域标记损失是基于引出特定于源域的特征的第一BiLSTM网络和引出域不变特征的第二BiLSTM网络得出的。

5.根据权利要求2所述的方法，其中，所述重建损失是基于引出特定于源域的特征的第一BiLSTM网络、引出特定于目标域的特征的第二BiLSTM网络、和引出域不变特征的第三BiLSTM网络得出的。

6.根据权利要求2所述的方法，其中，所述对抗域分类损失是基于引出域不变特征的第一BiLSTM网络得出的。

7.根据权利要求2所述的方法，其中，所述非对抗域分类损失是基于引出特定于源域的特征的第一BiLSTM网络和引出特定于目标域的特征的第二BiLSTM网络得出的。

8.根据权利要求2所述的方法，其中，所述正交损失是基于引出特定于源域的特征的第一BiLSTM网络、引出特定于目标域的特征的第二BiLSTM网络、以及引出域不变特征的第三BiLSTM网络得出的。

9.根据权利要求1、2、3、4、5、6、7或8所述的方法，其中，所述初始训练数据包括被创建用于冷启动所述机器学习模型的合成数据，并且其中，所述用户输入数据集包括...

【专利技术属性】
技术研发人员：I·齐图尼，D·金，YB·金，
申请(专利权)人：微软技术许可有限责任公司，
类型：发明
国别省市：美国;US

全部详细技术资料下载我是这个专利的主人