System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
【国外来华专利技术】
技术介绍
1、当说话者或书写者在给定话语(例如,句子片段、句子、对话等)内在两种或更多种语言(或两种以上方言或其他语言变体)之间交替时,发生代码切换(code-switching)。了解如何正确解释和语义解析此类代码切换话语对于基于语音和基于文本的语言模型(例如自动化助理、翻译模型)的持续开发和改进是重要的。不幸的是,大多数现有语义解析数据集采用单一语言(例如,英语),并且生成代码切换训练数据通常需要来自精通多种语言的人员的耗时且昂贵的人类注释,或者本身需要非常大的人类注释训练数据集(例如,100,000个示例、200,000个示例等)(采用每种组成语言,或采用感兴趣的代码切换变体)的合成生成方案。因此,可能难以获得足够量的训练数据来训练语言模型以语义解析给定类型的代码切换输入,特别是当代码切换涉及不是特别常见的语言或其组合时。
技术实现思路
1、本技术涉及用于有效率地生成合成代码切换语义解析训练数据以及使用此类训练数据来训练语义解析器的系统和方法。在该技术的一些方面,可以训练第一语言模型以利用解析数据来处理单一语言话语,该解析数据将一个或多个文本跨度与一个或多个标识符(例如,槽位(slot)、意图、跨度id等)相关联,并且利用新解析数据来将该单一语言话语翻译为代码切换话语(例如,具有采用英语和西班牙语两者、英语和印地语两者等的词语的话语),该新解析数据将代码切换话语中的一个或多个文本跨度与那些相同的标识符相关联。可以训练该第一语言模型,以便以任何合适的方式并且利用任何合适的数据
2、因此,本技术使得能够使用相对小的初始训练数据集来训练第一语言模型,然后可以利用该第一语言模型积累的知识来生成大量逼真且准确的合成训练数据。该合成训练数据继而可以用于直接训练另外的语言模型,以准确理解和语义解析代码切换话语。例如,在一些方面,本技术可以用于将100个人类注释的训练示例的种子集变换为170,000个训练示例的完整集,并且利用该完整集进行训练的新语言模型可以解析代码切换输入,比在100个人类注释的训练示例的种子集上进行训练的等效语言模型好40%。进一步,在该完整集上进行训练的语言模型可以解析代码切换输入,就像在2,000个人类注释的训练示例的集上进行训练的等效语言模型一样,从而允许使用少20倍的人类注释的训练数据来实现等效性能。同样,在一些方面,本技术可以用于将3,000个人类注释的训练示例的种子集变换为170,000个训练示例的完整集,并且利用该完整集进行训练的新语言模型可以解析代码切换输入,比在3,000个人类注释的训练示例的种子集上进行训练的等效语言模型好15%。以此方式,本技术允许快速且有效率地扩展人类专家对给定类型的代码切换的知识,以生成大量特定训练数据,这些特定训练数据可用于优化语言模型以理解采用该相同类型的代码切换的话语。
3、在一个方面,本公开描述了一种计算机实现的方法,包括:对于多个第一训练示例中的每个给定第一训练示例,其中该多个第一训练示例中的每个第一训练示例包括第一解析数据和采用单一语言的第一文本序列,并且该第一解析数据将一个或多个标识符中的每个标识符与该第一文本序列的文本跨度相关联:使用经训练的第一语言模型来将该给定第一训练示例的该第一文本序列翻译为第二文本序列,该第二文本序列是采用至少两种语言的代码切换文本序列;使用该经训练的第一语言模型来生成第二解析数据,该第二解析数据将该一个或多个标识符中的每个给定标识符与该第二文本序列的给定文本跨度相关联;以及使用处理系统的一个或多个处理器,基于该第二文本序列和该第二解析数据来生成第二训练示例。在一些方面,一个或多个标识符中的每个标识符与由第一语义解析器在给定第一训练示例的第一文本序列中识别出的语义标记相对应。在一些方面,基于第二文本序列和第二解析数据来生成第二训练示例包括:使用一个或多个处理器,基于第二解析数据来生成第三解析数据;以及使用一个或多个处理器,将第三解析数据包括在第二训练示例中。在一些方面,一个或多个标识符中的每个标识符与由第一语义解析器在给定第一训练示例的第一文本序列中识别出的语义标记相对应,并且基于第二解析数据来生成第三解析数据包括:将第二解析数据中的每个给定标识符替换为与给定标识符相对应的语义标记。在一些方面,一个或多个标识符中的每个标识符与由第一语义解析器在给定第一训练示例的第一文本序列中识别出的语义标记相对应,并且基于第二解析数据来生成第三解析数据包括:将第二解析数据中的每个给定标识符与和给定标识符相对应的语义标记相关联。在一些方面,给定第一训练示例的第一文本序列采用第一语言,并且第二文本序列是采用第一语言和第二语言的代码切换文本序列。在一些方面,该方法进一步包括:从所生成的第二训练示例中的两个或更多个生成训练集。在一些方面,该方法进一步包括,对于多个第一训练示例中的每个给定第一训练示例:使用一个或多个处理器,确定给定第一训练示例的第一文本序列中与第一解析数据中的一个或多个标识符中的第一标识符相关联的文本跨度的第一数量;使用一个或多个处理器,确定第二文本序列中与第二解析数据中的一个或多个标识符中的第一标识符相关联的文本跨度的第二数量;以及使用一个或多个处理器,基于第一数量和第二数量不相等的确定,从该训练集中排除第二训练示例。在一些方面,该方法进一步包括,对于多个第一训练示例中的每个给定第一训练示例:使用一个或多个处理器,确定包括在给定第一训练示例的第一解析数据中的一个或多个标识符中的所有标识符的第一列表;使用一个或多个处理器,确定包括在第二解析数据中的一个或多个标识符中的所有标识符的第二列表;以及使用一个或多个处理器,基于第一列表和第二列表不相同的确定,从该训练集中排除第二训练示例。在一些方面,第一列表和第二列表不相同的确定基于第二列表包括未包括在第一列表中的标识符的确定。在一些方面,该方法进一步包括:使用一个或多个处理器,基于该训练集来训练第二语义解析器。在一些方面,第二语义解本文档来自技高网...
【技术保护点】
1.一种计算机实现的方法,包括:
2.根据权利要求1所述的方法,其中所述一个或多个标识符中的每个标识符与由第一语义解析器在所述给定第一训练示例的所述第一文本序列中识别出的语义标记相对应。
3.根据权利要求1所述的方法,其中基于所述第二文本序列和所述第二解析数据来生成所述第二训练示例包括:
4.根据权利要求3所述的方法,其中所述一个或多个标识符中的每个标识符与由第一语义解析器在所述给定第一训练示例的所述第一文本序列中识别出的语义标记相对应,并且
5.根据权利要求3所述的方法,其中所述一个或多个标识符中的每个标识符与由第一语义解析器在所述给定第一训练示例的所述第一文本序列中识别出的语义标记相对应,并且
6.根据权利要求1至5中任一项所述的方法,其中所述给定第一训练示例的所述第一文本序列采用第一语言,并且所述第二文本序列是采用所述第一语言和第二语言的代码切换文本序列。
7.根据权利要求1至6中任一项所述的方法,进一步包括:从所生成的第二训练示例中的两个或更多个生成训练集。
8.根据权利要求7所述的方法,
9.根据权利要求7或8所述的方法,进一步包括,对于所述多个第一训练示例中的每个给定第一训练示例:
10.根据权利要求9所述的方法,其中所述第一列表和所述第二列表不相同的所述确定基于所述第二列表包括未包括在所述第一列表中的标识符的确定。
11.根据权利要求7至10中任一项所述的方法,进一步包括:使用所述一个或多个处理器,基于所述训练集来训练第二语义解析器。
12.根据权利要求11所述的方法,其中所述第二语义解析器是第二语言模型的一部分。
13.一种处理系统,包括:
14.根据权利要求13所述的处理系统,其中所述一个或多个标识符中的每个标识符与由第一语义解析器在所述给定第一训练示例的所述第一文本序列中识别出的语义标记相对应。
15.根据权利要求13所述的处理系统,其中所述一个或多个处理器被配置为基于所述第二文本序列和所述第二解析数据来生成所述第二训练示例包括被配置为:
16.根据权利要求15所述的处理系统,其中所述一个或多个标识符中的每个标识符与由第一语义解析器在所述给定第一训练示例的所述第一文本序列中识别出的语义标记相对应,并且
17.根据权利要求15所述的处理系统,其中所述一个或多个标识符中的每个标识符与由第一语义解析器在所述给定第一训练示例的所述第一文本序列中识别出的语义标记相对应,并且
18.根据权利要求13至17中任一项所述的处理系统,其中所述一个或多个处理器被配置为将所述给定第一训练示例的所述第一文本序列翻译为所述第二文本序列包括被配置为:将采用第一语言的所述第一文本序列翻译为所述第二文本序列,所述第二文本序列是采用所述第一语言和第二语言的代码切换文本序列。
19.根据权利要求13至18中任一项所述的处理系统,其中所述一个或多个处理器进一步被配置为:从所生成的第二训练示例中的两个或更多个生成训练集。
20.根据权利要求19所述的处理系统,其中所述一个或多个处理器进一步被配置为,对于多个第一训练示例中的每个给定第一训练示例:
21.根据权利要求19或20所述的处理系统,其中所述一个或多个处理器进一步被配置为,对于多个第一训练示例中的每个给定第一训练示例:
22.根据权利要求21所述的处理系统,其中所述一个或多个处理器被配置为进一步被配置为基于所述第一列表和所述第二列表不相同的确定而从所述训练集中排除所述第二训练示例包括被配置为:基于所述第二列表包括未包括在所述第一列表中的标识符的确定,从所述训练集中排除所述第二训练示例。
23.根据权利要求19至22中任一项所述的处理系统,其中所述一个或多个处理器被配置为进一步被配置为:基于所述训练集来训练第二语义解析器。
24.根据权利要求23所述的处理系统,其中所述存储器进一步存储第二语言模型,并且所述第二语义解析器是所述第二语言模型的一部分。
25.一种包括计算机可读指令的计算机程序产品,所述计算机可读指令在由计算机执行时,使所述计算机执行根据权利要求1至12中任一项所述的方法。
...【技术特征摘要】
【国外来华专利技术】
1.一种计算机实现的方法,包括:
2.根据权利要求1所述的方法,其中所述一个或多个标识符中的每个标识符与由第一语义解析器在所述给定第一训练示例的所述第一文本序列中识别出的语义标记相对应。
3.根据权利要求1所述的方法,其中基于所述第二文本序列和所述第二解析数据来生成所述第二训练示例包括:
4.根据权利要求3所述的方法,其中所述一个或多个标识符中的每个标识符与由第一语义解析器在所述给定第一训练示例的所述第一文本序列中识别出的语义标记相对应,并且
5.根据权利要求3所述的方法,其中所述一个或多个标识符中的每个标识符与由第一语义解析器在所述给定第一训练示例的所述第一文本序列中识别出的语义标记相对应,并且
6.根据权利要求1至5中任一项所述的方法,其中所述给定第一训练示例的所述第一文本序列采用第一语言,并且所述第二文本序列是采用所述第一语言和第二语言的代码切换文本序列。
7.根据权利要求1至6中任一项所述的方法,进一步包括:从所生成的第二训练示例中的两个或更多个生成训练集。
8.根据权利要求7所述的方法,进一步包括,对于所述多个第一训练示例中的每个给定第一训练示例:
9.根据权利要求7或8所述的方法,进一步包括,对于所述多个第一训练示例中的每个给定第一训练示例:
10.根据权利要求9所述的方法,其中所述第一列表和所述第二列表不相同的所述确定基于所述第二列表包括未包括在所述第一列表中的标识符的确定。
11.根据权利要求7至10中任一项所述的方法,进一步包括:使用所述一个或多个处理器,基于所述训练集来训练第二语义解析器。
12.根据权利要求11所述的方法,其中所述第二语义解析器是第二语言模型的一部分。
13.一种处理系统,包括:
14.根据权利要求13所述的处理系统,其中所述一个或多个标识符中的每个标识符与由第一语义解析器在所述给定第一训练示例的所述第一文本序列中识别出的语义标记相对应。
15.根据权利要求13所述的处理系统,其中所述一个或多个处理器被配置为基于所述第二文本序列和所...
【专利技术属性】
技术研发人员:拉胡尔·戈埃尔,希亚姆·乌帕德亚伊,安莫尔·阿加瓦尔,
申请(专利权)人:谷歌有限责任公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。