System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 用于代码切换语义解析的系统和方法技术方案_技高网

用于代码切换语义解析的系统和方法技术方案

技术编号:42975988 阅读:0 留言:0更新日期:2024-10-15 13:14
用于生成代码切换语义解析训练数据以及训练语义解析器的系统和方法。在一些示例中,处理系统(102)可以被配置为使用经训练的第一语言模型(308b)来将第一单一语言文本序列和第一解析数据(302)翻译为第二代码切换文本序列和相关联的第二解析数据(310),并且基于该第二代码切换文本序列和该第二解析数据来生成第二训练示例(314)。在一些示例中,处理系统(102)可以进一步配置为从这些第二训练示例中的两个或更多个第二训练示例生成训练集(314),并且使用该训练集来训练语义解析器(316a)以对代码切换话语进行语义解析。

【技术实现步骤摘要】
【国外来华专利技术】


技术介绍

1、当说话者或书写者在给定话语(例如,句子片段、句子、对话等)内在两种或更多种语言(或两种以上方言或其他语言变体)之间交替时,发生代码切换(code-switching)。了解如何正确解释和语义解析此类代码切换话语对于基于语音和基于文本的语言模型(例如自动化助理、翻译模型)的持续开发和改进是重要的。不幸的是,大多数现有语义解析数据集采用单一语言(例如,英语),并且生成代码切换训练数据通常需要来自精通多种语言的人员的耗时且昂贵的人类注释,或者本身需要非常大的人类注释训练数据集(例如,100,000个示例、200,000个示例等)(采用每种组成语言,或采用感兴趣的代码切换变体)的合成生成方案。因此,可能难以获得足够量的训练数据来训练语言模型以语义解析给定类型的代码切换输入,特别是当代码切换涉及不是特别常见的语言或其组合时。


技术实现思路

1、本技术涉及用于有效率地生成合成代码切换语义解析训练数据以及使用此类训练数据来训练语义解析器的系统和方法。在该技术的一些方面,可以训练第一语言模型以利用解析数据来处理单一语言话语,该解析数据将一个或多个文本跨度与一个或多个标识符(例如,槽位(slot)、意图、跨度id等)相关联,并且利用新解析数据来将该单一语言话语翻译为代码切换话语(例如,具有采用英语和西班牙语两者、英语和印地语两者等的词语的话语),该新解析数据将代码切换话语中的一个或多个文本跨度与那些相同的标识符相关联。可以训练该第一语言模型,以便以任何合适的方式并且利用任何合适的数据来执行这种类型的任务。例如,在一些方面,可以使用监督训练数据的相对小的种子集(例如,1个示例、5个示例、10个示例、100个示例、500个示例、1,000个示例、2,000个示例、3,000个示例、5,000个示例、10,000个示例等)来训练该第一语言模型,其中每个示例具有经解析的单一语言话语和经解析的代码切换等效物。这种监督训练数据可以以任何合适的方式生成,诸如通过让人类专家(例如,熟悉给定说话者组趋向于如何混合所讨论的语言的人)将单一语言话语翻译为代码切换话语,或者通过让人类专家对合成生成的训练示例执行质量控制。然后,处理系统可以被配置为使用该经训练的第一语言模型,以通过将每个单一语言文本序列及其解析数据翻译为代码切换文本序列和相关联的解析数据,从大得多的经解析的单一语言话语集中生成新合成训练示例。这些合成生成的代码切换文本序列及其相关联的解析数据可以然后被包括在训练集中,并且用于训练语义解析器(例如,包括在第二语言模型中的语义解析器),使得语义解析器可学习如何对类似于训练集的那些代码切换话语的代码切换话语直接执行语义解析。

2、因此,本技术使得能够使用相对小的初始训练数据集来训练第一语言模型,然后可以利用该第一语言模型积累的知识来生成大量逼真且准确的合成训练数据。该合成训练数据继而可以用于直接训练另外的语言模型,以准确理解和语义解析代码切换话语。例如,在一些方面,本技术可以用于将100个人类注释的训练示例的种子集变换为170,000个训练示例的完整集,并且利用该完整集进行训练的新语言模型可以解析代码切换输入,比在100个人类注释的训练示例的种子集上进行训练的等效语言模型好40%。进一步,在该完整集上进行训练的语言模型可以解析代码切换输入,就像在2,000个人类注释的训练示例的集上进行训练的等效语言模型一样,从而允许使用少20倍的人类注释的训练数据来实现等效性能。同样,在一些方面,本技术可以用于将3,000个人类注释的训练示例的种子集变换为170,000个训练示例的完整集,并且利用该完整集进行训练的新语言模型可以解析代码切换输入,比在3,000个人类注释的训练示例的种子集上进行训练的等效语言模型好15%。以此方式,本技术允许快速且有效率地扩展人类专家对给定类型的代码切换的知识,以生成大量特定训练数据,这些特定训练数据可用于优化语言模型以理解采用该相同类型的代码切换的话语。

3、在一个方面,本公开描述了一种计算机实现的方法,包括:对于多个第一训练示例中的每个给定第一训练示例,其中该多个第一训练示例中的每个第一训练示例包括第一解析数据和采用单一语言的第一文本序列,并且该第一解析数据将一个或多个标识符中的每个标识符与该第一文本序列的文本跨度相关联:使用经训练的第一语言模型来将该给定第一训练示例的该第一文本序列翻译为第二文本序列,该第二文本序列是采用至少两种语言的代码切换文本序列;使用该经训练的第一语言模型来生成第二解析数据,该第二解析数据将该一个或多个标识符中的每个给定标识符与该第二文本序列的给定文本跨度相关联;以及使用处理系统的一个或多个处理器,基于该第二文本序列和该第二解析数据来生成第二训练示例。在一些方面,一个或多个标识符中的每个标识符与由第一语义解析器在给定第一训练示例的第一文本序列中识别出的语义标记相对应。在一些方面,基于第二文本序列和第二解析数据来生成第二训练示例包括:使用一个或多个处理器,基于第二解析数据来生成第三解析数据;以及使用一个或多个处理器,将第三解析数据包括在第二训练示例中。在一些方面,一个或多个标识符中的每个标识符与由第一语义解析器在给定第一训练示例的第一文本序列中识别出的语义标记相对应,并且基于第二解析数据来生成第三解析数据包括:将第二解析数据中的每个给定标识符替换为与给定标识符相对应的语义标记。在一些方面,一个或多个标识符中的每个标识符与由第一语义解析器在给定第一训练示例的第一文本序列中识别出的语义标记相对应,并且基于第二解析数据来生成第三解析数据包括:将第二解析数据中的每个给定标识符与和给定标识符相对应的语义标记相关联。在一些方面,给定第一训练示例的第一文本序列采用第一语言,并且第二文本序列是采用第一语言和第二语言的代码切换文本序列。在一些方面,该方法进一步包括:从所生成的第二训练示例中的两个或更多个生成训练集。在一些方面,该方法进一步包括,对于多个第一训练示例中的每个给定第一训练示例:使用一个或多个处理器,确定给定第一训练示例的第一文本序列中与第一解析数据中的一个或多个标识符中的第一标识符相关联的文本跨度的第一数量;使用一个或多个处理器,确定第二文本序列中与第二解析数据中的一个或多个标识符中的第一标识符相关联的文本跨度的第二数量;以及使用一个或多个处理器,基于第一数量和第二数量不相等的确定,从该训练集中排除第二训练示例。在一些方面,该方法进一步包括,对于多个第一训练示例中的每个给定第一训练示例:使用一个或多个处理器,确定包括在给定第一训练示例的第一解析数据中的一个或多个标识符中的所有标识符的第一列表;使用一个或多个处理器,确定包括在第二解析数据中的一个或多个标识符中的所有标识符的第二列表;以及使用一个或多个处理器,基于第一列表和第二列表不相同的确定,从该训练集中排除第二训练示例。在一些方面,第一列表和第二列表不相同的确定基于第二列表包括未包括在第一列表中的标识符的确定。在一些方面,该方法进一步包括:使用一个或多个处理器,基于该训练集来训练第二语义解析器。在一些方面,第二语义解本文档来自技高网...

【技术保护点】

1.一种计算机实现的方法,包括:

2.根据权利要求1所述的方法,其中所述一个或多个标识符中的每个标识符与由第一语义解析器在所述给定第一训练示例的所述第一文本序列中识别出的语义标记相对应。

3.根据权利要求1所述的方法,其中基于所述第二文本序列和所述第二解析数据来生成所述第二训练示例包括:

4.根据权利要求3所述的方法,其中所述一个或多个标识符中的每个标识符与由第一语义解析器在所述给定第一训练示例的所述第一文本序列中识别出的语义标记相对应,并且

5.根据权利要求3所述的方法,其中所述一个或多个标识符中的每个标识符与由第一语义解析器在所述给定第一训练示例的所述第一文本序列中识别出的语义标记相对应,并且

6.根据权利要求1至5中任一项所述的方法,其中所述给定第一训练示例的所述第一文本序列采用第一语言,并且所述第二文本序列是采用所述第一语言和第二语言的代码切换文本序列。

7.根据权利要求1至6中任一项所述的方法,进一步包括:从所生成的第二训练示例中的两个或更多个生成训练集。

8.根据权利要求7所述的方法,进一步包括,对于所述多个第一训练示例中的每个给定第一训练示例:

9.根据权利要求7或8所述的方法,进一步包括,对于所述多个第一训练示例中的每个给定第一训练示例:

10.根据权利要求9所述的方法,其中所述第一列表和所述第二列表不相同的所述确定基于所述第二列表包括未包括在所述第一列表中的标识符的确定。

11.根据权利要求7至10中任一项所述的方法,进一步包括:使用所述一个或多个处理器,基于所述训练集来训练第二语义解析器。

12.根据权利要求11所述的方法,其中所述第二语义解析器是第二语言模型的一部分。

13.一种处理系统,包括:

14.根据权利要求13所述的处理系统,其中所述一个或多个标识符中的每个标识符与由第一语义解析器在所述给定第一训练示例的所述第一文本序列中识别出的语义标记相对应。

15.根据权利要求13所述的处理系统,其中所述一个或多个处理器被配置为基于所述第二文本序列和所述第二解析数据来生成所述第二训练示例包括被配置为:

16.根据权利要求15所述的处理系统,其中所述一个或多个标识符中的每个标识符与由第一语义解析器在所述给定第一训练示例的所述第一文本序列中识别出的语义标记相对应,并且

17.根据权利要求15所述的处理系统,其中所述一个或多个标识符中的每个标识符与由第一语义解析器在所述给定第一训练示例的所述第一文本序列中识别出的语义标记相对应,并且

18.根据权利要求13至17中任一项所述的处理系统,其中所述一个或多个处理器被配置为将所述给定第一训练示例的所述第一文本序列翻译为所述第二文本序列包括被配置为:将采用第一语言的所述第一文本序列翻译为所述第二文本序列,所述第二文本序列是采用所述第一语言和第二语言的代码切换文本序列。

19.根据权利要求13至18中任一项所述的处理系统,其中所述一个或多个处理器进一步被配置为:从所生成的第二训练示例中的两个或更多个生成训练集。

20.根据权利要求19所述的处理系统,其中所述一个或多个处理器进一步被配置为,对于多个第一训练示例中的每个给定第一训练示例:

21.根据权利要求19或20所述的处理系统,其中所述一个或多个处理器进一步被配置为,对于多个第一训练示例中的每个给定第一训练示例:

22.根据权利要求21所述的处理系统,其中所述一个或多个处理器被配置为进一步被配置为基于所述第一列表和所述第二列表不相同的确定而从所述训练集中排除所述第二训练示例包括被配置为:基于所述第二列表包括未包括在所述第一列表中的标识符的确定,从所述训练集中排除所述第二训练示例。

23.根据权利要求19至22中任一项所述的处理系统,其中所述一个或多个处理器被配置为进一步被配置为:基于所述训练集来训练第二语义解析器。

24.根据权利要求23所述的处理系统,其中所述存储器进一步存储第二语言模型,并且所述第二语义解析器是所述第二语言模型的一部分。

25.一种包括计算机可读指令的计算机程序产品,所述计算机可读指令在由计算机执行时,使所述计算机执行根据权利要求1至12中任一项所述的方法。

...

【技术特征摘要】
【国外来华专利技术】

1.一种计算机实现的方法,包括:

2.根据权利要求1所述的方法,其中所述一个或多个标识符中的每个标识符与由第一语义解析器在所述给定第一训练示例的所述第一文本序列中识别出的语义标记相对应。

3.根据权利要求1所述的方法,其中基于所述第二文本序列和所述第二解析数据来生成所述第二训练示例包括:

4.根据权利要求3所述的方法,其中所述一个或多个标识符中的每个标识符与由第一语义解析器在所述给定第一训练示例的所述第一文本序列中识别出的语义标记相对应,并且

5.根据权利要求3所述的方法,其中所述一个或多个标识符中的每个标识符与由第一语义解析器在所述给定第一训练示例的所述第一文本序列中识别出的语义标记相对应,并且

6.根据权利要求1至5中任一项所述的方法,其中所述给定第一训练示例的所述第一文本序列采用第一语言,并且所述第二文本序列是采用所述第一语言和第二语言的代码切换文本序列。

7.根据权利要求1至6中任一项所述的方法,进一步包括:从所生成的第二训练示例中的两个或更多个生成训练集。

8.根据权利要求7所述的方法,进一步包括,对于所述多个第一训练示例中的每个给定第一训练示例:

9.根据权利要求7或8所述的方法,进一步包括,对于所述多个第一训练示例中的每个给定第一训练示例:

10.根据权利要求9所述的方法,其中所述第一列表和所述第二列表不相同的所述确定基于所述第二列表包括未包括在所述第一列表中的标识符的确定。

11.根据权利要求7至10中任一项所述的方法,进一步包括:使用所述一个或多个处理器,基于所述训练集来训练第二语义解析器。

12.根据权利要求11所述的方法,其中所述第二语义解析器是第二语言模型的一部分。

13.一种处理系统,包括:

14.根据权利要求13所述的处理系统,其中所述一个或多个标识符中的每个标识符与由第一语义解析器在所述给定第一训练示例的所述第一文本序列中识别出的语义标记相对应。

15.根据权利要求13所述的处理系统,其中所述一个或多个处理器被配置为基于所述第二文本序列和所...

【专利技术属性】
技术研发人员:拉胡尔·戈埃尔希亚姆·乌帕德亚伊安莫尔·阿加瓦尔
申请(专利权)人:谷歌有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1