跨语言文本的表示学习制造技术

技术编号:35051853 阅读:15 留言:0更新日期:2022-09-28 10:54
本公开提出了用于跨语言文本的表示学习的方法和装置。可以获得源语言文本和目标语言文本。可以生成所述源语言文本和所述目标语言文本的初始联合表示。可以识别所述源语言文本和所述目标语言文本中的多个词之间的关系。可以基于所述初始联合表示和所述关系来生成所述源语言文本和所述目标语言文本的联合表示。可以将所述联合表示至少映射为与所述目标语言文本相对应的目标语言表示。言文本相对应的目标语言表示。言文本相对应的目标语言表示。

【技术实现步骤摘要】
跨语言文本的表示学习

技术介绍

[0001]自然语言理解(Natural Language Understanding,NLU)是使用自然语言与计算机进行通信的技术,其旨在使计算机能够理解和运用自然语言来实现人机之间的通信,从而代替人来执行与自然语言有关的各种任务,例如机器阅读理解任务、分类任务、问答任务等。可以通过经训练的机器学习模型来执行NLU任务。机器学习模型执行NLU任务的表现依赖于大量且可靠的训练数据。对于诸如英语之类的资源丰富语言而言,存在针对一些NLU任务的大规模的人类标注的训练数据。因此,这些NLU任务在资源丰富语言上具有出色表现。

技术实现思路

[0002]提供本
技术实现思路
以便介绍一组构思,这组构思将在以下的具体实施方式中做进一步描述。本
技术实现思路
并非旨在标识所保护主题的关键特征或必要特征,也不旨在用于限制所保护主题的范围。
[0003]本公开的实施例提出了用于跨语言文本的表示学习的方法和装置。可以获得源语言文本和目标语言文本。可以生成所述源语言文本和所述目标语言文本的初始联合表示。可以识别所述源语言文本和所述目标语言文本中的多个词之间的关系。可以基于所述初始联合表示和所述关系来生成所述源语言文本和所述目标语言文本的联合表示。可以将所述联合表示至少映射为与所述目标语言文本相对应的目标语言表示。
[0004]应当注意,以上一个或多个方面包括以下详细描述以及权利要求中具体指出的特征。下面的说明书及附图详细提出了所述一个或多个方面的某些说明性特征。这些特征仅仅指示可以实施各个方面的原理的多种方式,并且本公开旨在包括所有这些方面和其等同变换。
附图说明
[0005]以下将结合附图描述所公开的多个方面,这些附图被提供用以说明而非限制所公开的多个方面。
[0006]图1是示出了根据本公开实施例的示例性源语言文本、目标语言文本及其之间的关系的示意图。
[0007]图2示出了根据本公开实施例的用于构建与源语言文本和目标语言文本相对应的图的示例性过程。
[0008]图3示出了根据本公开实施例的示例性图。
[0009]图4示出了根据本公开实施例的用于跨语言文本的表示学习的示例性过程。
[0010]图5示出了根据本公开实施例的用于更新先前联合表示的示例性过程。
[0011]图6示出了根据本公开实施例的用于获得当前注意力信息的示例性过程。
[0012]图7示出了根据本公开实施例的用于预训练表示获得模型的示例性过程。
[0013]图8示出了采用根据本公开实施例的屏蔽策略的示例性图。
[0014]图9是根据本公开实施例的用于跨语言文本的表示学习的示例性方法的流程图。
[0015]图10示出了根据本公开实施例的用于跨语言文本的表示学习的示例性装置。
[0016]图11示出了根据本公开实施例的用于跨语言文本的表示学习的示例性装置。
具体实施方式
[0017]现在将参考若干示例性实施方式来讨论本公开。应当理解,这些实施方式的讨论仅仅用于使得本领域技术人员能够更好地理解并从而实施本公开的实施例,而并非教导对本公开的范围的任何限制。
[0018]将诸如机器阅读理解任务、分类任务、问答任务等的NLU任务扩展到资源稀缺语言,例如德语、西班牙语、法语等,是期望的。然而,对于资源稀缺语言而言,只有较少甚至没有可靠的训练数据,这制约了机器学习模型在针对资源稀缺语言执行NLU任务时的表现。可以通过跨语言(cross

lingual)NLU来解决资源稀缺语言缺少训练数据的问题。跨语言NLU可以借助于机器翻译,将从资源丰富语言的文本习得的知识迁移给资源稀缺语言的文本,以帮助增强对资源稀缺语言的文本的理解,从而可以获得对资源稀缺语言的文本的更准确的表示,并进一步改进针对该资源稀缺语言的文本来执行NLU任务的表现。在本文中,可以将提供知识的资源丰富的语言称为源语言,并且可以将学习知识的资源稀缺的语言称为目标语言。相应地,可以将其语言为源语言的文本称为源语言文本,并且将其语言为目标语言的文本称为目标语言文本。存在一些现有的跨语言NLU方法。例如,可以将针对特定NLU任务的源语言的训练数据翻译成目标语言的训练数据,并且使用经翻译的目标语言的训练数据来训练机器学习模型。经训练的机器学习模型在被实际部署时,可以生成目标语言文本的表示,并使用所生成的表示来执行该特定NLU任务。
[0019]本公开的实施例提出了通过跨语言NLU来获得目标语言文本的表示的改进的方法。在本文中,表示可以指基于原始数据生成的、具有利于机器学习模型处理的形式的信息集合。可以获得源语言文本和目标语言文本,基于源语言文本和目标语言文本中的多个词之间的关系来生成源语言文本和目标语言文本的联合表示,并将联合表示映射为与源语言文本相对应的表示和/或与目标语言文本相对应的表示。在本文中,词可以广泛地指在不同语言中构成文本的基本语言单位,并且词之间的关系可以指词之间存在的基于预定准则的关联。源语言文本和目标语言文本中的多个词之间的关系可以包括例如源语言文本中的词与目标语言文本中的词之间的对齐(alignment)关系。具有对齐关系的两个词通常可以具有类似的语义含义。在生成源语言文本和目标语言文本的联合表示时考虑对齐关系可以有助于理解源语言文本和目标语言文本中的各个词的语义。另外,源语言文本和目标语言文本中的多个词之间的关系可以包括与各个文本的句法结构(syntax structure)有关的依存(dependency)关系,例如源语言文本中的多个词之间的依存关系以及目标语言文本中的多个词之间的依存关系。可以借助于依存关系来找出源语言文本与目标语言文本之间的正确的对齐关系。在生成源语言文本和目标语言文本的表示时考虑对齐关系和依存关系可以增强源语言文本和目标语言文本之间的知识迁移,以生成源语言文本和目标语言文本的更好的联合表示,从而获得与源语言文本相对应的更准确的表示和/或与目标语言文本相对应的更准确的表示。通过根据本公开实施例的方法,源语言文本的表示和目标语言文本的表示二者都可以得到改善,因此该方法也可以被称为跨语言文本的表示学习方法。源语言文本的表示和/或目标语言文本的表示可以被进一步用于执行各类NLU任务。在使用源语言
表示和/或目标语言表示执行任务时,更准确的表示可以有助于获得更准确的结果。
[0020]在一个方面,本公开的实施例提出了通过构建与源语言文本和目标语言文本相对应的图(graph)来对源语言文本和目标语言文本中的多个词以及这多个词之间的关系进行显式建模,从而可以更好地捕获这些词之间的语义关联。在图中,可以通过节点来代表源语言文本和目标语言文本中的词,并且通过节点之间的边来代表词之间的关系。节点之间的边可以与词之间的关系相对应。例如,当两个词之间的关系是对齐关系时,与这两个词相对应的两个节点之间的边可以是对齐边;并且当两个词之间的关系是依存关系时,与这两个词相对应的两个节点之间的边可以是依存边。在本文中,可以将具有与当前节点的边的节点称为该当前节点的邻本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于跨语言文本的表示学习的方法,包括:获得源语言文本和目标语言文本;生成所述源语言文本和所述目标语言文本的初始联合表示;识别所述源语言文本和所述目标语言文本中的多个词之间的关系;基于所述初始联合表示和所述关系来生成所述源语言文本和所述目标语言文本的联合表示;以及将所述联合表示至少映射为与所述目标语言文本相对应的目标语言表示。2.根据权利要求1所述的方法,其中,所述源语言文本是通过翻译所述目标语言文本而获得的,或者所述目标语言文本是通过翻译所述源语言文本而获得的。3.根据权利要求1所述的方法,其中,所述生成初始联合表示包括:生成所述源语言文本的初始源语言表示和所述目标语言文本的初始目标语言表示;以及将所述初始源语言表示和所述初始目标语言表示组合成所述初始联合表示。4.根据权利要求1所述的方法,其中,所述源语言文本包括一组源语言词,所述目标语言文本包括一组目标语言词,并且所述识别关系包括:识别所述一组源语言词与所述一组目标语言词之间的对齐关系;和/或识别所述一组源语言词之间的依存关系以及所述一组目标语言词之间的依存关系。5.根据权利要求1所述的方法,还包括:基于所述关系来构建与所述源语言文本和所述目标语言文本相对应的图,并且其中,所述生成联合表示包括:基于所述图来将所述初始联合表示更新为所述联合表示。6.根据权利要求5所述的方法,其中,所述构建图包括:将所述源语言文本中的一组源语言词和所述目标语言文本中的一组目标语言词设置成多个节点;基于所述关系来确定所述多个节点之间的一组边;以及将所述多个节点和所述一组边组合成所述图。7.根据权利要求6所述的方法,其中,所述确定一组边包括,对于所述多个节点中的每两个节点:确定与所述两个节点相对应的两个词之间是否存在关系;以及响应于确定所述两个词之间存在关系,确定所述两个节点之间的与所述关系相对应的边。8.根据权利要求5所述的方法,其中,所述初始联合表示是通过迭代地执行更新操作来更新的,所述更新操作包括:基于所述图和先前联合表示来获得当前注意力信息;以及基于所述当前注意力信息将所述先前联合表示更新为当前联合表示。9.根据权利要求8所述的方法,其中,所述获得当前注意力信息包括:基于所述图来计算与所述源语言文本和所述目标语言文本中的每两个词相对应的当前注意力分数,以获得一组当前注意力分数;以及
将所述一组当前注意力分数组合成所述当前注意力信息。10.根据权利要求9所述的方法,其中,所述计算当前注意力分数包括:至少基于所述图来获取所述两个词中的每个词的当前词表示;以及基于与所述两个词相对应的两个当前词表示来计算所述当前注意力分数。11.根据权利要求10所述的方法,其中,所述获取当前词表示包括:从所述先前联合表示中获得与所述词相对应的先前词表示;从所述图中识别与所述词相对应的节点的至少一个邻居节点;以及至少基于所述至少一个邻居...

【专利技术属性】
技术研发人员:寿林钧公明唐都钰桑志杰张星尧姜大昕
申请(专利权)人:微软技术许可有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1