跨语言文本的表示学习制造技术

技术编号：35051853 阅读：15 留言：0更新日期：2022-09-28 10:54

本公开提出了用于跨语言文本的表示学习的方法和装置。可以获得源语言文本和目标语言文本。可以生成所述源语言文本和所述目标语言文本的初始联合表示。可以识别所述源语言文本和所述目标语言文本中的多个词之间的关系。可以基于所述初始联合表示和所述关系来生成所述源语言文本和所述目标语言文本的联合表示。可以将所述联合表示至少映射为与所述目标语言文本相对应的目标语言表示。言文本相对应的目标语言表示。言文本相对应的目标语言表示。

全部详细技术资料下载

【技术实现步骤摘要】
跨语言文本的表示学习

技术介绍

[0001]自然语言理解(Natural Language Understanding，NLU)是使用自然语言与计算机进行通信的技术，其旨在使计算机能够理解和运用自然语言来实现人机之间的通信，从而代替人来执行与自然语言有关的各种任务，例如机器阅读理解任务、分类任务、问答任务等。可以通过经训练的机器学习模型来执行NLU任务。机器学习模型执行NLU任务的表现依赖于大量且可靠的训练数据。对于诸如英语之类的资源丰富语言而言，存在针对一些NLU任务的大规模的人类标注的训练数据。因此，这些NLU任务在资源丰富语言上具有出色表现。

技术实现思路

[0002]提供本
技术实现思路
以便介绍一组构思，这组构思将在以下的具体实施方式中做进一步描述。本
技术实现思路
并非旨在标识所保护主题的关键特征或必要特征，也不旨在用于限制所保护主题的范围。
[0003]本公开的实施例提出了用于跨语言文本的表示学习的方法和装置。可以获得源语言文本和目标语言文本。可以生成所述源语言文本和所述目标语言文本的初始联合表示。可以识别所述源语言文本和所述目标语言文本中的多个词之间的关系。可以基于所述初始联合表示和所述关系来生成所述源语言文本和所述目标语言文本的联合表示。可以将所述联合表示至少映射为与所述目标语言文本相对应的目标语言表示。
[0004]应当注意，以上一个或多个方面包括以下详细描述以及权利要求中具体指出的特征。下面的说明书及附图详细提出了所述一个或多个方面的某些说明性特征。这些特征仅仅指示可以实施各个方面的原理的多种方式...

【技术保护点】

【技术特征摘要】
1.一种用于跨语言文本的表示学习的方法，包括：获得源语言文本和目标语言文本；生成所述源语言文本和所述目标语言文本的初始联合表示；识别所述源语言文本和所述目标语言文本中的多个词之间的关系；基于所述初始联合表示和所述关系来生成所述源语言文本和所述目标语言文本的联合表示；以及将所述联合表示至少映射为与所述目标语言文本相对应的目标语言表示。2.根据权利要求1所述的方法，其中，所述源语言文本是通过翻译所述目标语言文本而获得的，或者所述目标语言文本是通过翻译所述源语言文本而获得的。3.根据权利要求1所述的方法，其中，所述生成初始联合表示包括：生成所述源语言文本的初始源语言表示和所述目标语言文本的初始目标语言表示；以及将所述初始源语言表示和所述初始目标语言表示组合成所述初始联合表示。4.根据权利要求1所述的方法，其中，所述源语言文本包括一组源语言词，所述目标语言文本包括一组目标语言词，并且所述识别关系包括：识别所述一组源语言词与所述一组目标语言词之间的对齐关系；和/或识别所述一组源语言词之间的依存关系以及所述一组目标语言词之间的依存关系。5.根据权利要求1所述的方法，还包括：基于所述关系来构建与所述源语言文本和所述目标语言文本相对应的图，并且其中，所述生成联合表示包括：基于所述图来将所述初始联合表示更新为所述联合表示。6.根据权利要求5所述的方法，其中，所述构建图包括：将所述源语言文本中的一组源语言词和所述目标语言文本中的一组目标语言词设置成多个节点；基于所述关系来确定所述多个节点之间的一组边；以及将所述多个节点和所述一组边组合成所述图。7.根据权利要求6所述的方法，其中，所述确定一组边包括，对于所述多个节点中的每两个节点：确定与所述两个节点相对应的两个词之间是否存在关系；以及响应于确定所述两个词之间存在关系，确定所述两个节点之间的与所述关系相对应的边。8.根据权利要求5所述的方法，其中，所述初始联合表示是通过迭代地执行更新操作来更新的，所述更新操作包括：基于所述图和先前联合表示来获得当前注意力信息；以及基于所述当前注意力信息将所述先前联合表示更新为当前联合表示。9.根据权利要求8所述的方法，其中，所述获得当前注意力信息包括：基于所述图来计算与所述源语言文本和所述目标语言文本中的每两个词相对应的当前注意力分数，以获得一组当前注意力分数；以及
将所述一组当前注意力分数组合成所述当前注意力信息。10.根据权利要求9所述的方法，其中，所述计算当前注意力分数包括：至少基于所述图来获取所述两个词中的每个词的当前词表示；以及基于与所述两个词相对应的两个当前词表示来计算所述当前注意力分数。11.根据权利要求10所述的方法，其中，所述获取当前词表示包括：从所述先前联合表示中获得与所述词相对应的先前词表示；从所述图中识别与所述词相对应的节点的至少一个邻居节点；以及至少基于所述至少一个邻居...

【专利技术属性】
技术研发人员：寿林钧，公明，唐都钰，桑志杰，张星尧，姜大昕，
申请(专利权)人：微软技术许可有限责任公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人