System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 用于自然语言处理中的跨语种迁移的系统和方法技术方案_技高网
当前位置: 首页 > 专利查询>硕动力公司专利>正文

用于自然语言处理中的跨语种迁移的系统和方法技术方案

技术编号:41596983 阅读:42 留言:0更新日期:2024-06-07 00:07
本文描述的实施例提供了一种跨语种语句对齐框架,其仅在资源丰富的语言对上训练。为了获得准确的对齐器,使用预训练的多语种语言模型,并且在来自资源丰富的语言对的并行数据上训练分类器。然后,经过训练的分类器可以用于资源匮乏的语言的跨语种迁移。

【技术实现步骤摘要】
【国外来华专利技术】

本文公开一般涉及用于自然语言处理(nlp)的机器学习模型和神经网络,并且更具体地,涉及用于nlp中的资源匮乏的语句检索的具有一个资源丰富的语言对的零样本(zero-shot)跨语种迁移。


技术介绍

1、跨语种语句对齐是指将源语言的原始语句与目标语言的翻译的语句对齐。例如,由于源语言和目标语言的不同语法规则,原始语句中的单词与翻译的语句中的单词对齐可能具有不同的顺序,因此不同语言中但具有相同含义的单词将被对齐。跨语种语句对齐可用于各种应用,包括(1)挖掘机器翻译系统的并行语料库;(2)过滤现有并行语料库,以提高其质量;(3)在两种情况下估计翻译质量(质量估计任务),例如,一种用于评估已经生成的翻译;或用于在潜在候选中做出决定。然而,为了训练跨语种语句对齐模型,不同语言源的训练数据可能是极其不同的。例如,在诸如英语、西班牙语、法语等流行语言中经常有更丰富的训练数据集,但是对于诸如蒙古语、马来语等不太流行的语言却缺乏资源。


技术实现思路

【技术保护点】

1.一种跨语种语句对齐的方法,所述方法包括:

2.根据权利要求1所述的方法,还包括:

3.根据权利要求2所述的方法,其中所述两个语句之间的所述成对令牌级相似度通过以下计算:

4.根据权利要求3所述的方法,还包括:

5.根据权利要求4所述的方法,还包括:

6.根据权利要求5所述的方法,还包括:

7.根据权利要求1所述的方法,其中使用每个正输入对或负输入对的经计算的成对令牌级相似度作为来自所述预训练的多语种模型的输出logit,将所述损失目标计算为对比损失。

8.根据权利要求1所述的方法,其中所述源语言和所述目标语言属于一组来源丰富的语言。

9.根据权利要求1所述的方法,其中所述另一种语言是来源稀有的语言,并且其中所述预训练的多语种模型不在所述来源稀有的语言的任何语言样本上训练。

10.根据权利要求1所述的方法,其中所述源语言和所述目标语言都不是英语。

11.一种跨语种语句对齐的系统,所述系统包括:

12.根据权利要求11所述的系统,其中所述操作还包括:

13.根据权利要求12所述的系统,其中所述两个语句之间的所述成对令牌级相似度通过以下计算:

14.根据权利要求11所述的系统,其中使用每个正输入对或负输入对的经计算的成对令牌级相似度作为来自所述预训练的多语种模型的输出logit,将所述损失目标计算为对比损失。

15.根据权利要求11所述的系统,其中所述源语言和所述目标语言属于一组来源丰富的语言组。

16.根据权利要求1所述的系统,其中所述另一种语言是来源稀有的语言,并且其中所述预训练的多语种模型不在所述来源稀有的语言的任何语言样本上训练。

17.根据权利要求11所述的系统,其中所述源语言和所述目标语言都不是英语。

18.一种存储用于跨语种语句对齐的多个处理器可执行指令的非瞬态处理器可读存储介质,所述指令由处理器执行以执行包括如下的操作:

19.根据权利要求18所述的非瞬态处理器可读存储介质,其中所述操作还包括:

20.根据权利要求18所述的非瞬态处理器可读存储介质,其中所述源语言和所述目标语言属于一组来源丰富的语言,

...

【技术特征摘要】
【国外来华专利技术】

1.一种跨语种语句对齐的方法,所述方法包括:

2.根据权利要求1所述的方法,还包括:

3.根据权利要求2所述的方法,其中所述两个语句之间的所述成对令牌级相似度通过以下计算:

4.根据权利要求3所述的方法,还包括:

5.根据权利要求4所述的方法,还包括:

6.根据权利要求5所述的方法,还包括:

7.根据权利要求1所述的方法,其中使用每个正输入对或负输入对的经计算的成对令牌级相似度作为来自所述预训练的多语种模型的输出logit,将所述损失目标计算为对比损失。

8.根据权利要求1所述的方法,其中所述源语言和所述目标语言属于一组来源丰富的语言。

9.根据权利要求1所述的方法,其中所述另一种语言是来源稀有的语言,并且其中所述预训练的多语种模型不在所述来源稀有的语言的任何语言样本上训练。

10.根据权利要求1所述的方法,其中所述源语言和所述目标语言都不是英语。

11.一种跨语种语句对齐的系统,所述系统包括:

12.根据权利要求11所述的系统,其中所述操作...

【专利技术属性】
技术研发人员:T·牛桥本和真周英波熊蔡明
申请(专利权)人:硕动力公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1