System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术属于机器翻译,具体地说,是涉及一种低资源语种的机器翻译模型训练方法、装置及介质。
技术介绍
1、全球一共有7000多种语种,而目前公开的机翻引擎只覆盖了其中几百种,剩下的绝大部分低资源语种虽然有不少的翻译需求,但是却没有可使用的机翻引擎,而训练低资源/零资源机器翻译引擎主要有以下几个难点:一是训练语料缺乏,一些低资源语种,如僧迦罗语,公开的单语数据有限,双语几乎没有;二是很多低资源语种不是单一的语种,其中混杂了大量的其他语种,比如俾路支语是阿拉伯地区的语言,包括了乌尔都语、波斯语、普什图语多种语种混杂;三现有的低资源机翻模型大多采用基于迁移学习全变量微调的方式,语言跨度大,微调成本高。
技术实现思路
1、本专利技术的目的在于提供一种低资源语种的机器翻译模型训练方法,以解决现有技术所存在的技术问题。
2、为了实现上述目的,本专利技术采取的技术方案如下:
3、一种低资源语种的机器翻译模型训练方法,包括以下步骤:
4、步骤s1:构建基于双语词典的伪平行语料;
5、步骤s2:基于语种混杂的数据增强:(21)单词级别的语种混杂数据增强;(22)句子级别的语种混杂数据增加;
6、步骤s3:基于语系的轻量化微调,输出低资源机器翻译模型:选择同语系的机翻模型作为基础模型,并根据下述方式进行模型微调:
7、步骤s3.1:对所有的预训练参数在新的语料数据上进行第一次微调,得到更新后的参数,通过以最大绝对差的参数选择策略,
8、
9、式中,表示要更新的参数量;
10、步骤s3.2:将所有的预训练参数重置为状态,并进行第二次微调,更新参数集,其他参数保持冻结,经过两次微调后得到第一轮微调的训练参数记为;
11、步骤s3.3:在训练参数的基础上,进行第二轮第一次微调,通过参数选择策略,选择新的参数集,然后将所有的训练参数重置为状态,并进行第二轮第二次微调,更新参数集,其他参数保持冻结,得到第二轮微调的训练参数记为;经过轮微调后,得到最终更新的参数集:
12、
13、式中,表示要更新的参数量,为模型微调的轮数;
14、步骤s4:基于步骤s1~步骤s3的设置,完成低资源语种的机器翻译模型训练。
15、优选的,还包括在第一次模型微调过程中,使用参数控制器用于控制不同语种下模型参数位置和数量的步骤:
16、
17、其中,表示要更新的参数量,表示参数控制器,为全连接函数,表示训练数据输入,表示语种信息。
18、优选的,在模型微调过程中,使用正则化来保证微调的结果。
19、优选的,所述步骤s1的具体方法如下:
20、步骤s1.1:针对低资源单语数据,对其中每个语言的每一个句子,使用双语词典,通过句子或者短语匹配生成新的译文,构造新的平行语料;针对低资源语对的双语数据,选择目标语言/源语言句子中的部分单词,将其替换为其他的目标语言/源语言单词,同时根据词表替换对应的目标语言/源语言中的单词,构造新的平行语料;
21、步骤s1.2:通过语料质量评估方法对平行语料进行过滤,得到伪平行语料。
22、优选的,所述(21)单词级别的语种混杂数据增强,包括:
23、步骤s21.1:针对具有语种混杂特征的语种,在伪平行语料中,随机选择一组单词,包括该语种单词以及其平行单词;
24、步骤s21.2:对于被选择的单词,随机指定一个该语种混杂的其他语种,并将该语种单词替换为其他语种单词,作为训练语料,进行数据增强。
25、优选的,所述(22)句子级别的语种混杂数据增加:将该语种混杂的其他语种及其伪平行语料一起作为训练语料,进行数据增强。
26、为了实现上述目的,本专利技术还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行,以实现所述的低资源语种的机器翻译模型训练方法。
27、为了实现上述目的,本专利技术还提供了一种低资源语种的机器翻译模型训练装置,包括:处理器和存储器;所述存储器用于存储计算机程序;所述处理器与所述存储器相连,用于执行所述存储器存储的计算机程序,以使得所述低资源语种的机器翻译模型训练装置执行所述的低资源语种的机器翻译模型训练方法。
28、与现有技术相比,本专利技术具备以下有益效果:
29、(1)本专利技术通过双语词典构造低资源伪平行语料,并且通过语种混杂的方式进行数据增强,解决了低资源训练语料缺乏的问题。
30、(2)本专利技术选择同语系机翻模型作为基础模型,并通过轻量化微调,减少微调参数量,低资源机翻训练语言跨度大、训练成本高的问题。
本文档来自技高网...【技术保护点】
1.一种低资源语种的机器翻译模型训练方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的低资源语种的机器翻译模型训练方法,其特征在于,还包括在第一次模型微调过程中,使用参数控制器用于控制不同语种下模型参数位置和数量的步骤:
3.根据权利要求2所述的低资源语种的机器翻译模型训练方法,其特征在于,在模型微调过程中,使用正则化来保证微调的结果。
4.根据权利要求3所述的低资源语种的机器翻译模型训练方法,其特征在于,所述步骤S1的具体方法如下:
5.根据权利要求4所述的低资源语种的机器翻译模型训练方法,其特征在于,所述(21)单词级别的语种混杂数据增强,包括:
6.根据权利要求5所述的低资源语种的机器翻译模型训练方法,其特征在于,所述(22)句子级别的语种混杂数据增加:将该语种混杂的其他语种及其伪平行语料一起作为训练语料,进行数据增强。
7.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行,以实现如权利要求1~6中任一项所述的低资源语种的机器翻译模型训练方法。
8
...【技术特征摘要】
1.一种低资源语种的机器翻译模型训练方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的低资源语种的机器翻译模型训练方法,其特征在于,还包括在第一次模型微调过程中,使用参数控制器用于控制不同语种下模型参数位置和数量的步骤:
3.根据权利要求2所述的低资源语种的机器翻译模型训练方法,其特征在于,在模型微调过程中,使用正则化来保证微调的结果。
4.根据权利要求3所述的低资源语种的机器翻译模型训练方法,其特征在于,所述步骤s1的具体方法如下:
5.根据权利要求4所述的低资源语种的机器翻译模型训练方法,其特征在于,所述(21)单词级别的语种混杂数据增强,包括:
6.根据权...
【专利技术属性】
技术研发人员:朱宪超,骆敏,霍展羽,李晶,
申请(专利权)人:四川语言桥信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。