一种多语言翻译模型的确定方法和相关装置制造方法及图纸

技术编号:33955769 阅读:51 留言:0更新日期:2022-06-29 23:28
本申请公开了一种多语言翻译模型的确定方法和相关装置,可应用于人工智能、自然语言处理、机器学习等各种场景。通过采样参数确定n个训练任务对应的翻译方向,并且基于对应的翻译方向对训练语料进行采样,获得n个样本集,n个样本集与n个训练任务一一对应,n个样本集包括的语料数量均相同且同一个样本集中的训练语料属于同一个翻译方向,可以避免忽略训练语料数量较少的翻译方向。将n个样本集中训练语料的源语种输入初始多语言翻译模型,根据对应的目标语种语料获得与n个样本集一一对应的n个损失函数,然后基于n个损失函数确定总损失函数,并根据该总损失函数训练初始多语言翻译模型,提升模型泛化程度,保证在不同翻译方向下的翻译精度。下的翻译精度。下的翻译精度。

A method for determining multilingual translation model and related devices

【技术实现步骤摘要】
一种多语言翻译模型的确定方法和相关装置


[0001]本申请涉及机器学习领域,特别是涉及一种多语言翻译模型的确定方法和相关装置。

技术介绍

[0002]随着机器翻译技术的广泛应用,机器翻译逐渐扩展到多语言的机器翻译中。多语言的机器翻译是指同一个模型能够支持多种语言之间的翻译,从而可以满足用户对于多个翻译方向的需求。
[0003]而对于多语言的机器翻译模型(多语言翻译模型)的训练需要多个翻译方向的训练语料。通常情况下,多个翻译方向的训练语料的数量并不均衡,为了避免多语言翻译模型的训练过程中过度关注训练语料数量较多的翻译方向而忽略训练语料数量较少的翻译方向,影响训练精度,影响训练出的多语言翻译模型翻译的准确性。通常情况下,可以对于训练语料数量较少的翻译方向进行过采样以增加训练语料数量较少的翻译方向的占比,避免对于模型的精度造成影响。但是过采样可能影响该多语言翻译模型的训练时的空间占用。
[0004]因此,亟需一种精度较高的多语言翻译模型的确定方法。

技术实现思路

[0005]为了解决上述技术问题,本申请提供了一种多语言翻译模型的确定方法和相关装置,无需对于训练语料较少的翻译方向的训练语料进行过采样,降低模型的占用空间。
[0006]本申请实施例公开了如下技术方案:
[0007]一方面,本申请提供了一种多语言翻译模型的确定方法,所述方法包括:
[0008]获取包括N个翻译方向下的训练语料,所述训练语料包括所对应翻译方向的源语种语料和目标语种语料,N&gt;1;<br/>[0009]根据所述训练语料分别属于所述N个翻译方向下的语料数量,确定所述N个翻译方向分别对应的采样参数;
[0010]通过所述采样参数确定n个训练任务对应的翻译方向,并基于所对应翻译方向对所述训练语料进行采样,得到n个样本集,所述n个样本集与所述n个训练任务一一对应,所述n个样本集包括的语料数量相同,针对所述n个样本集中的目标样本集,所述目标样本集中的训练语料均属于所述目标样本集对应的翻译方向;
[0011]将所述n个样本集中训练语料的源语种语料输入初始多语言翻译模型,根据对应的所述目标语种语料得到n个损失函数,所述n个损失函数与所述n个样本集一一对应;
[0012]基于所述n个损失函数确定总损失函数,并根据所述总损失函数训练所述初始多语言翻译模型,得到用于所述N个翻译方向翻译的多语言翻译模型。
[0013]另一方面,本申请提供了一种多语言翻译模型的确定装置,所述装置包括:
[0014]获取模块,用于获取包括N个翻译方向下的训练语料,所述训练语料包括所对应翻译方向的源语种语料和目标语种语料,N&gt;1;
[0015]确定模块,用于根据所述训练语料分别属于所述N个翻译方向下的语料数量,确定所述N个翻译方向分别对应的采样参数;
[0016]采样模块,用于通过所述采样参数确定n个训练任务对应的翻译方向,并基于所对应翻译方向对所述训练语料进行采样,得到n个样本集,所述n个样本集与所述n个训练任务一一对应,所述n个样本集包括的语料数量相同,针对所述n个样本集中的目标样本集,所述目标样本集中的训练语料均属于所述目标样本集对应的翻译方向;
[0017]训练模块,用于将所述n个样本集中训练语料的源语种语料输入初始多语言翻译模型,根据对应的所述目标语种语料得到n个损失函数,所述n个损失函数与所述n个样本集一一对应;
[0018]所述训练模块,还用于基于所述n个损失函数确定总损失函数,并根据所述总损失函数训练所述初始多语言翻译模型,得到用于所述N个翻译方向翻译的多语言翻译模型。
[0019]又一方面,本申请实施例提供了一种计算机设备,所述计算机设备包括处理器以及存储器:
[0020]所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
[0021]所述处理器用于根据所述程序代码中的指令执行以上方面所述的方法。
[0022]又一方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质用于存储计算机程序,所述计算机程序用于执行以上方面所述的方法。
[0023]又一方面,本申请实施例提供了一种包括指令的计算机程序产品,当其在计算机上运行时,使得所述计算机执行以上方面所述的方法。
[0024]由上述技术方案可以看出,通过获取包括N个翻译方向下的训练语料,根据训练语料分别属于N个翻译方向下的语料数量,可以确定N个翻译方向分别对应的采样参数。通过该采样参数可以确定n个训练任务对应的翻译方向,并且基于对应的翻译方向对训练语料进行采样,可以获得n个样本集。由于n个样本集与n个训练任务一一对应,n个样本集包括的语料数量均相同且同一个样本集中的训练语料属于同一个翻译方向,使得当训练语料较少的翻译方向被确定与样本集对应的时,可以被采样到数量相对较多的训练语料用于训练,因此通过该n个样本集进行训练可以避免过度关注语料数量较多的方向而忽略训练语料数量较少的翻译方向。将n个样本集中训练语料的源语种输入初始多语言翻译模型,根据对应的目标语种语料获得与n个样本集一一对应的n个损失函数,然后基于n个损失函数确定总损失函数,并根据该总损失函数训练初始多语言翻译模型,使得通过多任务学习的方式,每次模型训练时涉及的训练语料的翻译方向相对较多,且每个翻译方向的训练语料数量不会太少,多样性的训练语料能够有效提升模型泛化程度,保证训练得到的多语言翻译模型在不同翻译方向下的翻译精度。而且无需对训练语料进行过采样,提高了存储资源的利用率。
附图说明
[0025]为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0026]图1为本申请实施例提供的一种多语言翻译模型的确定方法的场景图;
[0027]图2为本申请实施例提供的一种多语言翻译模型的确定方法的流程图;
[0028]图3为本申请实施例提供的一种多语言翻译模型的结构的示意图;
[0029]图4为本申请实施例提供的一种多语言翻译模型的训练过程示意图;
[0030]图5为本申请实施例提供的一种多语言翻译模型的训练装置的结构图;
[0031]图6为本申请实施例提供的一种终端设备的结构图;
[0032]图7为本申请实施例提供的一种服务器的结构图。
具体实施方式
[0033]下面结合附图,对本申请的实施例进行描述。
[0034]在对于多语言翻译模型的训练过程中,可能存在不同翻译方向的语料数量并不均衡的情况,导致根据该语料训练所获得的多语言翻译模型可能过度关注语料数量较多的翻译方向而忽略语料数量较少的翻译方向,影响多语言翻译模型的在不同翻译方向下的翻译能力,影响多语言翻译模型的翻译精度。
[003本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种多语言翻译模型的确定方法,其特征在于,所述方法包括:获取包括N个翻译方向下的训练语料,所述训练语料包括所对应翻译方向的源语种语料和目标语种语料,N&gt;1;根据所述训练语料分别属于所述N个翻译方向下的语料数量,确定所述N个翻译方向分别对应的采样参数;通过所述采样参数确定n个训练任务对应的翻译方向,并基于所对应翻译方向对所述训练语料进行采样,得到n个样本集,所述n个样本集与所述n个训练任务一一对应,所述n个样本集包括的语料数量相同,针对所述n个样本集中的目标样本集,所述目标样本集中的训练语料均属于所述目标样本集对应的翻译方向;将所述n个样本集中训练语料的源语种语料输入初始多语言翻译模型,根据对应的所述目标语种语料得到n个损失函数,所述n个损失函数与所述n个样本集一一对应;基于所述n个损失函数确定总损失函数,并根据所述总损失函数训练所述初始多语言翻译模型,得到用于所述N个翻译方向翻译的多语言翻译模型。2.根据权利要求1所述的方法,其特征在于,所述基于所述n个损失函数确定总损失函数,并根据所述总损失函数训练所述初始多语言翻译模型,得到用于所述N个翻译方向的多语言翻译模型,包括:基于所述n个损失函数确定所述n个样本集对应的n个梯度;根据所述n个梯度确定总损失函数,并根据所述总损失函数训练所述初始多语言翻译模型,得到用于所述N个翻译方向的多语言翻译模型。3.根据权利要求2所述的方法,其特征在于,所述基于所述n个损失函数确定所述n个样本集对应的n个梯度,包括:通过在所述初始多语言翻译模型中反向传播所述n个损失函数,确定所述n个样本集对应的n个梯度。4.根据权利要求1所述的方法,其特征在于,所述样本集所包括的语料数量是根据训练所述多语言翻译模型的设备缓存确定的。5.根据权利要求1所述的方法,其特征在于,所述N个翻译方向中任意两个翻译方向下的语料数量差值的最大值大于预设差值阈值。6.根据权利要求1所述的方法,其特征在于,所述根据所述训练语料分别属于所述N个翻译方向下的语料数量,确定所述N个翻译方向...

【专利技术属性】
技术研发人员:季佰军胡博杰鞠奇
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1