翻译训练数据生成方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:24613795 阅读:34 留言:0更新日期:2020-06-24 01:17
本发明专利技术实施例公开了一种翻译训练数据生成方法、装置、计算机设备及存储介质。所述方法包括:对预先训练的至少一个翻译模型进行翻译质量评估,确定满足翻译质量低条件的目标数据类型,各所述翻译模型通过初始训练语料训练得到;获取与所述目标数据类型匹配的目标训练语料,以对各所述翻译模型继续训练,所述目标训练语料与所述初始训练语料不同。本发明专利技术实施例可以提高翻译模型的翻译质量。

Translation training data generation method, device, computer equipment and storage medium

【技术实现步骤摘要】
翻译训练数据生成方法、装置、计算机设备及存储介质
本专利技术实施例涉及翻译领域,尤其涉及一种翻译训练数据生成方法、装置、计算机设备及存储介质。
技术介绍
目前机器翻译多用预先训练的翻译模型进行自动翻译,为了提高模型的翻译质量,需要大量的平行语料进行模型训练。为了构造大量的平行语料,可以通过反向翻译技术,即用平行语料训练正向翻译模型和反向翻译模型,然后用翻译模型翻译源语言和目标语言的单语语料,并将得到的伪平行语料和原有平行语料混合在一起,用以训练新的正向翻译模型和反向翻译模型。在运用反向翻译技术的时候往往存在一个现象,即加入了大量单语语料做反向翻译,结果训练得到的翻译模型在测试集上的表现反而更差了或者提升不明显。
技术实现思路
本专利技术实施例提供一种翻译训练数据生成方法、装置、计算机设备及存储介质,可以提高翻译模型的翻译质量。第一方面,本专利技术实施例提供了一种翻译训练数据生成方法,包括:对预先训练的至少一个翻译模型进行翻译质量评估,确定满足翻译质量低条件的目标数据类型,各所述翻译模型通过初始训练语料训练得到;获取与所述目标数据类型匹配的目标训练语料,以对各所述翻译模型继续训练,所述目标训练语料与所述初始训练语料不同。第二方面,本专利技术实施例还提供了一种翻译训练数据生成装置,包括:目标数据类型确定模块,用于对预先训练的至少一个翻译模型进行翻译质量评估,确定满足翻译质量低条件的目标数据类型,各所述翻译模型通过初始训练语料训练得到;目标训练语料生成模块,用于获取与所述目标数据类型匹配的目标训练语料,以对各所述翻译模型继续训练,所述目标训练语料与所述初始训练语料不同。第三方面,本专利技术实施例还提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如本专利技术实施例中任一所述的翻译训练数据生成方法。第四方面,本专利技术实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本专利技术实施例中任一所述的翻译训练数据生成方法。本专利技术实施例通过对翻译模型进行翻译质量评估,确定翻译质量低的目标数据类型,获取翻译质量低的目标数据类型的数据生成目标训练语料,对翻译模型继续训练,可以提高翻译模型的翻译质量,解决了现有技术中增加语料训练模型,模型的翻译质量难以提高的问题,实现提高训练样本的代表性,以继续对模型进行训练,提高模型的翻译质量。附图说明图1是本专利技术实施例一中的一种翻译训练数据生成方法的流程图;图2是本专利技术实施例二中的一种翻译训练数据生成方法的流程图;图3是本专利技术实施例三中的一种翻译训练数据生成装置的结构示意图;图4是本专利技术实施例四中的一种计算机设备的结构示意图。具体实施方式下面结合附图和实施例对本专利技术作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本专利技术,而非对本专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本专利技术相关的部分而非全部结构。实施例一图1为本专利技术实施例一中的一种翻译训练数据生成方法的流程图的示意图,本实施例可适用于生成翻译训练数据,以对翻译模型进行训练的情况,该方法可以由本专利技术实施例提供的翻译训练数据生成装置来执行,该装置可采用软件和/或硬件的方式实现,并一般可集成计算机设备中。如图1所示,本实施例的方法具体包括:S110,对预先训练的至少一个翻译模型进行翻译质量评估,确定满足翻译质量低条件的目标数据类型,各所述翻译模型通过初始训练语料训练得到。翻译模型用于将源语种的数据翻译成目标语种的数据,其中,数据包括:文本数据和/或语音数据,具体的,翻译模型可以是Transformer模型,还可以是神经网络模型等,对此,本专利技术实施例不作具体限制。其中,Transformer模型的结构包括基于注意力(Attention)机制形成的编码解码(Encoder-Decoder)结构。翻译质量评估是指评估翻译模型将一条源语种数据翻译成目标语种的数据的翻译质量,其中,翻译质量可以是指机器翻译与专业人工翻译的相似程度,通常机器翻译结果越接近专业人工翻译结果,该机器翻译翻译质量越高;机器翻译结果越远离专业人工翻译结果,该机器翻译翻译质量越低。翻译质量低条件用于判断翻译模型翻译质量低的目标数据类型,示例性的,翻译质量低条件用于根据翻译模型翻译每条条数据的翻译质量评估结果和对应的数据类型,判断数据类型对应的翻译质量,并从中确定质量低的目标数据类型。目标数据类型为翻译模型翻译质量低的数据类型,示例性的,数据类型包括下述至少一项:文学、军事、医疗、旅游以及其他等。初始训练语料用于对翻译模型进行训练。翻译模型可以包括下述至少一项:正向翻译模型、反向翻译模型和N语种到M语种翻译模型等。通常,正向翻译模型为将源语种A翻译成目标语种B的模型,而反向翻译模型为将源语种B翻译成目标语种A的模型,也即正向翻译模型和反向翻译模型为一对一的翻译模型。而N语种到M语种翻译模型是指,可以将任意一种源语种数据翻译成任意一种目标语种数据,也即N语种到M语种翻译模型可以同时实现正向翻译模型和反向翻译模型的翻译功能,即可以实现将源语种A翻译成目标语种B,也可以实现将源语种B翻译成目标语种A。示例性的额,语种A为中文,语种B为英文。可选的,所述对预先训练的至少一个翻译模型进行翻译质量评估,确定满足翻译质量低条件的目标数据类型,包括:获取多个测试集,不同测试集中数据的数据类型不同;分别根据测试集对预先训练的至少一个翻译模型进行翻译质量评估;根据各所述测试集的翻译质量评估结果,以及各所述测试集对应的数据类型,确定计翻译质量评估结果低于设定评估阈值的数据类型,作为满足翻译质量低条件的目标数据类型。其中,测试集用于评估翻译模型的翻译质量,可以包括翻译模型对应的平行语料。测试集包括至少两个语种的数据,测试集的数量为至少两个。不同测试集中数据的数据类型不同,一个测试集对应一个数据类型。翻译质量评估结果用于判断翻译模型的翻译质量。需要说明的是,翻译质量评估结果可以是指翻译模型翻译测试集中任意一条数据(如一个词、一个句或一个段落)的翻译质量。具体的,根据测试集进行翻译质量评估可以是:选择测试集中任意一条数据,该条数据实际是一个数据对,并选择一个翻译模型,从该数据对中的源语种的数据输入到该翻译模型中,得到该翻译模型中输出的译文,与该数据对中的目标语种的数据进行相似度计算,得到该翻译模型针对该条数据的质量评估结果,其中,不同翻译模型的源语种和目标语种不同。统计该翻译模型针对该测试集每条数据的质量评估结果,确定该翻译模型针对该测试集的翻译质量评估结果,例如,可以计算针对该测试集中每条数据的质量评估结果的平均值,作为针对该测试集的翻译质量评估结果。其中,一条数据可以包括一个数据对,具体是源语种的数据和目标语种的数据,每个语种的数据可以对应包括多个不同表达方式且语义相同的本文档来自技高网...

【技术保护点】
1.一种翻译训练数据生成方法,其特征在于,包括:/n对预先训练的至少一个翻译模型进行翻译质量评估,确定满足翻译质量低条件的目标数据类型,各所述翻译模型通过初始训练语料训练得到;/n获取与所述目标数据类型匹配的目标训练语料,以对各所述翻译模型继续训练,所述目标训练语料与所述初始训练语料不同。/n

【技术特征摘要】
1.一种翻译训练数据生成方法,其特征在于,包括:
对预先训练的至少一个翻译模型进行翻译质量评估,确定满足翻译质量低条件的目标数据类型,各所述翻译模型通过初始训练语料训练得到;
获取与所述目标数据类型匹配的目标训练语料,以对各所述翻译模型继续训练,所述目标训练语料与所述初始训练语料不同。


2.根据权利要求1所述的方法,其特征在于,所述至少一个翻译模型包括正向翻译模型和反向翻译模型;
所述获取与所述目标数据类型匹配的目标训练语料,包括:
获取所述目标数据类型匹配的单语数据;
将所述单语数据输入到所述翻译模型中,得到输出的翻译数据,并结合所述单语数据,形成目标训练语料。


3.根据权利要求1所述的方法,其特征在于,所述对预先训练的至少一个翻译模型进行翻译质量评估,确定满足翻译质量低条件的目标数据类型,包括:
获取多个测试集,不同测试集中数据的数据类型不同;
分别根据测试集对预先训练的至少一个翻译模型进行翻译质量评估;
根据各所述测试集的翻译质量评估结果,以及各所述测试集对应的数据类型,确定计翻译质量评估结果低于设定评估阈值的数据类型,作为满足翻译质量低条件的目标数据类型。


4.根据权利要求3所述的方法,其特征在于,在获取多个测试集之前,还包括:
获取测试数据;
将所述测试数据中的各条数据分别输入到预先训练的分类模型中,得到所述分类模型输出的各条数据匹配的数据类型;
按照数据类型对测试数据进行分类,形成不同数据类型的测试集。


5.根据权利要求1所述的方法,其特征在于,在对预先训练的至少一个翻译模型进行翻...

【专利技术属性】
技术研发人员:俞春龙
申请(专利权)人:苏州交驰人工智能研究院有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1