一种基于记忆库的机器翻译模型训练方法技术

技术编号:33537003 阅读:25 留言:0更新日期:2022-05-19 02:20
本发明专利技术公开了一种基于记忆库的机器翻译模型训练方法,包括如下步骤:S1、基于目标语言检索生成三元组训练数据;S2、基于去噪语言模型生成三元组训练数据;S3、基于生成的三元组训练数据训练机器翻译模型。本发明专利技术先利用基于去噪语言模型生成三元组训练数据训练得到机器翻译预训练模型,再利用基于目标语言检索生成三元组训练数据去微调得到机器翻译训练模型,保证机器翻译训练模型的精确性,提高工作效率和翻译质量。效率和翻译质量。效率和翻译质量。

【技术实现步骤摘要】
一种基于记忆库的机器翻译模型训练方法


[0001]本专利技术属于机器翻译
,具体是一种基于记忆库的机器翻译模型训练方法。

技术介绍

[0002]基于记忆库的机器翻译技术是指在将待翻译的源语言生成目标语言的过程中,可以利用到之前翻译类似源语言句时形成的翻译结果,训练翻译模型,为当前翻译提供更加准确的信息,从而进一步提升机器翻译的质量。
[0003]在训练基于记忆库的机器翻译模型时,一般都需要基本单元为(s
a
,t
a
,s
a
,t
b
)这样的四元组数据,其中s
a
为源语言句子,t
a
为源语言句子对应的目标语言句子,s
b
为和源语言句子s
a
相似的记忆库源语言句子,t
a
为记忆库源语言句子对应的记忆库目标语言句子。但在实际中,s
b
一般只起到和s
a
匹配计算相似度的作用,在训练中一般只用到t
b
,因此实际上训练基于记忆库的机器翻译模型是需要大量的(s
a
,t
a
,t
b
)这样的三元组数据。而目前这样三元组一般都是在双语记忆库语料库中通过源语言检索匹配得到,检索的结果一般较少,而且相似度也不高,因此用于训练记忆库机器翻译的数据较为稀疏,从而无法保证机器翻译训练模型的精确性,影响机器翻译的高质量翻译。

技术实现思路

[0004]为了解决上述存在的技术问题,本专利技术提供一种基于记忆库的机器翻译模型训练方法,在无需利用双语记忆库语料库的情况下,构造大量的三元组训练数据,从而基于该数据训练得到高质量的记忆库机器翻译模型。
[0005]本专利技术所采取的技术方案是:
[0006]一种基于记忆库的机器翻译模型训练方法,包括如下步骤:
[0007]S1、基于目标语言检索生成三元组训练数据:
[0008]S1.1、获取平行语料的目标单语数据,所述目标单语数据中的任一句子记作T
i

[0009]S1.2、选取平行语料中的某个句对(S
a
,T
a
),计算出目标语言句子T
a
和所述目标单语数据中的每个句子T
i
的相似度sim(T
a
,T
i
),其中相似度sim(T
a
,T
i
)计算公式如下所示:
[0010][0011]公式(1)中,T
a
为平行语料中当前待匹配的目标语言句子,T
i
是目标单语数据中的任一个句子,dist(T
a
,T
i
)表示T
a
和T
i
的编辑距离,max(T
a
,T
i
)表示T
a
和T
i
两个句子长度的较大值,sim(T
a
,T
i
)表示T
a
和T
i
的相似度;
[0012]S1.3、设定阈值,将目标单语数据中相似度最大的句子与阈值作比较:若相似度大于阈值,则该目标单语数据中相似度最大的句子与平行语料中的一个句对(S
a
,T
a
)组合形成(S
a
,T
a
,T
b
);
[0013]S1.4、对平行语料中的其余句对按照S1.2和S1.3步骤组合,得到基于目标语言检
索的三元组训练数据;
[0014]S2、基于去噪语言模型生成三元组训练数据:
[0015]S2.1、获取目标单语数据中的任一句子T
x

[0016]S2.2、将任一句子T
x
进行加噪,得到加噪后的句子记作T
y

[0017]S2.3、将加噪前的任一句子T
x
和加噪后的句子T
y
组合成(T
x
,T
y
);
[0018]S2.4、将目标单语数据的其余句子按照S2.2和S2.3步骤加噪、组合,构成去噪语言训练数据组;
[0019]S2.5、利用去噪语言训练数据组训练一个去噪语言模型LM,其中T
y
为模型输入,T
x
为模型标签;
[0020]S2.6、对平行语料中某个句对(S
a
,T
a
)的目标语言句子T
a
按照步骤S2.2进行加噪,得到加噪后的句子T
ay

[0021]S27、将加噪后的句子T
ay
作为训练得到的去噪语言模型LM的输入,利用去噪语言模型LM输出得到对应的预测句子,记作T
ax

[0022]S2.8、将预测句子T
ax
和所述句对(S
a
,T
a
)组合,形成(S
a
,T
a
,T
ax
);
[0023]S2.9、对平行语料中的其余句对按照S2.6、S2.7和S2.8步骤加噪、去噪,得到基于去噪语言模型生成的三元组训练数据;
[0024]S3、基于生成的三元组训练数据训练机器翻译模型,包括:
[0025]S3.1、利用基于去噪语言模型生成的三元组训练数据(S
a
,T
a
,T
ax
)中的S
a
和T
ax
拼接成一个句子S
in

[0026]S3.2、利用S
in
和T
a
训练一个机器翻译预训练模型MT
pre
,其中S
in
为模型输入,T
a
作为模型标签;
[0027]S3.3、利用目标语言检索生成三元组训练数据(S
a
,T
a
,T
b
)中的S
a
和T
b
拼接成一个句子S
im

[0028]S3.4、将S
im
为输入,T
a
作为标签,继续微调机器翻译预训练模型MT
pre
,得到最终基于记忆库的机器翻译模型MT。
[0029]进一步地,所述S2.2步骤中加噪操作具体为:随机将某个词替换为<mask>或在某个词之间插入<mask>。
[0030]进一步地,所述S2.2步骤中加噪操作具体为:随机将某个词替换为<mask&am本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于记忆库的机器翻译模型训练方法,其特征在于,包括如下步骤:S1、基于目标语言检索生成三元组训练数据:S1.1、获取平行语料的目标单语数据,所述目标单语数据中的任一句子记作T
i
;S1.2、选取平行语料中的某个句对(S
a
,T
a
),计算出目标语言句子T
a
和所述目标单语数据中的每个句子T
i
的相似度sim(T
a
,T
i
),其中相似度sim(T
a
,T
i
)计算公式如下所示:公式(1)中,T
a
为平行语料中当前待匹配的目标语言句子,T
i
是目标单语数据中的任一个句子,dist(T
a
,T
i
)表示T
a
和T
i
的编辑距离,max(|T
a
|,|T
i
|)表示T
a
和T
i
两个句子长度的较大值,sim(T
a
,T
i
)表示T
a
和T
i
的相似度;S1.3、设定阈值,将目标单语数据中相似度最大的句子与阈值作比较:若相似度大于阈值,则该目标单语数据中相似度最大的句子与平行语料中的一个句对(S
a
,T
a
)组合形成(S
a
,T
a
,T
b
);S1.4、对平行语料中的其余句对按照S1.2和S1.3步骤组合,得到基于目标语言检索的三元组训练数据;S2、基于去噪语言模型生成三元组训练数据:S2.1、获取目标单语数据中的任一句子T
x
;S2.2、将任一句子T
x
进行加噪,得到加噪后的句子记作T
y
;S2.3、将加噪前的任一句子T
x
和加噪后的句子T
y
组合成(T
x
,T
y
);S2.4、将目标单语数据的其余句子按照S2.2和S2.3步骤加噪、组合,构成去噪语言训练数据组;S2.5、利用去噪语言训练数据组训练一个去噪语言模型LM,其中T
y
为模型输入,T
x<...

【专利技术属性】
技术研发人员:张文博
申请(专利权)人:语联网武汉信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1