【技术实现步骤摘要】
一种基于记忆库的机器翻译模型训练方法
[0001]本专利技术属于机器翻译
,具体是一种基于记忆库的机器翻译模型训练方法。
技术介绍
[0002]基于记忆库的机器翻译技术是指在将待翻译的源语言生成目标语言的过程中,可以利用到之前翻译类似源语言句时形成的翻译结果,训练翻译模型,为当前翻译提供更加准确的信息,从而进一步提升机器翻译的质量。
[0003]在训练基于记忆库的机器翻译模型时,一般都需要基本单元为(s
a
,t
a
,s
a
,t
b
)这样的四元组数据,其中s
a
为源语言句子,t
a
为源语言句子对应的目标语言句子,s
b
为和源语言句子s
a
相似的记忆库源语言句子,t
a
为记忆库源语言句子对应的记忆库目标语言句子。但在实际中,s
b
一般只起到和s
a
匹配计算相似度的作用,在训练中一般只用到t
b
,因此实际上训练基于记忆库的机器翻译模型是需要大量的(s
a
,t
a
,t
b
)这样的三元组数据。而目前这样三元组一般都是在双语记忆库语料库中通过源语言检索匹配得到,检索的结果一般较少,而且相似度也不高,因此用于训练记忆库机器翻译的数据较为稀疏,从而无法保证机器翻译训练模型的精确性,影响机器翻译的高质量翻译。
技术实现思路
[0004]为了 ...
【技术保护点】
【技术特征摘要】
1.一种基于记忆库的机器翻译模型训练方法,其特征在于,包括如下步骤:S1、基于目标语言检索生成三元组训练数据:S1.1、获取平行语料的目标单语数据,所述目标单语数据中的任一句子记作T
i
;S1.2、选取平行语料中的某个句对(S
a
,T
a
),计算出目标语言句子T
a
和所述目标单语数据中的每个句子T
i
的相似度sim(T
a
,T
i
),其中相似度sim(T
a
,T
i
)计算公式如下所示:公式(1)中,T
a
为平行语料中当前待匹配的目标语言句子,T
i
是目标单语数据中的任一个句子,dist(T
a
,T
i
)表示T
a
和T
i
的编辑距离,max(|T
a
|,|T
i
|)表示T
a
和T
i
两个句子长度的较大值,sim(T
a
,T
i
)表示T
a
和T
i
的相似度;S1.3、设定阈值,将目标单语数据中相似度最大的句子与阈值作比较:若相似度大于阈值,则该目标单语数据中相似度最大的句子与平行语料中的一个句对(S
a
,T
a
)组合形成(S
a
,T
a
,T
b
);S1.4、对平行语料中的其余句对按照S1.2和S1.3步骤组合,得到基于目标语言检索的三元组训练数据;S2、基于去噪语言模型生成三元组训练数据:S2.1、获取目标单语数据中的任一句子T
x
;S2.2、将任一句子T
x
进行加噪,得到加噪后的句子记作T
y
;S2.3、将加噪前的任一句子T
x
和加噪后的句子T
y
组合成(T
x
,T
y
);S2.4、将目标单语数据的其余句子按照S2.2和S2.3步骤加噪、组合,构成去噪语言训练数据组;S2.5、利用去噪语言训练数据组训练一个去噪语言模型LM,其中T
y
为模型输入,T
x<...
【专利技术属性】
技术研发人员:张文博,
申请(专利权)人:语联网武汉信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。