一种融合双语词典的蒙汉神经机器翻译方法技术

技术编号:31624559 阅读:32 留言:0更新日期:2021-12-29 19:01
一种融合双语词典的蒙汉神经机器翻译方法,通过在NMT系统中增加离散的翻译词典,意在解决NMT在翻译低频实词时经常出错的问题。首先构造词典概率,对于平行语料库中的词汇对,使用IBM模型通过无监督方式进行自动学习,对未被平行语料库覆盖的但收录于手制词典中的词汇对,定义翻译集并假设其为均匀分布;然后在编码阶段将词典概率转换为条件预测概率,然后将此预测概率与NMT模型的概率整合到一起,本发明专利技术使用两种整合方式:其一为;将其作为偏置、其二为;线性插值。线性插值。线性插值。

【技术实现步骤摘要】
一种融合双语词典的蒙汉神经机器翻译方法


[0001]本专利技术属于神经机器翻译
,特别涉及一种融合双语词典的蒙汉神经机器翻译方法。

技术介绍

[0002]机器翻译技术是研究如何利用计算机高效便捷的实现源语言到目标语言的自动转换,是计算语言学的重要研究领域之一。我国是一个多民族国家,各民族都有自己的语言,因此打破语言之间的交流障碍、促进民族交流尤为重要。内蒙古自治区使用蒙古语的人数较多,对于蒙古语文字与汉语文字之间的翻译有着迫切地需求,因此蒙汉翻译具有十分重要的意义。相对于其它语种,蒙汉机器翻译研究起步较晚,且蒙古语汉语分属于不同语系,机器翻译的译文质量不尽如人意。
[0003]随着深度学习的不断发展,基于深度学习的神经网络机器翻译模型成为机器翻译的研究热点。神经网络翻译模型是基于词、短语和句子的连续表示,连续的词向量可以更准确的表示词的形态、语义和语法信息,能够精确地刻画近义词之间的关系。由于神经网络本身结构的复杂性,通常编解码端的词汇表大小都不宜过大,否则会使得模型过于庞大,大大降低模型的训练速度。此外,低频词的加入反而可能降低网络的性能表现。规模受限的词表引入了大量的罕见词或未登录词,导致其在翻译对理解句子意义至关重要的低频内容词时经常出错。

技术实现思路

[0004](一)解决的技术问题
[0005]针对现有技术的不足,本专利技术的目的在于提供一种融合双语词典的蒙汉神经机器翻译方法,通过在NMT系统中增加离散的翻译词典,有效地编码低频词的翻译。
[0006](二)技术方案
[0007]为实现以上目的,本专利技术通过以下技术方案予以实现:一种融合双语词典的蒙汉神经机器翻译方法,通过在NMT系统中增加离散的翻译词典,有效地解决NMT在翻译低频实词时经常出错的问题。本专利技术包括以下步骤:步骤一、对训练数据、其他外部并行数据资源(如手制字典)或两者结合,使用传统的单词对齐方法来构造这些词汇概率;步骤二、使用注意力NMT模型中的注意力向量,将词典翻译概率转换为下一个单词的预测概率;步骤三、通过NMT概率的线性插值,或者将其作为NMT预测分布的偏差,将该概率纳入NMT。
[0008]步骤一中使用三种方式构造词典概率,分别为自动学习词典,手制词典与混合词典。自动学习词典的词典概率直接使用IBM之类的翻译模型从平行语料库中通过无监督的方式进行学习。这些模型可以使用期望最大化(EM)算法估计两种语言标记之间的词对齐和词法转换概率p
l
(y|x)。在期望步骤中,算法首先估计期望的计数c(y|x)。在最大化步骤,词典概率由期望技术除以所有可能的总数算得:
[0009][0010]NMT受训练速度与内存的约束,导致许多罕见词未被目标词表V
Y
覆盖,据此,将词典所分配的剩余概率分配给未知的单词符号<unk>:
[0011][0012]手制词典不包含翻译概率,为构造概率p
l
(y|x),为特定源词x定义存在于词典中的翻译集K
x
,并假设这些词是均匀分布的:
[0013][0014]未登录源词将其概率质量分配给<unk>标签。
[0015]手制词典的词汇覆盖率更高,但其概率不如自动学习词典的精确。故构造一种混合方法,将手制词典补充到自动学习词典中,默认使用自动学习词典p
l,a
,对未覆盖词使用手制词典:
[0016][0017]步骤二中,神经机器翻译的目标是将源单词序列翻译为目标单词序列这些单词分别属于源语言词表V
x
和目标语言词表V
y
。NMT通过计算给定源词X和前序目标单词下,第i个目标词y
i
的条件概率来执行这次翻译。上述过程通过将上下文编码为一个固定长度的向量η
i
,并用下式计算条件概率来实现。
[0018][0019]其中W
s
和b
s
分别为权重矩阵和偏置向量参数。
[0020]步骤二中的神经机器翻译选用注意力模型。注意力模型在计算y
i
时集中于源句中与之相关的特定的单词。采用注意力机制的翻译模型包括以下步骤:步骤一、编码器将源句子X转换为一个矩阵R;步骤二、根据注意力向量a
i
计算上下文向量c
i
;步骤三、依据算得的条件概率预测单词y
i
,并通过最小化训练数据的负对数似然来训练本模型。
[0021]注意力机制的步骤一中,注意力模型在计算y
i
时集中于源句中与之相关的特定的单词。首先编码器将源句子X转换为一个矩阵R,矩阵的每一列(即一个连续向量)代表输入句子中的一个单词,此表示使用双向编码器生成
[0022][0023][0024][0025]其中,embed()函数将单词映射为一个表示(通常使用向量进行表示),enc()是一个堆栈式LSTM神经网络。最后将和连接为一个双向表示r
j
。这些向量进一步连接为一个矩阵R,矩阵的第j列对应r
j

[0026]注意力机制的步骤二参考编码后的输入句子一次生成一个输出单词,并使用解码器LSTM跟踪整个过程。解码器的隐藏状态h
i
是一个长度固定的连续向量,包含目标单词中的信息,初始化为h0=0。基于此h
i
,计算一个相似度向量α
i
,该向量的各元素为
[0027]α
i,j
=sim(h
i
,r
j
)
[0028]sim()为任一相似度函数,此处使用向量的点积。之后将α
i
标准化为注意力向量,该向量表示对源句中每个单词分配的关注程度。
[0029]a
i
=softmax(α
i
)
ꢀꢀꢀꢀꢀꢀ
(2)
[0030]然后,使用注意力向量a
i
对编码表示的R矩阵进行加权,从而为当前时间步创建上下文向量c
i
[0031]c=Ra
[0032]注意力机制的步骤三通过连接先前的隐藏状态h
i
‑1和上下文向量,并执行仿射转换来创建η
i
[0033]η
i
=W
η
[h
i
‑1;c
i
]+b
η
[0034]将上式代入方程(1),便可计算出下一个单词y
i
根据此概率进行选择,同时通过将所选单词输入解码器LSTM来更新隐藏状态
[0035]h
i
=enc(embed(y
i
),h
i
‑1)
[0036]若将所有参数定义为θ,则可通过最小化训练数据的负对数似然来训练本模型
[0037本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种融合双语词典的蒙汉神经机器翻译方法,通过在NMT系统中增加离散的翻译词典,有效地解决NMT在翻译低频实词时经常出错的问题,其特征在于,包括以下步骤:步骤一、对训练数据、其他外部并行数据资源(如手制字典)或两者结合,使用传统的单词对齐方法来构造这些词典概率;步骤二、使用注意力NMT模型中的注意力向量,将词典翻译概率转换为下一个单词的预测概率;步骤三、通过NMT概率的线性插值,或者将其作为NMT预测分布的偏差,将该概率纳入NMT;所述源语言为蒙语。2.根据权利要求1所述融合双语词典的蒙汉神经机器翻译方法,其特征在于,所述步骤一中使用三种方式构造词典概率,分别为自动学习词典,手制词典与混合词典;所述自动学习词典的词典概率直接使用IBM之类的翻译模型从平行语料库中通过无监督的方式进行学习,这些模型可以使用期望最大化(EM)算法估计两种语言标记之间的词对齐和词法转换概率p
l
(y|x),在期望步骤中,算法首先估计期望的计数c(y|x),在最大化步骤,词典概率由期望技术除以所有可能的总数算得:NMT受训练速度与内存的约束,导致许多罕见词未被目标词表V
Y
覆盖,据此,将词典所分配的剩余概率分配给未知的单词符号<unk>。。3.根据权利要求2所述融合双语词典的蒙汉神经机器翻译方法,其特征在于,所述手制词典不包含翻译概率,为构造概率p
l
(y|x),为特定源词x定义存在于词典中的翻译集K
x
,并假设这些词是均匀分布的;未登录源词将其概率质分配给<unk>标签。4.根据权利要求2所述融合双语词典的蒙汉神经机器翻译方法,其特征在于,所述手制词典的词汇覆盖率更高,但其概率不如自动学习词典的精确,故构造一种混合方法,将手制词典补充到自动学习词典中,默认使用自动学习词典p
l,a
,对未覆盖词使用手制词典。5.根据权利要求1所述融合双语词典的蒙汉神经机器翻译方法,特在于,所述步骤二中的神经机器翻译的目标是将源单词序列翻译为目标单词序列这些单词分别属于源语言词表V
x
和目标语言词表V
y
,NMT通过计算给定源词X和前序目标单词下,第i个目标词y
i
的条件概率来执行这次翻译,上述过程通过将上下文编码为一个固定长度的向量η
i
,并用下式计算条件概率来实现其中W
s
和b
s
分别为权重矩阵和偏置向量参数。6.根据权利要求1所述融合双语词典的蒙汉神经机器翻译方法,其特征在于,所述步骤
二中的神经机器翻译选用注意力模型,注意力模型在计算y
i
时集中于源句中与之相关的特定的单词,其特征在于,包括以下步骤:步骤一、编码器将源句子X转换为一个矩阵R;步骤二、根据注意力向量a
i
计算上下文向量c
i
;步骤三、依据算得的条件概率预测单词y
i
,并通过最小化训练数据的负对数似然来训练本模型;所述步骤一中的注意力模型在计算y
i
时集中于源句中与之相关的特定的单词,首先编码器将源句子X转换为一个矩阵R,矩阵的每一列(即一个连续向量)代表输入句子中的一个单词,此表示使用双向编码器生成单词,此表示使用双向编码器生成单词,此表示使用双向编码器生成其中,embed()函数将单词映射为一个表示(通常使用向量进行表示),enc()是一个堆栈式LSTM神经网络,最后将和连接为一个双向表示r
j
,这些向量进一步连接为一个矩阵R,矩阵的第j列对应r
j
。7.根据权利要求6所述融合双语词典的蒙汉...

【专利技术属性】
技术研发人员:仁庆道尔吉庞蕊程坤尹玉娟张倩张文静苏依拉吉亚图
申请(专利权)人:内蒙古工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1