【技术实现步骤摘要】
构建基于双重知识蒸馏的机器翻译模型的方法及装置
[0001]本专利技术属于自然语言处理
,特别涉及一种构建基于双重知识蒸馏的机器翻译模型的方法及装置,涉及低资源机器翻译技术。
技术介绍
[0002]近年来,深度学习技术迅速发展,在自然语言处理领域有许多成功的案例。随着各种深度神经网络架构的提出,神经机器翻译(Neural Machine Translation)取得了巨大的成功,成为机器翻译的主流方法。然而,性能强大的神经机器翻译模型在很大程度上依赖于大量的双语训练数据,但是对于很多低资源语言来说,大量的双语数据是很难获取的。因此,如何更有效的利用少量的双语数据或者更好的利用丰富的单语数据是目前的研究热点。
[0003]针对这一领域已经进行了大量研究。在有效利用双语数据方面,知识蒸馏可以更好的实现双语知识的挖掘。首先,知识蒸馏通过结构复杂但性能优越的教师模型来更好的挖掘出双语语言中的知识,再将知识迁移给学生模型。这样使学生模型通过少量的双语数据就可以学到更好的双语知识。毫无疑问的是结构复杂的教师模型需要大量的双语数据才可以更好的挖掘出双语知识。最近,kNearest Neighbor Knowledge Distillation(kNN
‑
KD)在机器翻译领域取得了巨大的成功。kNN
‑
KD仅使用与学生模型相同的训练数据,通过离线构建由训练集中每一条样本组成的键值对组合来更好的挖掘双语知识。kNN
‑
KD不需要额外大量的双语数据就可以有效挖掘双语知识 ...
【技术保护点】
【技术特征摘要】
1.一种构建基于双重知识蒸馏的机器翻译模型的方法,其特征在于,包括:针对单语数据,将知识蒸馏和自训练相结合,构建单语数据的在线自蒸馏模块;针对双语数据,在交叉熵的损失函数基础上,将非参数知识蒸馏方法和自蒸馏相结合,构建双语数据的非参数知识蒸馏模块。2.根据权利要求1所述的构建基于双重知识蒸馏的机器翻译模型的方法,其特征在于,针对单语数据,将知识蒸馏和自训练相结合,使得知识蒸馏扩展到没有目标句子的情况,从而让学生模型的编码器更好的学习数据特征;其中教师模型不是预先训练的固定模型,而是在训练期间和学生模型一起动态更新;将教师模型的编码器的输出特征作为目标指导学生模型的编码器训练,实现在线自蒸馏。3.根据权利要求2所述的构建基于双重知识蒸馏的机器翻译模型的方法,其特征在于,构建单语数据的在线自蒸馏模块包含以下步骤:在模型选择阶段;学生模型和教师模型具有相同的结构,学生模型为基础的神经机器翻译模型,教师模型由前面轮次的学生模型集成而成;在模型训练阶段;给定教师模型和学生模型将给定的输入x分别输入到学生模型和教师模型,然后将两个模型的编码器输出特征记为f
s
(x)和f
t
(x);在模型编码器后加入softmax层,将f
s
(x)和f
t
(x)经softmax层转化为概率分布p
s
(x)和p
t
(x);通过将教师模型的输出当作软标签指导学生模型的训练,通过交叉熵损失定义训练的目标;在参数更新阶段;对学生模型的参数θ
s
和教师模型θ
t
的参数进行更新。4.根据权利要求3所述的构建基于双重知识蒸馏的机器翻译模型的方法,其特征在于,在模型训练阶段,通过交叉熵损失定义训练的目标为:5.根据权利要求3所述的构建基于双重知识蒸馏的机器翻译模型的方法,其特征在于,在参数更新阶段,学生模型的参数θ
s
通过反向传播更新,教师模型的参数θ
t
更新规则如下:θ
t
←
λθ
t
+(1
‑
λ)θ
s
其中λ代表参数所占权重,在训练期间遵循从0.996到1的余弦调度,以平衡不同训练阶段的模型参数权重。6.根据权利要求1所述的构建基于双重知识蒸馏的机器翻译模型的方法,其特征在于,针对双语数据,在交叉熵的损失函数基础上,将非参数知识蒸馏方法和自蒸馏相结合进行知识蒸馏,这里自蒸馏相当于是在非参数知识蒸馏的基础上增加了一种一致性正则化,使得学生模型和教师模型的输出保持一致性。7.根据权利要求6所述的构建基于双重知识蒸馏的机器翻译模型的方法,其特征在于,构建双语数据的非参数知识蒸馏模块包含以下步骤:步骤a,构建数据存储;数据存储形式由键值对构成;给定训练集中的双语...
【专利技术属性】
技术研发人员:李真,万玉宪,屈丹,张文林,杨绪魁,牛铜,贺晓年,张昊,
申请(专利权)人:中国人民解放军战略支援部队信息工程大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。