构建基于双重知识蒸馏的机器翻译模型的方法及装置制造方法及图纸

技术编号:38632539 阅读:19 留言:0更新日期:2023-08-31 18:30
本发明专利技术属于自然语言处理技术领域,特别涉及一种构建基于双重知识蒸馏的机器翻译模型的方法及装置,该方法包括针对单语数据,将知识蒸馏和自训练相结合,构建单语数据的在线自蒸馏模块;针对双语数据,在交叉熵的损失函数基础上,将非参数知识蒸馏方法和自蒸馏相结合,构建双语数据的非参数知识蒸馏模块。针对双语数据,运用k近邻非参数知识蒸馏加入一致性损失的方式,实现更好的挖掘双语知识;针对单语数据,将知识蒸馏和自训练相结合提出一种自蒸馏的模型,实现更好的挖掘单语知识;两个模块相结合构成双重知识蒸馏的机器翻译模型,实现了更有效的挖掘双语数据和单语数据中的知识。知识。知识。

【技术实现步骤摘要】
构建基于双重知识蒸馏的机器翻译模型的方法及装置


[0001]本专利技术属于自然语言处理
,特别涉及一种构建基于双重知识蒸馏的机器翻译模型的方法及装置,涉及低资源机器翻译技术。

技术介绍

[0002]近年来,深度学习技术迅速发展,在自然语言处理领域有许多成功的案例。随着各种深度神经网络架构的提出,神经机器翻译(Neural Machine Translation)取得了巨大的成功,成为机器翻译的主流方法。然而,性能强大的神经机器翻译模型在很大程度上依赖于大量的双语训练数据,但是对于很多低资源语言来说,大量的双语数据是很难获取的。因此,如何更有效的利用少量的双语数据或者更好的利用丰富的单语数据是目前的研究热点。
[0003]针对这一领域已经进行了大量研究。在有效利用双语数据方面,知识蒸馏可以更好的实现双语知识的挖掘。首先,知识蒸馏通过结构复杂但性能优越的教师模型来更好的挖掘出双语语言中的知识,再将知识迁移给学生模型。这样使学生模型通过少量的双语数据就可以学到更好的双语知识。毫无疑问的是结构复杂的教师模型需要大量的双语数据才可以更好的挖掘出双语知识。最近,kNearest Neighbor Knowledge Distillation(kNN

KD)在机器翻译领域取得了巨大的成功。kNN

KD仅使用与学生模型相同的训练数据,通过离线构建由训练集中每一条样本组成的键值对组合来更好的挖掘双语知识。kNN

KD不需要额外大量的双语数据就可以有效挖掘双语知识,这对双语数据有限的低资源语言是十分重要的。除此之外,机器翻译领域主流的蒸馏技术都侧重挖掘双语即源语言与目标语言之间的对应知识分布,对单语数据利用并不充分。而低资源语言的双语资源并不丰富,现有的知识蒸馏技术并不适用于这些语言。
[0004]在利用单语数据方面,一种主流的方法是自监督学习。自监督学习无需充分受益于双语数据提供的丰富学习信号。自监督学习通过仅使用单语的自训练来自动挖掘单语语言内部存在的高层知识,在仅使用单语数据的迁移学习和无监督NMT方面取得了巨大成功。

技术实现思路

[0005]针对更有效的利用少量的双语数据以及更好的利用丰富的单语数据,本专利技术提出一种构建基于双重知识蒸馏的机器翻译模型的方法及装置。
[0006]为了实现上述目的,本专利技术采用以下的技术方案:
[0007]本专利技术提供了一种构建基于双重知识蒸馏的机器翻译模型的方法,包括:
[0008]针对单语数据,将知识蒸馏和自训练相结合,构建单语数据的在线自蒸馏模块;
[0009]针对双语数据,在交叉熵的损失函数基础上,将非参数知识蒸馏方法和自蒸馏相结合,构建双语数据的非参数知识蒸馏模块。
[0010]根据本专利技术构建基于双重知识蒸馏的机器翻译模型的方法,优选地,针对单语数据,将知识蒸馏和自训练相结合,使得知识蒸馏扩展到没有目标句子的情况,从而让学生模
型的编码器更好的学习数据特征;其中教师模型不是预先训练的固定模型,而是在训练期间和学生模型一起动态更新;将教师模型的编码器的输出特征作为目标指导学生模型的编码器训练,实现在线自蒸馏。
[0011]根据本专利技术构建基于双重知识蒸馏的机器翻译模型的方法,优选地,构建单语数据的在线自蒸馏模块包含以下步骤:
[0012]在模型选择阶段;学生模型和教师模型具有相同的结构,学生模型为基础的神经机器翻译模型,教师模型由前面轮次的学生模型集成而成;
[0013]在模型训练阶段;给定教师模型和学生模型将给定的输入x分别输入到学生模型和教师模型,然后将两个模型的编码器输出特征记为f
s
(x)和f
t
(x);在模型编码器后加入softmax层,将f
s
(x)和f
t
(x)经softmax层转化为概率分布p
s
(x)和p
t
(x);通过将教师模型的输出当作软标签指导学生模型的训练,通过交叉熵损失定义训练的目标;
[0014]在参数更新阶段;对学生模型的参数θ
s
和教师模型θ
t
的参数进行更新。
[0015]根据本专利技术构建基于双重知识蒸馏的机器翻译模型的方法,优选地,在模型训练阶段,通过交叉熵损失定义训练的目标为:
[0016][0017]根据本专利技术构建基于双重知识蒸馏的机器翻译模型的方法,优选地,在参数更新阶段,学生模型的参数θ
s
通过反向传播更新,教师模型的参数θ
t
更新规则如下:
[0018]θ
t

λθ
t
+(1

λ)θ
s
[0019]其中λ代表参数所占权重,在训练期间遵循从0.996到1的余弦调度,以平衡不同训练阶段的模型参数权重。
[0020]根据本专利技术构建基于双重知识蒸馏的机器翻译模型的方法,优选地,针对双语数据,在交叉熵的损失函数基础上,将非参数知识蒸馏方法和自蒸馏相结合进行知识蒸馏,这里自蒸馏相当于是在非参数知识蒸馏的基础上增加了一种一致性正则化,使得学生模型和教师模型的输出保持一致性。
[0021]根据本专利技术构建基于双重知识蒸馏的机器翻译模型的方法,优选地,构建双语数据的非参数知识蒸馏模块包含以下步骤:
[0022]步骤a,构建数据存储;
[0023]数据存储形式由键值对构成;给定训练集中的双语句子对其中键是由预训练机器翻译模型表征的值为y
t
,因此,构建数据存储为:
[0024][0025]步骤b,针对训练集中的每个上下文在数据池中计算每个样本与的l2距离,从而得到k个近邻,将检索到的近邻表示为:在词汇表上的KNN分布计算表示为:
[0026][0027]其中τ是温度分子,d(
·
,
·
)表示l2距离;
[0028]因此,训练集中的目标句子被更新,从扩充为扩充后数据集的大小由k值决定,具体分布计算表示为:
[0029]步骤c,将得到的KNN分布去指导学生模型和教师模型训练,定义KD的目标为:
[0030][0031]其中为步骤b中得到的KNN分布;
[0032]步骤d,在模型选择阶段;学生模型和教师模型具有相同的结构,学生模型为基础的神经机器翻译模型,教师模型由前面轮次的学生模型集成而成;
[0033]步骤e,在模型训练阶段,给定教师模型和学生模型将给定的输入x分别加以不同的扰动输入到教师模型和学生模型,记为x
t
和x
s
;然后将两个模型的解码器的预测输出记为p
t
(y
i
∣x
t
,y
<i
)和p
s
(y
i
∣x
s
,y
<i
);针对相同本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种构建基于双重知识蒸馏的机器翻译模型的方法,其特征在于,包括:针对单语数据,将知识蒸馏和自训练相结合,构建单语数据的在线自蒸馏模块;针对双语数据,在交叉熵的损失函数基础上,将非参数知识蒸馏方法和自蒸馏相结合,构建双语数据的非参数知识蒸馏模块。2.根据权利要求1所述的构建基于双重知识蒸馏的机器翻译模型的方法,其特征在于,针对单语数据,将知识蒸馏和自训练相结合,使得知识蒸馏扩展到没有目标句子的情况,从而让学生模型的编码器更好的学习数据特征;其中教师模型不是预先训练的固定模型,而是在训练期间和学生模型一起动态更新;将教师模型的编码器的输出特征作为目标指导学生模型的编码器训练,实现在线自蒸馏。3.根据权利要求2所述的构建基于双重知识蒸馏的机器翻译模型的方法,其特征在于,构建单语数据的在线自蒸馏模块包含以下步骤:在模型选择阶段;学生模型和教师模型具有相同的结构,学生模型为基础的神经机器翻译模型,教师模型由前面轮次的学生模型集成而成;在模型训练阶段;给定教师模型和学生模型将给定的输入x分别输入到学生模型和教师模型,然后将两个模型的编码器输出特征记为f
s
(x)和f
t
(x);在模型编码器后加入softmax层,将f
s
(x)和f
t
(x)经softmax层转化为概率分布p
s
(x)和p
t
(x);通过将教师模型的输出当作软标签指导学生模型的训练,通过交叉熵损失定义训练的目标;在参数更新阶段;对学生模型的参数θ
s
和教师模型θ
t
的参数进行更新。4.根据权利要求3所述的构建基于双重知识蒸馏的机器翻译模型的方法,其特征在于,在模型训练阶段,通过交叉熵损失定义训练的目标为:5.根据权利要求3所述的构建基于双重知识蒸馏的机器翻译模型的方法,其特征在于,在参数更新阶段,学生模型的参数θ
s
通过反向传播更新,教师模型的参数θ
t
更新规则如下:θ
t

λθ
t
+(1

λ)θ
s
其中λ代表参数所占权重,在训练期间遵循从0.996到1的余弦调度,以平衡不同训练阶段的模型参数权重。6.根据权利要求1所述的构建基于双重知识蒸馏的机器翻译模型的方法,其特征在于,针对双语数据,在交叉熵的损失函数基础上,将非参数知识蒸馏方法和自蒸馏相结合进行知识蒸馏,这里自蒸馏相当于是在非参数知识蒸馏的基础上增加了一种一致性正则化,使得学生模型和教师模型的输出保持一致性。7.根据权利要求6所述的构建基于双重知识蒸馏的机器翻译模型的方法,其特征在于,构建双语数据的非参数知识蒸馏模块包含以下步骤:步骤a,构建数据存储;数据存储形式由键值对构成;给定训练集中的双语...

【专利技术属性】
技术研发人员:李真万玉宪屈丹张文林杨绪魁牛铜贺晓年张昊
申请(专利权)人:中国人民解放军战略支援部队信息工程大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1