当前位置: 首页 > 专利查询>四川大学专利>正文

基于重要性度量和低资源迁移学习翻译系统及存储介质技术方案

技术编号:30830614 阅读:18 留言:0更新日期:2021-11-18 12:43
本发明专利技术涉及机器翻译领域,提出了基于重要性度量和低资源迁移学习翻译系统及存储介质。以解决现有方法所存在的语言特有知识未利用、语义特性未高度编码、低资源数据迁移学习难实现等问题。主要方案包括,准备翻译语言对数据;为源语言数据引入噪音;在输入端句子的开头插入目标语言名称标记;利用Moses scripts对数据进行分词,并使用BPE进行进一步子词划分和编码;构建机器翻译系统的编码器、attention bridge模块、解码器;训练模型,并将模型中的神经元根据它们在各语言对上的重要性划分为“语言通用”和“语言特有”两种类型,为低资源语言生成与已用于训练的语言同类型的数据,以此完成低资源数据的迁移学习。成低资源数据的迁移学习。成低资源数据的迁移学习。

【技术实现步骤摘要】
基于重要性度量和低资源迁移学习翻译系统及存储介质


[0001]本专利技术涉及由计算机进行的多语种机器翻译方法(Multilingual Neural Machine Translation),在需要计算机翻译多个语种的场景下,可用于解决传统机器翻译系统中存在的语言特有知识未利用、语义特性未高度编码、低资源数据迁移学习难实现等问题。本专利技术属于深度学习和自然语言处理领域。

技术介绍

[0002]机器翻译的研究开始于20世纪50年代,它是自然语言处理的一个分支,也是人工智能领域的一个重要应用。随着数据挖掘和机器学习技术的高速发展,人们对多语种翻译的需求与日俱增。近几年来,多家搜索引擎公司陆续上线了机器翻译业务,并不断扩充语言数量、提升翻译水平,目前,多数机器翻译系统已支持翻译文本和网页。
[0003]机器翻译,即通过计算机将一种语言的文本翻译成另一种语言。早期的机器翻译系统是基于规则的或者基于统计的。基于规则的机器翻译方法机械地利用了语言专家人工制定的翻译规则进行翻译,缺点在于该方法高度依赖于翻译规则的质量和数量,且无法应用于多语种翻译场景;基于统计的机器翻译方法采用了双语平行语料库,模型从平行语料中挖掘不同语言的词语间的对齐关系,自动抽取翻译规则。该方法虽然大大提升了机器翻译的能力和使用范围,但其性能仍有较大的提升空间。
[0004]基于深度学习的机器翻译方法的效果要显著优于基于统计的机器翻译方法,通常是一个整体的sequence到sequence模型。传统的多语种神经机器翻译模型将研究重心主要放在提升处理多语种的能力上,这导致模型更倾向于学习语言一般性知识,而忽略了语言特有性知识。尽管有些工作尝试着通过添加语言专属模块的方式来解决这个问题,但这种方式往往面临着参数爆炸的问题。其次,不同语种的词序一般是不一致的,这意味着句法结构也是不尽相同的。sequence

to

sequence的模型高度依赖于输入序列的顺序,即输入端词的绝对位置或相对位置,如何减轻翻译过程中句法差异的影响是机器翻译研究的一个重要话题。此外,当某种语言对的数据样本很少时,如何利用已有的模型来进行基于低资源数据的迁移学习也是一个值得思考的问题。最后,现有的神经多语种机器翻译模型往往忽略了多语言内部的更高层次的语义特性,而这一特性能够帮助机器翻译系统向着人工翻译思维靠近。
[0005]将模型中的神经元根据它们在各语言对上的重要性划分为语言通用型神经元和语言特有型神经元,由此,通用型神经元可以学习到一般性知识,并参与到所有语言对的翻译中;特有型神经元则负责学习面向特定语言的知识,并参与到对应语言对的翻译中。另外,将源语言数据通过增删等方式人工地改变句子的词序,并按一定比例引入模型的训练阶段,能够减轻多语种之间句法差异带来的影响。除此之外,在低资源数据的迁移学习中构造与已学习过的语言同类型的数据,并用于微调,可以提升模型在低资源数据上的翻译表现。更多地,在模型中引入attention bridge有利于提取高阶的、语言无关的语义表达。上述方法均可有效地提升跨语言神经机器翻译系统的性能。

技术实现思路

[0006]针对上述研究问题,本专利技术基于注意力和前馈神经网络,目的在于解决多语种场景下传统机器翻译模型具有的语言特有知识未利用、语义特性未高度编码的问题,以及解决基于低资源语言数据的迁移学习的问题。
[0007]本专利技术为解决上述技术问题采用以下技术效果:
[0008]一种基于神经网络重要性度量和低资源迁移学习翻译方法,包括以下步骤:
[0009]步骤1、准备用于机器翻译任务的由源语言数据和相应的目标语言数据构成的翻译语言对数据,翻译语言对数据包括多语言对数据和低资源语言对数据;
[0010]步骤2、对源语言数据通过插入、删除和转换的方式引入噪音,得到含噪音的源语言数据;
[0011]步骤3、在步骤2得到的含噪音的源语言数据中的句子的开头插入自定义的目标语言名称标记(若目标语言为英语,则在开头插入<2en>),得到修改了头部后的源语言数据;
[0012]步骤4、利用Moses scripts对步骤3得到的修改了头部后的源语言数据和目标语言数据进行分词,并使用BPE进行进一步子词划分和编码,得到嵌入表达;
[0013]步骤5、采用注意力和前馈神经网络构建机器翻译系统的编码器和解码器,其中编码器的输入为步骤4得到的源语言数据的嵌入表达,编码器的输出是步骤6的attention bridge的输入;解码器的输入为步骤6的attention bridge的输出,解码器的输出为模型的翻译结果;
[0014]步骤6、利用自注意力机制搭建介于编码器和解码器之间的attention bridge模块;
[0015]步骤7、采用步骤4得到的源语言数据和目标语言数据的嵌入表达来训练模型,并将模型中的神经元根据它们在各语言对上的重要性划分为“语言通用”和“语言特有”两种类型,然后根据一定规则微调模型;
[0016]步骤8、为低资源语言生成与已用于训练的语言同类型的数据,并在此基础上进行模型微调,以此完成低资源数据的迁移学习。
[0017]上述技术方案中,在步骤1中,准备用于机器翻译任务的多语言对数据和低资源语言对数据。用于模型训练的语言对为和和En代表英语,It代表意大利语,Ro代表罗马尼亚语,Du代表荷兰语。
[0018]上述技术方案中,步骤2中:
[0019]插入方法在句子中每个词的后面以一定的概率插入一个停用词;
[0020]删除方法以一定的概率删除句子中的词语;
[0021]重排方法将句子中词的位置进行随机重新排列。
[0022]上述技术方案中,步骤4中:
[0023]首先利用Moses对数据做三步预处理操作:
[0024]1)对每个句子进行词例化操作;
[0025]2)对词汇的大小进行调整;
[0026]3)做clean处理,剔除过长或过短的句子;
[0027]接着,利用BPE进行进一步的子词分割和编码操作。
[0028]上述技术方案中,步骤5中:
[0029]步骤5:采用注意力和前馈神经网络构建机器翻译系统的编码器和解码器,将Transformer中的编码器和解码器作为该跨语言机器翻译系统的编码器和解码器;
[0030]在编码器中,每个层由两个子层构成,分别是多头自注意力机制和全连接前馈神经网络;
[0031]在解码器中,每个层由三个子层构成,除了含有与编码器相同的两个子层外,多头自注意力层的后面还添加了一个多头交叉注意力层。
[0032]上述技术方案中,步骤6中:
[0033]步骤6:利用自监督机制在编码器和解码器之间搭建一个attention bridge模块,若用h代表编码器输出的隐藏状态,那么隐藏状态矩阵S可表示为:
[0034]S=(h1,h2,...,h
n...

【技术保护点】

【技术特征摘要】
1.一种基于神经网络重要性度量和低资源迁移学习翻译方法,其特征在于,包括以下步骤:步骤1、准备用于机器翻译任务的由源语言数据和相应的目标语言数据构成的翻译语言对数据,翻译语言对数据包括多语言对数据和低资源语言对数据;步骤2、对源语言数据通过插入、删除和转换的方式引入噪音,得到含噪音的源语言数据;步骤3、在步骤2得到的含噪音的源语言数据中的句子的开头插入自定义的目标语言名称标记,得到修改了头部后的源语言数据;步骤4、利用Moses scripts对步骤3得到的修改了头部后的源语言数据和目标语言数据进行分词,并使用BPE进行进一步子词划分和编码,得到嵌入表达;步骤5、采用注意力和前馈神经网络构建机器翻译系统的编码器和解码器,其中编码器的输入为步骤4得到的源语言数据的嵌入表达,编码器的输出是步骤6的attention bridge的输入;解码器的输入为步骤6的attention bridge的输出,解码器的输出为模型的翻译结果;步骤6、利用自注意力机制搭建介于编码器和解码器之间的attention bridge模块;步骤7、采用步骤4得到的源语言数据和目标语言数据的嵌入表达来训练模型,并将模型中的神经元根据它们在各语言对上的重要性划分为“语言通用”和“语言特有”两种类型,然后根据一定规则微调模型;步骤8、为低资源语言生成与已用于训练的语言同类型的数据,并在此基础上进行模型微调,以此完成低资源数据的迁移学习。2.根据权利要求1所述的一种基于神经网络重要性度量和低资源迁移学习翻译方法,其特征在于,步骤1:准备用于机器翻译任务的多语言对数据和低资源语言对数据,用于模型训练的语言对为和En代表英语,It代表意大利语,Ro代表罗马尼亚语,Du代表荷兰语。3.根据权利要求1所述的一种基于神经网络重要性度量和低资源迁移学习翻译方法,其特征在于,步骤2中:插入方法在句子中每个词的后面以一定的概率插入一个停用词;删除方法以一定的概率删除句子中的词语;重排方法将句子中词的位置进行随机重新排列。4.根据权利要求1所述的一种基于神经网络重要性度量和低资源迁移学习翻译方法,其特征在于,步骤4中:首先利用Moses对数据做三步预处理操作:1)对每个句子进行词例化操作;2)对词汇的大小进行调整;3)做clean处理,剔除过长或过短的句子;接着,利用BPE进行进一步的子词分割和编码操作。5.根据权利要求1所述的一种基于神经网络重要性度量和低资源迁移学习翻译方法,其特征在于,步骤5中:
步骤5:采用注意力和前馈神经网络构建机器翻译系统的编码器和解码器,将Transfomer中的编码器和解码器作为该跨语言机器翻译系统的编码器和解码器;在编码器中,每个层由两个子层构成,分别是多头自注意力机制和全连接前馈神经网络;在解码器中,每个层由三个子层构成,除了含有与编码器相同的两个子层外,多头自注意力层的后面还添加了一个多头交叉注意力层。6.根据权利要求1所述的一种基于神经网络重要性度量和低资源迁移学习翻译方法,其特征在于,步骤6中:步骤6:利用自监督机制在编码器和解码器之间搭建一个attention bridge模块,若用h代表编码器输出的隐藏状态,那么隐藏状态矩阵S可表示为:S=(h1,h2,...,h
n
)接着,将S转换为固定大小的、关注句子r个不同组成部分的矩阵,R代表实数,d
h
×
r为M的维度,具体的转换过程为:B=softmax(W2ReLU(W1S))M=BS
T
其中,W1和W2为权重矩阵,r为attention bridge模块中矩阵M中注意力头(列向量)的数量,ReLU为一种人工神经网络中常用的激活函数,由此,基于注意力机制的解码器使用的是句子嵌入矩阵M中的信息,而非直接使用了编码器输出的隐藏状态信息。7.根据权利要求1所述的一种基于神经网络重要性度量和低资源迁移学习翻译方法,其特征在于,步骤7中:步骤7:训练模型,并将模型中的神经元根据它们在各语言对上的重要性划分为“语言通用”和“语言特有”两种类型,然后根据一定规则微调模型。首先,将低资源语言对数据以外的数据用...

【专利技术属性】
技术研发人员:魏骁勇袁晨晨张栩禄杨震群
申请(专利权)人:四川大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1