基于重要性度量和低资源迁移学习翻译系统及存储介质技术方案

技术编号：30830614 阅读：18 留言：0更新日期：2021-11-18 12:43

本发明专利技术涉及机器翻译领域，提出了基于重要性度量和低资源迁移学习翻译系统及存储介质。以解决现有方法所存在的语言特有知识未利用、语义特性未高度编码、低资源数据迁移学习难实现等问题。主要方案包括，准备翻译语言对数据；为源语言数据引入噪音；在输入端句子的开头插入目标语言名称标记；利用Moses scripts对数据进行分词，并使用BPE进行进一步子词划分和编码；构建机器翻译系统的编码器、attention bridge模块、解码器；训练模型，并将模型中的神经元根据它们在各语言对上的重要性划分为“语言通用”和“语言特有”两种类型，为低资源语言生成与已用于训练的语言同类型的数据，以此完成低资源数据的迁移学习。成低资源数据的迁移学习。成低资源数据的迁移学习。

全部详细技术资料下载

【技术实现步骤摘要】
基于重要性度量和低资源迁移学习翻译系统及存储介质

[0001]本专利技术涉及由计算机进行的多语种机器翻译方法(Multilingual Neural Machine Translation)，在需要计算机翻译多个语种的场景下，可用于解决传统机器翻译系统中存在的语言特有知识未利用、语义特性未高度编码、低资源数据迁移学习难实现等问题。本专利技术属于深度学习和自然语言处理领域。

技术介绍

[0002]机器翻译的研究开始于20世纪50年代，它是自然语言处理的一个分支，也是人工智能领域的一个重要应用。随着数据挖掘和机器学习技术的高速发展，人们对多语种翻译的需求与日俱增。近几年来，多家搜索引擎公司陆续上线了机器翻译业务，并不断扩充语言数量、提升翻译水平，目前，多数机器翻译系统已支持翻译文本和网页。
[0003]机器翻译，即通过计算机将一种语言的文本翻译成另一种语言。早期的机器翻译系统是基于规则的或者基于统计的。基于规则的机器翻译方法机械地利用了语言专家人工制定的翻译规则进行翻译，缺点在于该方法高度依赖于翻译规则的质量和数量，且无法应用于多语种翻译场景；基于统计的机器翻译方法采用了双语平行语料库，模型从平行语料中挖掘不同语言的词语间的对齐关系，自动抽取翻译规则。该方法虽然大大提升了机器翻译的能力和使用范围，但其性能仍有较大的提升空间。
[0004]基于深度学习的机器翻译方法的效果要显著优于基于统计的机器翻译方法，通常是一个整体的sequence到sequence模型。传统的多语种神经机器翻译模型将研究重心主要放在提

【技术保护点】

【技术特征摘要】
1.一种基于神经网络重要性度量和低资源迁移学习翻译方法，其特征在于，包括以下步骤：步骤1、准备用于机器翻译任务的由源语言数据和相应的目标语言数据构成的翻译语言对数据，翻译语言对数据包括多语言对数据和低资源语言对数据；步骤2、对源语言数据通过插入、删除和转换的方式引入噪音，得到含噪音的源语言数据；步骤3、在步骤2得到的含噪音的源语言数据中的句子的开头插入自定义的目标语言名称标记，得到修改了头部后的源语言数据；步骤4、利用Moses scripts对步骤3得到的修改了头部后的源语言数据和目标语言数据进行分词，并使用BPE进行进一步子词划分和编码，得到嵌入表达；步骤5、采用注意力和前馈神经网络构建机器翻译系统的编码器和解码器，其中编码器的输入为步骤4得到的源语言数据的嵌入表达，编码器的输出是步骤6的attention bridge的输入；解码器的输入为步骤6的attention bridge的输出，解码器的输出为模型的翻译结果；步骤6、利用自注意力机制搭建介于编码器和解码器之间的attention bridge模块；步骤7、采用步骤4得到的源语言数据和目标语言数据的嵌入表达来训练模型，并将模型中的神经元根据它们在各语言对上的重要性划分为“语言通用”和“语言特有”两种类型，然后根据一定规则微调模型；步骤8、为低资源语言生成与已用于训练的语言同类型的数据，并在此基础上进行模型微调，以此完成低资源数据的迁移学习。2.根据权利要求1所述的一种基于神经网络重要性度量和低资源迁移学习翻译方法，其特征在于，步骤1：准备用于机器翻译任务的多语言对数据和低资源语言对数据，用于模型训练的语言对为和En代表英语，It代表意大利语，Ro代表罗马尼亚语，Du代表荷兰语。3.根据权利要求1所述的一种基于神经网络重要性度量和低资源迁移学习翻译方法，其特征在于，步骤2中：插入方法在句子中每个词的后面以一定的概率插入一个停用词；删除方法以一定的概率删除句子中的词语；重排方法将句子中词的位置进行随机重新排列。4.根据权利要求1所述的一种基于神经网络重要性度量和低资源迁移学习翻译方法，其特征在于，步骤4中：首先利用Moses对数据做三步预处理操作：1)对每个句子进行词例化操作；2)对词汇的大小进行调整；3)做clean处理，剔除过长或过短的句子；接着，利用BPE进行进一步的子词分割和编码操作。5.根据权利要求1所述的一种基于神经网络重要性度量和低资源迁移学习翻译方法，其特征在于，步骤5中：
步骤5：采用注意力和前馈神经网络构建机器翻译系统的编码器和解码器，将Transfomer中的编码器和解码器作为该跨语言机器翻译系统的编码器和解码器；在编码器中，每个层由两个子层构成，分别是多头自注意力机制和全连接前馈神经网络；在解码器中，每个层由三个子层构成，除了含有与编码器相同的两个子层外，多头自注意力层的后面还添加了一个多头交叉注意力层。6.根据权利要求1所述的一种基于神经网络重要性度量和低资源迁移学习翻译方法，其特征在于，步骤6中：步骤6：利用自监督机制在编码器和解码器之间搭建一个attention bridge模块，若用h代表编码器输出的隐藏状态，那么隐藏状态矩阵S可表示为：S＝(h1，h2，...，h
n
)接着，将S转换为固定大小的、关注句子r个不同组成部分的矩阵，R代表实数，d
h
×
r为M的维度，具体的转换过程为：B＝softmax(W2ReLU(W1S))M＝BS
T
其中，W1和W2为权重矩阵，r为attention bridge模块中矩阵M中注意力头(列向量)的数量，ReLU为一种人工神经网络中常用的激活函数，由此，基于注意力机制的解码器使用的是句子嵌入矩阵M中的信息，而非直接使用了编码器输出的隐藏状态信息。7.根据权利要求1所述的一种基于神经网络重要性度量和低资源迁移学习翻译方法，其特征在于，步骤7中：步骤7：训练模型，并将模型中的神经元根据它们在各语言对上的重要性划分为“语言通用”和“语言特有”两种类型，然后根据一定规则微调模型。首先，将低资源语言对数据以外的数据用...

【专利技术属性】
技术研发人员：魏骁勇，袁晨晨，张栩禄，杨震群，
申请(专利权)人：四川大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人