基于对称型注意力的机器翻译方法技术

技术编号:35781215 阅读:9 留言:0更新日期:2022-12-01 14:26
本发明专利技术公开一种基于对称型注意力的机器翻译方法,主要解决现有技术在翻译中未能在多个子空间中利用相关性信息导致解码计算中的参考信息缺失,使翻译结果未能涵盖全部情景的问题。本发明专利技术构建的基于对称型注意力的机器翻译模型中由两个平行的对称子空间组成本发明专利技术模型中解码器的对称型注意力层,采用对称型注意力算法计算两支对称型注意力并进行融合。本发明专利技术的解码器中对称型注意力层与编码器输出的注意力矩阵之间实现了信息交互,提高了全面且准确地获取注意力信息的能力,本发明专利技术构建的机器翻译模型在翻译工作中涵盖更全面的语义情景,提高了英译中的准确性。提高了英译中的准确性。提高了英译中的准确性。

【技术实现步骤摘要】
基于对称型注意力的机器翻译方法


[0001]本专利技术属于电学
,更进一步涉及计算机辅助设计
中的一种基于对称型注意力的机器翻译方法。本专利技术可用于将待翻译的英文语句经过编码器提取文本特征信息,再解码生成对应的中文翻译语句。

技术介绍

[0002]随着计算机计算能力的提高以及大数据的应用,深度学习取得进一步应用。基于深度学习的机器翻译技术越来越多的应用于不同领域。机器翻译技术可以帮助人们完成源语言到目标语言的翻译工作,从而逐渐代替人类完成复杂且费时费力的翻译工作。目前,在机器翻译领域中,代表最先进水平的Transformer模型是一个完全基于注意力机制的机器翻译模型。其主要思想是,首先将输入向量进行线性变换,得到查询矩阵Query(Q)、键值矩阵Key(K)和实值矩阵Value(V)三个矩阵,利用三个矩阵进行注意力计算得到注意力值,作为元素之间关联程度的体现。在机器翻译工作中,解码器通过注意力值获取数据点之间的相关性信息,作为翻译预测的依据。因此,尽可能最大程度增强数据点之间的全局相关性信息的表达能力,有助于提高机器翻译的准确度。
[0003]四川大学在其拥有的专利技术“一种基于Transformer模型的机器翻译模型优化方法”(专利申请号:202110361317.8,授权公告号:CN 113051938 B)中提出了一种基于Transformer模型的机器翻译模型优化方法。该方法具体实现方法为:步骤一,初始化具有多个不同结构和参数的Transformer模型的种群作为父代模型种群;步骤二,利用BLEU算法计算所述父代模型种群中的每个Transformer模型词向量学习能力评估指标;步骤三,根据步骤二的词向量学习能力评估指标大小从父代模型种群中选择父代个体,并使用交叉变异算子生成子代个体种群,同时利用BLEU算法计算子代个体种群中每个模型的词向量学习能力评估指标;步骤四,对所述父代个体和子代个体进行环境选择生成新的模型种群,并根据所述步骤二和步骤三进行多轮迭代进化,直至满足迭代终止条件;步骤五,选择最后一代中的最优个体进行机器翻译任务。该方法虽然可通过预先设定阈值限定演化次数,实现节约资源的目的,但是,该方法仍然存在的不足之处是,由于解码器的交叉注意力层采用了与该模块其他层相同的乘性计算方案,其输出仅体现了单一维度下数据点间相关性结果,使得编码器生成预测词典时丢失源语言对应的目标语言选项,影响解码器根据源语言输出预测概率时的准确性。
[0004]苏州大学在其申请的专利文献“基于自注意力机制的多领域神经机器翻译方法”(专利申请号:201910344013.3,申请公布号:CN 110059323 A)中提出了一种基于自注意力机制的多领域神经机器翻译方法。该方法对Transformer进行了两项重要的改变:其一,基于领域感知的自注意力机制,其中在多领域表示时,被添加到原始的自注意力机制的键和值向量中。注意力机制的权重是查询和领域感知的键的相关程度,基于领域感知的自注意力机制可以用在编码器、解码器或同时用在编码端和解码端的自注意力层。其二,添加一个领域表示学习模块来学习领域向量。该方法虽然可以在模型缺乏灵活性的情况下,建立多
个特定领域的系统架构,每个系统都在给定领域经过微调来最优化性能。但是,该方法仍然存在的不足之处是,在解码器的交叉注意力层只使用了输入向量的部分相关性信息,而映射至其他子空间的相关性信息未被全面利用,使解码计算中依据的参考信息缺失,致使翻译结果未能涵盖全部情景。

技术实现思路

[0005]本专利技术的目的是针对上述现有技术的不足,提出了一种基于对称型注意力的机器翻译方法,对不同子空间中体现数据间全局相关性信息的对称型注意力进行充分利用,用于解决现有技术中对数据点间相关性的表达能力不充分、未被全面利用,解码计算中的翻译结果准确度不高的问题。
[0006]实现本专利技术目的的思路是:本专利技术方法构建的模型采用编码器

解码器结构。其中编码器包括多头自注意力层和前向反馈层:多头自注意力层首先进行注意力计算,获取输入向量内各元素间的相关性信息,作为建立翻译预测所使用词典的依据;前向反馈层对计算得到的注意力进行全连接计算,对整个序列里的信息进行汇总,使得序列中含有全局相关性信息。解码器包括多头自注意力层、对称型注意力层和前向反馈层,其中多头自注意力层和前向反馈层实现的功能与编码器相同。对称型注意力层使用两支对称型注意力实现编码器与解码器的信息交互,解决了未能使用输入向量其他子空间的相关性信息导致的解码过程中参考依据缺失的问题。本专利技术所使用的三个矩阵:查询矩阵Query(Q)、键值矩阵Key(K)和实值矩阵Value(V)在物理含义上是相等的,均在不同维度上体现了矩阵中对应元素之间的相关性,这种相关性是解码器进行翻译预测时的重要依据。考虑到该特点,在解码器的对称型注意力层使用上述三个矩阵分别计算两支对称型注意力,挖掘不同子空间的相关性信息,解决了元素间相关性信息提取受限,导致编码器生成预测词典时丢失源语言对应的目标语言选项的问题。本专利技术在解码器对称型注意力层进行计算前,首先加入全连接层进行线性变换,由每个元素的局部相关性组合成全局相关性,进而在计算预测值时可考虑到所有相关的选项,解决了翻译结果未能涵盖全部情景的问题。依据编码器生成的词典,解码器计算当前处理数据与预测候选项之间的相关性,选取相关性最大的候选项作为该处理数据最终的预测结果。
[0007]实现本专利技术的具体步骤如下:
[0008]步骤1,生成训练集:
[0009]步骤1.1,选取至少27万条英文语句和其对应的中文翻译语句构成样本集;
[0010]步骤1.2,去掉样本集中重复的英文语句及其对应的中文翻译语句,剔除长度相对于所有英文语句平均长度过短或过长的英文语句及其对应的中文翻译语句后得到训练集;
[0011]步骤2,构建基于对称型注意力的机器翻译模型:
[0012]步骤2.1,构建一个由多头自注意力层、残差层、前向反馈层串联组成的编码器:
[0013]所述多头自注意力层含有至少8个子空间,每个子空间通过点积乘法计算当前预测单词与其所属语句中所有单词的自注意力;
[0014]所述残差层由层归一化函数实现;
[0015]所述前向反馈层的结构依次为:输入层、全连接层、输出层,将输入层、输出层的维度均设置为512,全连接层由最大值函数实现,其维度设置为2048;
[0016]步骤2.2,构建一个由多头自注意力层、第一残差层、对称型注意力层、第二残差层、前向反馈层、第三残差层串联组成的解码器:
[0017]所述解码器中多头自注意力层、前向反馈层的结构和参数均与步骤2.1中编码器的多头自注意力层和前向反馈层相同;
[0018]所述解码器中第一残差层、第二残差层、第三残差层均由层归一化函数实现;
[0019]所述对称型注意力层由两个平行的对称子空间组成,采用对称型注意力算法计算两支对称型注意力并进行融合,实现该层与编码器输出的注意力矩阵本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于对称型注意力的机器翻译方法,其特征在于,在机器翻译模型的解码器中设置对称型注意力层,在该层的第一对称子空间计算第一支对称型注意力,其中查询矩阵Q

来自解码器,键值矩阵K和实值矩阵V来自编码器;在该层的第二对称子空间计算第二支对称型注意力,其中矩阵Q和矩阵K来自解码器,矩阵V

来自解码器;将两支注意力使用归一化函数融合;该方法具体步骤包括如下:步骤1,生成训练集:步骤1.1,选取至少27万条英文语句和其对应的中文翻译语句构成样本集;步骤1.2,去掉样本集中重复的英文语句及其对应的中文翻译语句,剔除长度相对于所有英文语句平均长度过短或过长的英文语句及其对应的中文翻译语句后得到训练集;步骤2,构建基于对称型注意力的机器翻译模型:步骤2.1,构建一个由多头自注意力层、残差层、前向反馈层串联组成的编码器:所述多头自注意力层含有至少8个子空间,每个子空间通过点积乘法计算当前预测单词与其所属语句中所有单词的自注意力;所述残差层由层归一化函数实现;所述前向反馈层的结构依次为:输入层、全连接层、输出层,将输入层、输出层的维度均设置为512,全连接层由最大值函数实现,其维度设置为2048;步骤2.2,构建一个由多头自注意力层、第一残差层、对称型注意力层、第二残差层、前向反馈层、第三残差层串联组成的解码器:所述解码器中多头自注意力层、前向反馈层的结构和参数均与步骤2.1中编码器的多头自注意力层和前向反馈层相同;所述解码器中第一残差层、第二残差层、第三残差层均由层归一化函数实现;所述对称型注意力层由两个平行的对称子空间组成,采用对称型注意力算法计算两支对称型注意力并进行融合,实现该层与编码器输出的注意力矩阵之间的信息交互;所述对称型注意力算法指的是,分别提取两个平行的对称子空间中的相关性信息,对两个相关性信息分别进行线性变换得到两个特征矩阵;使用点积乘法计算每个特征矩阵的对称型注意力;通过求和函数,融合两个对称型注意力,将两支对称型注意力的和进行层归一化操作,输出对称型注意力矩阵;步骤2.3,将输入层、第一嵌入式表达层、第一编码器、第二编码器、第三编码器、第四编码器、第五编码器、第六编码器依次串联组成编码器组;所述第一嵌入式表达层由嵌入算法实现;所述第一至第六编码器的结构和参数均相同;步骤2.4,构建一个解码器组,其中,第二嵌入式表达层、第一解码器、第二解码器、第三解码器、第四解码器、第五解码器、第六解码器、激活层依次串联,激活层还与第二嵌入式表达层相连,第一至第六解码器还分别与编码器组中的第六编码器相连;所述第二嵌入式表达层的结构和参数均与第一嵌入式表达层相同;所述第一至第六解码器的结构和参数均相同;所述激活层由Softmax激活函数实现其功能;步骤2.5,将编码器组与解码器组串连构成基于对称型注意力的机器翻译模型;步骤3,训练机器翻译模型:
将训练集分批次依次输入到机器翻译模型中,利用损失函数计算翻译文本与对应的中文文本的损失值,使用梯度下降算法迭代更新机器翻译模型中的可学习参数,使用Adam优化器优化训练过程,直至机器翻译模型的损失值收敛为止,得到训练好的基于对称型注意力的机器翻译模型;步骤4,使用训练好的机器翻译模型进行翻译:步骤4.1,去除待翻译英文语句中重复的英文语句,剔除待翻译英文语句中长度相对于所有待翻译英文语句平均长度过短或过长的英文语句;步骤4.2,将处理后的待翻译语句输入到训练好的基于对称型注意力的机器翻译模型,输出对应的翻译文本。2.根据权利要求1所述的基于对称型注意力的机器翻译方法,其特征在于,步骤2.1中所述的层归一化函数如下:R(x1)=LayerNorm(Add(x1,Sublayer(x1)))其中,x1为多头自注意层的输入,R(
·
)为残差层的输出,LayerNorm(
·
)为层归一化函数,Add(
·

【专利技术属性】
技术研发人员:杨鹏飞李述涵程飞徐安林丁越利李晨朱子恒林成民
申请(专利权)人:西安电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1