【技术实现步骤摘要】
基于对称型注意力的机器翻译方法
[0001]本专利技术属于电学
,更进一步涉及计算机辅助设计
中的一种基于对称型注意力的机器翻译方法。本专利技术可用于将待翻译的英文语句经过编码器提取文本特征信息,再解码生成对应的中文翻译语句。
技术介绍
[0002]随着计算机计算能力的提高以及大数据的应用,深度学习取得进一步应用。基于深度学习的机器翻译技术越来越多的应用于不同领域。机器翻译技术可以帮助人们完成源语言到目标语言的翻译工作,从而逐渐代替人类完成复杂且费时费力的翻译工作。目前,在机器翻译领域中,代表最先进水平的Transformer模型是一个完全基于注意力机制的机器翻译模型。其主要思想是,首先将输入向量进行线性变换,得到查询矩阵Query(Q)、键值矩阵Key(K)和实值矩阵Value(V)三个矩阵,利用三个矩阵进行注意力计算得到注意力值,作为元素之间关联程度的体现。在机器翻译工作中,解码器通过注意力值获取数据点之间的相关性信息,作为翻译预测的依据。因此,尽可能最大程度增强数据点之间的全局相关性信息的表达能力,有助于提高机器翻译的准确度。
[0003]四川大学在其拥有的专利技术“一种基于Transformer模型的机器翻译模型优化方法”(专利申请号:202110361317.8,授权公告号:CN 113051938 B)中提出了一种基于Transformer模型的机器翻译模型优化方法。该方法具体实现方法为:步骤一,初始化具有多个不同结构和参数的Transformer模型的种群作为父代模型种群;步骤二,利 ...
【技术保护点】
【技术特征摘要】 【专利技术属性】
1.一种基于对称型注意力的机器翻译方法,其特征在于,在机器翻译模型的解码器中设置对称型注意力层,在该层的第一对称子空间计算第一支对称型注意力,其中查询矩阵Q
’
来自解码器,键值矩阵K和实值矩阵V来自编码器;在该层的第二对称子空间计算第二支对称型注意力,其中矩阵Q和矩阵K来自解码器,矩阵V
′
来自解码器;将两支注意力使用归一化函数融合;该方法具体步骤包括如下:步骤1,生成训练集:步骤1.1,选取至少27万条英文语句和其对应的中文翻译语句构成样本集;步骤1.2,去掉样本集中重复的英文语句及其对应的中文翻译语句,剔除长度相对于所有英文语句平均长度过短或过长的英文语句及其对应的中文翻译语句后得到训练集;步骤2,构建基于对称型注意力的机器翻译模型:步骤2.1,构建一个由多头自注意力层、残差层、前向反馈层串联组成的编码器:所述多头自注意力层含有至少8个子空间,每个子空间通过点积乘法计算当前预测单词与其所属语句中所有单词的自注意力;所述残差层由层归一化函数实现;所述前向反馈层的结构依次为:输入层、全连接层、输出层,将输入层、输出层的维度均设置为512,全连接层由最大值函数实现,其维度设置为2048;步骤2.2,构建一个由多头自注意力层、第一残差层、对称型注意力层、第二残差层、前向反馈层、第三残差层串联组成的解码器:所述解码器中多头自注意力层、前向反馈层的结构和参数均与步骤2.1中编码器的多头自注意力层和前向反馈层相同;所述解码器中第一残差层、第二残差层、第三残差层均由层归一化函数实现;所述对称型注意力层由两个平行的对称子空间组成,采用对称型注意力算法计算两支对称型注意力并进行融合,实现该层与编码器输出的注意力矩阵之间的信息交互;所述对称型注意力算法指的是,分别提取两个平行的对称子空间中的相关性信息,对两个相关性信息分别进行线性变换得到两个特征矩阵;使用点积乘法计算每个特征矩阵的对称型注意力;通过求和函数,融合两个对称型注意力,将两支对称型注意力的和进行层归一化操作,输出对称型注意力矩阵;步骤2.3,将输入层、第一嵌入式表达层、第一编码器、第二编码器、第三编码器、第四编码器、第五编码器、第六编码器依次串联组成编码器组;所述第一嵌入式表达层由嵌入算法实现;所述第一至第六编码器的结构和参数均相同;步骤2.4,构建一个解码器组,其中,第二嵌入式表达层、第一解码器、第二解码器、第三解码器、第四解码器、第五解码器、第六解码器、激活层依次串联,激活层还与第二嵌入式表达层相连,第一至第六解码器还分别与编码器组中的第六编码器相连;所述第二嵌入式表达层的结构和参数均与第一嵌入式表达层相同;所述第一至第六解码器的结构和参数均相同;所述激活层由Softmax激活函数实现其功能;步骤2.5,将编码器组与解码器组串连构成基于对称型注意力的机器翻译模型;步骤3,训练机器翻译模型:
将训练集分批次依次输入到机器翻译模型中,利用损失函数计算翻译文本与对应的中文文本的损失值,使用梯度下降算法迭代更新机器翻译模型中的可学习参数,使用Adam优化器优化训练过程,直至机器翻译模型的损失值收敛为止,得到训练好的基于对称型注意力的机器翻译模型;步骤4,使用训练好的机器翻译模型进行翻译:步骤4.1,去除待翻译英文语句中重复的英文语句,剔除待翻译英文语句中长度相对于所有待翻译英文语句平均长度过短或过长的英文语句;步骤4.2,将处理后的待翻译语句输入到训练好的基于对称型注意力的机器翻译模型,输出对应的翻译文本。2.根据权利要求1所述的基于对称型注意力的机器翻译方法,其特征在于,步骤2.1中所述的层归一化函数如下:R(x1)=LayerNorm(Add(x1,Sublayer(x1)))其中,x1为多头自注意层的输入,R(
·
)为残差层的输出,LayerNorm(
·
)为层归一化函数,Add(
·
技术研发人员:杨鹏飞,李述涵,程飞,徐安林,丁越利,李晨,朱子恒,林成民,
申请(专利权)人:西安电子科技大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。