机器翻译方法技术

技术编号:32355958 阅读:37 留言:0更新日期:2022-02-20 03:16
本申请公开了一种机器翻译方法,通过Transformer模型实现,所述Transformer模型由多个同构的编码器和解码器组成,所述编码器用于编码中文的新能源专利文本,所述解码器用于产出对应英文专利的翻译结果;所述编码器与所述解码器都使用多头自注意力机制来捕获句子内部结构,所述编码器与所述解码器之间通过注意力机制连接来进行对齐翻译。本申请的机器翻译方法,能有效将术语信息整合到新能源中英专利机器翻译中,提高了翻译质量,并且大部分术语词都能得到正确的翻译。语词都能得到正确的翻译。语词都能得到正确的翻译。

【技术实现步骤摘要】
机器翻译方法


[0001]本申请涉及文本处理
,具体涉及一种机器翻译方法。

技术介绍

[0002]新能源领域是一种高新技术产业,各国都把发展新能源作为推进产业结构调整的重要举措。研究新能源专利文献翻译,不仅可以助力中国专利走向国际,推进中国与其他国家间交流合作,也可以学习国外优秀专利技术,推动中国新能源专利产业发展。专利机器翻译作为机器翻译非常重要的一个研究方向也受到了人们的广泛关注。尽管神经机器翻译(NMT)目前已经达到了很高的翻译质量,但对于特定领域来说翻译效果往往不佳,由于专利文本术语翻译不准确会对翻译文本质量产生很大影响,大多数语言会由语言专家创建特定领域的术语,在后期对翻译结果进行译后编辑以提高翻译质量。翻译记忆库被看作是一种训练数据的领域知识,如何将双语机器翻译与双语词典相结合,在运行时将领域术语集成到NMT中仍然是一个具有挑战性的问题。

技术实现思路

[0003]本申请的目的是提供一种机器翻译方法。为了对披露的实施例的一些方面有一个基本的理解,下面给出了简单的概括。该概括部分不是泛泛评述,也不是要确定关键/重要组成元素或描绘这些实施例的保护范围。其唯一目的是用简单的形式呈现一些概念,以此作为后面的详细说明的序言。
[0004]根据本申请实施例的一个方面,提供一种机器翻译方法,通过Transformer模型实现。
[0005]进一步地,所述Transformer模型由多个同构的编码器和解码器组成,所述编码器用于编码中文的新能源专利文本,所述解码器用于产出对应英文专利的翻译结果;所述编码器与所述解码器都使用多头自注意力机制来捕获句子内部结构,所述编码器与所述解码器之间通过注意力机制连接来进行对齐翻译。
[0006]进一步地,所述编码器由6层同构的网络层堆叠组成;每一所述网络层包含2个子网络层,分别是多头自注意力机制和全连接的前馈神经网络;在每一所述子网络层后面都进行残差连接和层归一化处理。
[0007]进一步地,所述解码器由6层同构的网络层堆叠组成,每一所述网络层包含3个子网络层;所述3个子网络层包括自注意力机制层、编码器

解码器注意力子层以及全连接层。
[0008]进一步地,所述多头自注意力机制包括:
[0009]假设词向量是d,源语言句子是X={x1,x2,...,x
n
},X∈R
n
×
d
,经过相似度计算得到Q、K、V三个权重向量:
[0010]Q=XW
Q
,K=XW
K
,V=XW
V
[0011]式中XW
Q
、XW
K
、XW
V
是线性变化矩阵;
[0012]然后Q与K
T
进行矩阵相乘,再将标准化的QK
T
放入到softmax激活函数中对权重进行
归一化处理,最后与V相乘得到最终Attention;
[0013][0014]式中d
k
表示K的维度;
[0015]再经过多头结构拼接向量得到多头注意力向量,进行h次计算使得模型在不同子空间联合处理学到相关联的信息,
[0016]MultiHead=Concat(head1,...,head
h
)W
o
[0017]head1=Attention(QW
iQ
,KW
iK
,VW
iV
)
[0018]在Transformer每一子层之间引入了残差连接和层归一化:
[0019][0020]FFN=max(0,xW1+b1)W2+b2[0021]在编码器和解码器最底层的输入向量中加入采用正余弦的位置编码,
[0022][0023][0024]其中pos表示当前词在句子序列中的位置,i表示向量的维度,d
model
表示向量的总维度。
[0025]根据本申请实施例的另一个方面,提供一种机器翻译装置,包括Transformer模型。
[0026]进一步地,所述Transformer模型由多个同构的编码器和解码器组成,所述编码器用于编码中文的新能源专利文本,所述解码器用于产出对应英文专利的翻译结果;所述编码器与所述解码器都使用多头自注意力机制来捕获句子内部结构,所述编码器与所述解码器之间通过注意力机制连接来进行对齐翻译。
[0027]进一步地,所述编码器由6层同构的网络层堆叠组成;每一所述网络层包含2个子网络层,分别是多头自注意力机制和全连接的前馈神经网络;在每一所述子网络层后面都进行残差连接和层归一化处理。
[0028]进一步地,所述解码器由6层同构的网络层堆叠组成,每一所述网络层包含3个子网络层;所述3个子网络层包括自注意力机制层、编码器

解码器注意力子层以及全连接层。
[0029]根据本申请实施例的另一个方面,提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行,以实现上述的机器翻译方法。
[0030]本申请实施例的其中一个方面提供的技术方案可以包括以下有益效果:
[0031]本申请实施例提供的机器翻译方法,将额外的术语信息融入到神经机器翻译中而不需要修改模型,利用自建的新能源专利语料库和术语库,训练一个添加自定义术语的新能源领域Transformer专利机器翻译模型,利用将源端术语替换为目标端术语以及在源端术语后增添目标端术语两个方法,不断进行模型的迭代更新,能有效将术语信息整合到新能源中英专利机器翻译中,提高了翻译质量,并且大部分术语词都能得到正确的翻译。
[0032]本申请的其他特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者,部分特征和优点可以从说明书中推知或毫无疑义地确定,或者通过实施本申请实施例了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
[0033]为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0034]图1所示为融合术语信息的神经机器翻译模型图;
[0035]图2所示为Transformer的编码器;
[0036]图3所示为Transformer的解码器。
具体实施方式
[0037]为了使本申请的目的、技术方案及优点更加清楚明白,下面结合附图和具体实施例对本申请做进一步说明。应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种机器翻译方法,其特征在于,通过Transformer模型实现。2.根据权利要求1所述的方法,其特征在于,所述Transformer模型由多个同构的编码器和解码器组成,所述编码器用于编码中文的新能源专利文本,所述解码器用于产出对应英文专利的翻译结果;所述编码器与所述解码器都使用多头自注意力机制来捕获句子内部结构,所述编码器与所述解码器之间通过注意力机制连接来进行对齐翻译。3.根据权利要求2所述的方法,其特征在于,所述编码器由6层同构的网络层堆叠组成;每一所述网络层包含2个子网络层,分别是多头自注意力机制和全连接的前馈神经网络;在每一所述子网络层后面都进行残差连接和层归一化处理。4.根据权利要求2所述的方法,其特征在于,所述解码器由6层同构的网络层堆叠组成,每一所述网络层包含3个子网络层;所述3个子网络层包括自注意力机制层、编码器

解码器注意力子层以及全连接层。5.根据权利要求3所述的方法,其特征在于,所述多头自注意力机制包括:假设词向量是d,源语言句子是X={x1,x2,...,x
n
},X∈R
n
×
d
,经过相似度计算得到Q、K、V三个权重向量:Q=XW
Q
,K=XW
K
,V=XW
V
XW
Q
、XW
K
、XW
V
是线性变化矩阵;然后Q与K
T
进行矩阵相乘,再将标准化的QK
T
放入到softmax激活函数中对权重进行归一化处理,最后与V相乘得到最终Attention;d
k
表示K的维度;再经过多头结构拼接向量得到多头注意力向量,进行h次计算使得模型在不同子...

【专利技术属性】
技术研发人员:吕学强张乐孙少奇
申请(专利权)人:北京信息科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1