机器翻译方法技术

技术编号：32355958 阅读：37 留言：0更新日期：2022-02-20 03:16

本申请公开了一种机器翻译方法，通过Transformer模型实现，所述Transformer模型由多个同构的编码器和解码器组成，所述编码器用于编码中文的新能源专利文本，所述解码器用于产出对应英文专利的翻译结果；所述编码器与所述解码器都使用多头自注意力机制来捕获句子内部结构，所述编码器与所述解码器之间通过注意力机制连接来进行对齐翻译。本申请的机器翻译方法，能有效将术语信息整合到新能源中英专利机器翻译中，提高了翻译质量，并且大部分术语词都能得到正确的翻译。语词都能得到正确的翻译。语词都能得到正确的翻译。

全部详细技术资料下载

【技术实现步骤摘要】
机器翻译方法

[0001]本申请涉及文本处理
，具体涉及一种机器翻译方法。

技术介绍

[0002]新能源领域是一种高新技术产业，各国都把发展新能源作为推进产业结构调整的重要举措。研究新能源专利文献翻译，不仅可以助力中国专利走向国际，推进中国与其他国家间交流合作，也可以学习国外优秀专利技术，推动中国新能源专利产业发展。专利机器翻译作为机器翻译非常重要的一个研究方向也受到了人们的广泛关注。尽管神经机器翻译(NMT)目前已经达到了很高的翻译质量，但对于特定领域来说翻译效果往往不佳，由于专利文本术语翻译不准确会对翻译文本质量产生很大影响，大多数语言会由语言专家创建特定领域的术语，在后期对翻译结果进行译后编辑以提高翻译质量。翻译记忆库被看作是一种训练数据的领域知识，如何将双语机器翻译与双语词典相结合，在运行时将领域术语集成到NMT中仍然是一个具有挑战性的问题。

技术实现思路

[0003]本申请的目的是提供一种机器翻译方法。为了对披露的实施例的一些方面有一个基本的理解，下面给出了简单的概括。该概括部分不是泛泛评述，也不是要确定关键/重要组成元素或描绘这些实施例的保护范围。其唯一目的是用简单的形式呈现一些概念，以此作为后面的详细说明的序言。
[0004]根据本申请实施例的一个方面，提供一种机器翻译方法，通过Transformer模型实现。
[0005]进一步地，所述Transformer模型由多个同构的编码器和解码器组成，所述编码器用于编码中文的新能源专利文本，所述解码器用于产出对应英文专利的...

【技术保护点】

【技术特征摘要】
1.一种机器翻译方法，其特征在于，通过Transformer模型实现。2.根据权利要求1所述的方法，其特征在于，所述Transformer模型由多个同构的编码器和解码器组成，所述编码器用于编码中文的新能源专利文本，所述解码器用于产出对应英文专利的翻译结果；所述编码器与所述解码器都使用多头自注意力机制来捕获句子内部结构，所述编码器与所述解码器之间通过注意力机制连接来进行对齐翻译。3.根据权利要求2所述的方法，其特征在于，所述编码器由6层同构的网络层堆叠组成；每一所述网络层包含2个子网络层，分别是多头自注意力机制和全连接的前馈神经网络；在每一所述子网络层后面都进行残差连接和层归一化处理。4.根据权利要求2所述的方法，其特征在于，所述解码器由6层同构的网络层堆叠组成，每一所述网络层包含3个子网络层；所述3个子网络层包括自注意力机制层、编码器
‑
解码器注意力子层以及全连接层。5.根据权利要求3所述的方法，其特征在于，所述多头自注意力机制包括：假设词向量是d，源语言句子是X＝{x1，x2，...，x
n
}，X∈R
n
×
d
，经过相似度计算得到Q、K、V三个权重向量：Q＝XW
Q
，K＝XW
K
，V＝XW
V
XW
Q
、XW
K
、XW
V
是线性变化矩阵；然后Q与K
T
进行矩阵相乘，再将标准化的QK
T
放入到softmax激活函数中对权重进行归一化处理，最后与V相乘得到最终Attention；d
k
表示K的维度；再经过多头结构拼接向量得到多头注意力向量，进行h次计算使得模型在不同子...

【专利技术属性】
技术研发人员：吕学强，张乐，孙少奇，
申请(专利权)人：北京信息科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人