一种融合推敲网络和字符编码的神经机器翻译方法技术

技术编号:30049032 阅读:15 留言:0更新日期:2021-09-15 10:50
本发明专利技术提供了一种融合推敲网络和字符编码的神经机器翻译方法,属于数据处理技术领域,采用了预先训练词向量和推敲网络中的预先模型的方法,以Transformer为基础预先训练一个基础的翻译模型,通过拼接的多表征融合的词向量表示,作为一个基础模型架构,在此的基础之上,加入推敲网络结构,对基础模型的解码器部分和编码器部分分别进行相关的注意力计算,获取解码语句的全局信息,为推敲解码部分提供更加丰富的语义信息和全局信息,使得翻译可以更加精准。同时采用了波束搜索的方法,提高了生成词语的更多的可能性,得到更加逼近全局最优的翻译答案。优的翻译答案。优的翻译答案。

【技术实现步骤摘要】
一种融合推敲网络和字符编码的神经机器翻译方法


[0001]本专利技术属于数据处理
,尤其涉及一种融合推敲网络和字符编码的神经机器翻译方法。

技术介绍

[0002]随着人工智能的领域研究的深入,神经机器翻译领域被各类新模型不断的刷新翻译效果,目前在深度学习的各项任务中,都少不了其结构的身影。从机器翻译被提出到现在的几十年间,所有的机器翻译都无法逃避去思考翻译过程中。对于以深度学习为基础的机器翻译,最早使用的是以词作为网络的基本单位。相比句子而言,单词更加符合本专利技术的第一感觉,且使用词作为模型建模的基本单位需要的资源更少,模型的可解释更高。然而随着词向量的研究不断的深入,许多问题也渐渐地浮现了出来。社会的发展造成了词表不停地有新词出现,词表过大等问题,齐夫定律表示词出现次数的排名和其出现的次数成反比。而目前的机器翻译模型,从向量空间的角度就是建立一个从源序列到目标序列的完美词映射。但是根据齐夫定律可知,很多的词在文本中出现的次数不高,这严重的拖慢了模型训练的速度。一些罕见的词汇导致翻译的质量降低很多,为了解决上述的问题,研究者们提出了字词的概念,在基于CNN和RNN网络结构中都获得了显著的效果。通过对词进一步的划分,在不影响整个模型的效果的同时,在大多数情况下缓解了罕见词的问题,研究人员发现将字词融入网络,可以缓解齐夫定律带来的不良影响。
[0003]随着神经机器翻译的探索不断加深,几乎所有的翻译模型都是以编码器解码器框架为基础的,虽然其结构取得不错的效果,但是所有的翻译都是从左到右一次性的翻译结束。相反人类在翻译的时候往往会先翻译自己会的,然后通读全文再做最后的翻译,这样才能有准确、可信且雅致的翻译。解码过程的单向性,导致其只可以利用已经生成的单词,而缺乏对目标译文表达内容的整体把握。基于这个方面的考虑以及受到人类翻译过程的启发,微软研究院提出了推敲神经网络,旨在模型最终的翻译不仅可以利用源文本而且可以获取初次翻译的草稿信息。
[0004]基于上述论证,本专利技术会对字符级编码进行研究,针对翻译的词向量提出多表征融合,对输入的数据采用多种粒度进行编码。同时会结合推敲神经网络的思想,结合Transformer网络提出新的神经机器翻译模型。

技术实现思路

[0005]针对现有技术中的上述不足,本专利技术提供的一种融合推敲网络和字符编码的神经机器翻译方法,提高了生成词语的更多的可能性,同时避免的贪心策略中出现的局部最优,导致最后完整的翻译不流畅效果不好的情况,本专利技术能得到更加逼近全局最优的翻译答案。
[0006]为了达到以上目的,本专利技术采用的技术方案为:
[0007]本方案提供一种融合推敲网络和字符编码的神经机器翻译方法,包括以下步骤:
[0008]S1、以Transformer模型为基础训练模型架构,并通过拼接多表征融合的词向量表示得到翻译模型;
[0009]S2、利用推敲网络,对翻译模型的解码部分和编码部分分别进行相关的注意力计算得到解码语句的全局信息;
[0010]S3、根据所述解码语句的全局信号,利用波束搜索方法得到全局最优翻译,完成融合推敲网络和字符编码的神经机器翻译。
[0011]进一步地,所述步骤S1包括以下步骤:
[0012]S101、以Transformer模型为基础训练模型架构,对输入序列分别进行词级和字符级的编码,并通过拼接方式作为文本的最后特征向量;
[0013]S102、训练词向量的编码,并利用文本的最后特征向量对Transformer模型进行训练,得到翻译模型。
[0014]再进一步地,所述步骤S101中字符级编码具体为:将输入序列经过卷积和GLU网络进行信息补充。
[0015]再进一步地,所述步骤S2中推敲网络包括编码单元、第一解码单元和第二解码单元;
[0016]所述编码单元为6层的堆叠层结构,各所述结构层由两个子层堆叠,所述两个子层包括多头自注意力层和位置前馈神经网络层,且多头自注意力层和位置前馈神经网络层均使用了残差网络和层级归一化;
[0017]所述第一解码单元为6层的堆叠层结构,每一层包括具有掩码功能的自注意力层、交叉注意力层以及位置前馈神经网络层,且每一层均使用了残差网络和归一化进行了连接;
[0018]所述第二解码单元为6层的堆叠层结构,每一层包括具有掩码功能的自注意力层、与编码单元连接的交叉注意力计算层、与第一解码单元连接的交叉注意力计算层以及位置前馈神经网络,且每一层均使用了残差网络和归一化进行了连接。
[0019]再进一步地,所述步骤S3中全局最优翻译的表达式如下:
[0020][0021]其中,score(y1,y2,...,y
t
)表示全局最优翻译,y
t
表示解码器中输出的序列,y
i
表示目标生成的单词序列,x表示词向量,i表示目标单词的个数。
[0022]本专利技术的有益效果:
[0023](1)本专利技术先采用了预先训练词向量和推敲网络中的预先模型的方法,以Transformer为基础预先训练一个基础的翻译模型,通过拼接的多表征融合的词向量表示,作为一个基础模型架构,在此的基础之上,加入推敲网络结构对基础模型的解码器部分和编码器部分分别进行相关的注意力计算,获取解码语句的全局信息,为推敲解码部分提供更加丰富的语义信息和全局信息,使得翻译可以更加精准。
[0024](2)本专利技术采用了波束搜索的方法,提高了生成词语的更多的可能性,同时避免的贪心策略中出现的局部最优,导致最后完整的翻译不流畅效果不好的情况,通过波束搜索的方法本专利技术可以得到更加逼近全局最优的翻译答案。
附图说明
[0025]图1为本专利技术的方法流程图。
[0026]图2为本实施例中波束算法实例演示示意图。
具体实施方式
[0027]下面对本专利技术的具体实施方式进行描述,以便于本
的技术人员理解本专利技术,但应该清楚,本专利技术不限于具体实施方式的范围,对本
的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本专利技术的精神和范围内,这些变化是显而易见的,一切利用本专利技术构思的专利技术创造均在保护之列。
[0028]近些年,深度神经网络的科研工作不断深入,作为神经机器翻译基础元件的词向量表征,其蕴含了单词的词义和句子句意信息。因而,针对文本数据精准的词向量表征至关重要,目前大部分自然语言处理模型都是单词级别的嵌入向量,而单词的组成单位字符其蕴含了众多有效信息。有实验证明,在数据集足够的情况下,通过CNN网络可以不需要句子的信息,仅仅依赖字符间组合信息也可以取得不凡的效果。除此之外,字符信息的使用可以有效的处理特别符号与拼写错误等问题。
[0029]有鉴于此,本专利技术提供了一种融合推敲网络和字符编码的神经机器翻译方法,其实现方法如下:
[0030]S1、以Transformer模型为基础训练模型架构,并通过拼接多表征融合的词向量表示得到翻译模型,其实现方法如下:
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种融合推敲网络和字符编码的神经机器翻译方法,其特征在于,包括以下步骤:S1、以Transformer模型为基础训练模型架构,并通过拼接多表征融合的词向量表示得到翻译模型;S2、利用推敲网络,对翻译模型的解码部分和编码部分分别进行相关的注意力计算得到解码语句的全局信息;S3、根据所述解码语句的全局信号,利用波束搜索方法得到全局最优翻译,完成融合推敲网络和字符编码的神经机器翻译。2.根据权利要求1所述的融合推敲网络和字符编码的神经机器翻译方法,其特征在于,所述步骤S1包括以下步骤:S101、以Transformer模型为基础训练模型架构,对输入序列分别进行词级和字符级的编码,并通过拼接方式作为文本的最后特征向量;S102、训练词向量的编码,并利用文本的最后特征向量对Transformer模型进行训练,得到翻译模型。3.根据权利要求2所述的融合推敲网络和字符编码的神经机器翻译方法,其特征在于,所述步骤S101中字符级编码具体为:将输入序列经过卷积和GLU网络进行信息补充。4.根据权利要求1所述的融合推敲网络和字符编码的神经机器翻译方法,其特征在于,所述...

【专利技术属性】
技术研发人员:李建平李天凯贺喜蒋涛陈强强王青松
申请(专利权)人:电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1