文本翻译方法、装置、存储介质和计算机设备制造方法及图纸

技术编号:24411101 阅读:20 留言:0更新日期:2020-06-06 09:14
本申请涉及一种文本翻译方法,包括:获取缺少指代词的源文本的词序列和篇章文本;对词序列进行编码得到源端向量序列;对源端向量序列进行解码,得到候选译文、各候选译文对应的目标端向量序列和翻译得分;将词序列和源端向量序列,与各目标端向量序列分别进行重构处理,得到与各候选译文对应且包括所缺少指代词的词信息的重构隐层向量序列;对篇章文本进行编码得到篇章向量,将篇章向量与各重构隐层向量序列分别进行融合,得到对应的第一融合向量序列;将词序列与各第一融合向量序列分别进行重构评估处理,得到重构得分;将翻译得分和重构得分进行加权求和,得到综合得分,根据综合得分从候选译文中筛选目标译文。本申请可以提高翻译质量。

Text translation methods, devices, storage media and computer equipment

【技术实现步骤摘要】
文本翻译方法、装置、存储介质和计算机设备本申请是于2019年03月25日提交中国专利局,申请号为201910228498.X,专利技术名称为“文本翻译方法、装置、存储介质和计算机设备”的分案申请,其全部内容通过引用结合在本申请中。
本申请涉及机器学习
,特别是涉及一种文本翻译方法、装置、存储介质和计算机设备。
技术介绍
机器翻译是通过计算机将一种自然语言文本(需翻译的自然语言文本一般称为源文本)翻译为另一种自然语言文本(翻译后的自然语言文本称为目标译文),以实现不同语种的文本之间的转换。而不同的语种之间会有不同的语法及句式习惯,比如,在汉语和日语等语言中,指代词缺略是极为常见的现象,与之相反,在英、法等语言中,指代词作为句子成分则必不可少。当从指代词缺略语言(比如汉语)到非指代词缺略语言(比如英语)翻译时,需要将隐含的缺略词(也就是缺少的指代词)召回并正确地翻译出来,这给机器翻译带来了极大挑战,机器翻译很难将源端的隐性信息在目标端显性地解码出来。传统的机器翻译方式,以中译英为例,通常采用词对齐算法和语言模型,自动标注并还原中文句子中的缺略代词,将补全了缺略代词的句子传递给统计机器翻译系统进行翻译。然而传统的机器翻译方式,常常由于缺略词还原的低准确率带来错误传递,导致源端被添加了错误的指代词从而使得翻译结果错误,导致了文本翻译准确率低的问题。
技术实现思路
基于此,有必要针对文本翻译准确率低的技术问题,提供一种文本翻译方法、装置、计算机可读存储介质和计算机设备,以及模型训练方法、装置、计算机可读存储介质和计算机设备。一种文本翻译方法,包括:获取源文本的词序列、以及与所述源文本对应的篇章文本;所述源文本为指代词缺略文本;对所述源文本的词序列进行语义编码,得到源端向量序列;对所述源端向量序列进行解码处理,得到多于一组的候选译文、各所述候选译文对应的目标端向量序列、及各所述候选译文对应的翻译得分;将所述词序列和所述源端向量序列,与各所述目标端向量序列分别进行重构处理,得到与各所述候选译文分别对应的重构隐层向量序列;所述重构隐层向量序列包括所述源文本所缺少的指代词的词信息;对所述篇章文本进行编码处理得到篇章向量,并将所述篇章向量与各所述重构隐层向量序列分别进行融合,得到与各所述候选译文分别对应的第一融合向量序列;将所述源文本的词序列,与各所述第一融合向量序列分别进行重构评估处理,得到与各所述候选译文分别对应的重构得分;对各所述候选译文分别对应的翻译得分和重构得分进行加权求和,得到对应的综合得分,从所述候选译文中筛选相应综合得分满足预设条件的目标译文。一种文本翻译装置,所述装置包括:获取模块,用于获取源文本的词序列、以及与所述源文本对应的篇章文本;所述源文本为指代词缺略文本;编码模块,用于对所述源文本的词序列进行语义编码,得到源端向量序列;解码模块,用于对所述源端向量序列进行解码处理,得到多于一组的候选译文、各所述候选译文对应的目标端向量序列、及各所述候选译文对应的翻译得分;重构模块,用于将所述词序列和所述源端向量序列,与各所述目标端向量序列分别进行重构处理,得到与各所述候选译文分别对应的重构隐层向量序列;所述重构隐层向量序列包括所述源文本所缺少的指代词的词信息;所述编码模块还用于对所述篇章文本进行编码处理得到篇章向量;融合模块,用于将所述篇章向量与各所述重构隐层向量序列分别进行融合,得到与各所述候选译文分别对应的第一融合向量序列;评估模块,用于将所述源文本的词序列,与各所述第一融合向量序列分别进行重构评估处理,得到与各所述候选译文分别对应的重构得分;筛选模块,用于对各所述候选译文分别对应的翻译得分和重构得分进行加权求和,得到对应的综合得分,从所述候选译文中筛选相应综合得分满足预设条件的目标译文。一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行所述文本翻译方法的步骤。一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行所述文本翻译方法的步骤。上述文本翻译方法、装置、计算机可读存储介质和计算机设备,对缺少指代词的源文本进行语义编码,得到源端向量序列,并继续对源端向量序列进行解码,得到候选译文、各候选译文对应的目标端向量序列、及各候选译文对应的翻译得分,这样可充分提取出源端和目标端的隐层信息。再通过融合源端和目标端的隐层信息可以共享两端的共性信息,在根据源文本进行重构处理时可以减少冗余信息并能避免重要信息的缺失,不需要额外的缺略词标注信息就可重构回包括缺少的指代词的词信息的重构隐层向量序列,这样使得确定的重构得分可以很好的衡量缺少的指代词信息的召回程度。因此,依据重构得分和翻译得分所筛选出的目标译文,可以减少翻译时缺少缺略代词所带来的影响,大大提高了翻译质量。并且,通过对篇章文本进行编码处理,得到篇章向量,再将篇章向量融合到重构隐层向量序列中,加强了在翻译过程中对篇章信息的感知,从而使得确定的重构得分更为准确,进而提高了目标译文的准确性。附图说明图1为一个实施例中文本翻译方法和/或模型训练方法的应用环境图;图2为一个实施例中文本翻译方法的流程示意图;图3为一个实施例中在汉语表达中缺略词被省略的实例示意图;图4为一个实施例中对源端向量序列进行解码处理的结构框图;图5为一个实施例中通过机器翻译模型对源文本进行翻译得到目标译文的流程示意图;图6为一个实施例中一个实施例中对篇章文本进行编码的结构示意图;图7为一个实施例中通过包括编码器-解码器结构的机器翻译模型进行文本翻译的流程示意图;图8为一个实施例中模型训练步骤的流程示意图:图9为一个实施例中机器翻译模型在训练时的训练任务示意图;图10为一个实施例中在模型训练过程中引入篇章信息的结构示意图;图11为一个具体实施例中文本翻译方法的流程示意图;图12为一个实施例中通过已训练的机器翻译模型翻译文本的步骤的流程示意图;图13为一个实施例中文本翻译装置的结构框图;图14为另一个实施例中文本翻译装置的结构框图;图15为一个实施例中模型训练装置的结构框图;图16为另一个实施例中模型训练装置的结构框图;图17为一个实施例中计算机设备的结构框图。具体实施方式为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。图1为一个实施例中文本翻译方法和/或模型训练方法的应用环境图。参照图1,该文本翻译方法和/或模型训练方法应用于文本处理系统。该文本处理系统包括终端110和服务器120。终端110和服务器120通过网络连接。终端110具体可以是台式终端或移本文档来自技高网...

【技术保护点】
1.一种文本翻译方法,包括:/n获取源文本的词序列、以及与所述源文本对应的篇章文本;所述源文本为指代词缺略文本;/n对所述源文本的词序列进行语义编码,得到源端向量序列;/n对所述源端向量序列进行解码处理,得到多于一组的候选译文、各所述候选译文对应的目标端向量序列、及各所述候选译文对应的翻译得分;/n将所述词序列和所述源端向量序列,与各所述目标端向量序列分别进行重构处理,得到与各所述候选译文分别对应的重构隐层向量序列;所述重构隐层向量序列包括所述源文本所缺少的指代词的词信息;/n对所述篇章文本进行编码处理得到篇章向量,并将所述篇章向量与各所述重构隐层向量序列分别进行融合,得到与各所述候选译文分别对应的第一融合向量序列;/n将所述源文本的词序列,与各所述第一融合向量序列分别进行重构评估处理,得到与各所述候选译文分别对应的重构得分;/n对各所述候选译文分别对应的翻译得分和重构得分进行加权求和,得到对应的综合得分,从所述候选译文中筛选相应综合得分满足预设条件的目标译文。/n

【技术特征摘要】
1.一种文本翻译方法,包括:
获取源文本的词序列、以及与所述源文本对应的篇章文本;所述源文本为指代词缺略文本;
对所述源文本的词序列进行语义编码,得到源端向量序列;
对所述源端向量序列进行解码处理,得到多于一组的候选译文、各所述候选译文对应的目标端向量序列、及各所述候选译文对应的翻译得分;
将所述词序列和所述源端向量序列,与各所述目标端向量序列分别进行重构处理,得到与各所述候选译文分别对应的重构隐层向量序列;所述重构隐层向量序列包括所述源文本所缺少的指代词的词信息;
对所述篇章文本进行编码处理得到篇章向量,并将所述篇章向量与各所述重构隐层向量序列分别进行融合,得到与各所述候选译文分别对应的第一融合向量序列;
将所述源文本的词序列,与各所述第一融合向量序列分别进行重构评估处理,得到与各所述候选译文分别对应的重构得分;
对各所述候选译文分别对应的翻译得分和重构得分进行加权求和,得到对应的综合得分,从所述候选译文中筛选相应综合得分满足预设条件的目标译文。


2.根据权利要求1所述的方法,其特征在于,所述对所述篇章文本进行编码处理得到篇章向量,包括:
确定所述篇章文本所包括的整句;
对各整句分别进行分词处理,得到各整句各自对应的词序列;
对各整句各自对应的词序列分别进行词级编码处理,得到与各整句分别对应的句子向量序列;
将与各整句分别对应的句子向量序列进行句子级编码处理,得到与所述篇章文本对应的篇章向量。


3.根据权利要求1所述的方法,其特征在于,所述对所述源端向量序列进行解码处理,得到多于一组的候选译文、各所述候选译文对应的目标端向量序列、及各所述候选译文对应的翻译得分,包括:
依次对所述源端向量序列进行解码得到目标端向量,且每次解码时根据前次确定的候选词的词向量进行解码,并根据当次的目标端向量确定当次的多于一个的候选词;
将依次解码得到的各候选词,按所述候选词的生成时序,拼接得到多于一组的候选译文;
通过构成各候选译文的候选词所对应的目标端向量,确定与各候选译文分别对应的目标端向量序列;
根据所述源端向量序列、历史解码得到的候选词、及历史解码得到的目标端向量序列,确定与各候选词对应的翻译得分;
依据构成各所述候选译文的各候选词所对应的翻译得分,计算得到与各所述候选译文对应的翻译得分。


4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取与所述源端向量序列对应的源端注意力分配权重向量;
根据所述源端注意力分配权重向量、以及所述源端向量序列,计算得到源端内容向量;
分别获取与各目标端向量序列对应的目标端注意力分配权重向量;
根据所述目标端注意力分配权重向量、以及相对应的目标端向量序列,计算得到与各候选译文分别对应的目标端内容向量;
所述将所述词序列和所述源端向量序列,与各所述目标端向量序列分别进行重构处理,得到与各所述候选译文分别对应的重构隐层向量序列,包括:
将所述词序列和所述源端内容向量,与各所述目标端内容向量分别进行重构处理,得到与各所述候选译文分别对应的重构隐层向量序列。


5.根据权利要求4所述的方法,其特征在于,所述将所述词序列和所述源端内容向量,与各所述目标端内容向量分别进行重构处理,得到与各所述候选译文分别对应的重构隐层向量序列,包括:
对于每组候选译文,分别根据所述源文本中当前词的前一词的词向量、前次重构得到的重构隐层向量、所述源端内容向量和各候选译文各自所对应的目标端内容向量,重构得到当次重构隐层向量;
对于每组候选译文,分别将依次重构得到的重构隐层向量构成重构隐层向量序列;重构得到的重构隐层向量序列包括所述源文本所缺少的指代词的词信息。


6.根据权利要求4所述的方法,其特征在于,所述将所述源文本的词序列,与各所述重构隐层向量序列分别进行重构评估处理,得到与各所述候选译文分别对应的重构得分,包括:
对于每组候选译文,分别根据所述源文本中当前词的前一词的词向量、所述源端内容向量、以及各候选译文对应的当次的重构隐层向量和目标端内容向量,计算得到与各候选译文分别对应、且与所述源文本中当前词对应的重构得分;
对于每组候选译文,分别对与所述源文本中各词所对应的重构得分进行连乘运算,得到与各候选译文分别对应的重构得分。


7.根据权利要求1所述的方法,其特征在于,所述从所述候选译文中筛选相应综合得分满足预设条件的目标译文,包括:
从所述候选译文中,筛选相应综合得分为最高得分的候选译文;
将筛选出的候选译文作为目标译文并输出。


8.根据权利要求1至7中任一项所述的方法,其特征在于,所述文本翻译方法通过机器翻译模型执行,所述机器翻译模型的训练步骤包括:
获取样本源文本、参考目标译文、以及与所述源文本对应的标注词序列;所述标注词序列是对所述样本源文本进行缺略词标注处理所得到的词序列;
将所述样本源文本输入机器翻译模型中进行训练,得到预测目标译...

【专利技术属性】
技术研发人员:王龙跃涂兆鹏王星史树明
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1