文本翻译方法、装置、存储介质和计算机设备制造方法及图纸

技术编号：24411101 阅读：31 留言：0更新日期：2020-06-06 09:14

本申请涉及一种文本翻译方法，包括：获取缺少指代词的源文本的词序列和篇章文本；对词序列进行编码得到源端向量序列；对源端向量序列进行解码，得到候选译文、各候选译文对应的目标端向量序列和翻译得分；将词序列和源端向量序列，与各目标端向量序列分别进行重构处理，得到与各候选译文对应且包括所缺少指代词的词信息的重构隐层向量序列；对篇章文本进行编码得到篇章向量，将篇章向量与各重构隐层向量序列分别进行融合，得到对应的第一融合向量序列；将词序列与各第一融合向量序列分别进行重构评估处理，得到重构得分；将翻译得分和重构得分进行加权求和，得到综合得分，根据综合得分从候选译文中筛选目标译文。本申请可以提高翻译质量。

Text translation methods, devices, storage media and computer equipment

全部详细技术资料下载

【技术实现步骤摘要】
文本翻译方法、装置、存储介质和计算机设备本申请是于2019年03月25日提交中国专利局，申请号为201910228498.X，专利技术名称为“文本翻译方法、装置、存储介质和计算机设备”的分案申请，其全部内容通过引用结合在本申请中。
本申请涉及机器学习
，特别是涉及一种文本翻译方法、装置、存储介质和计算机设备。
技术介绍
机器翻译是通过计算机将一种自然语言文本(需翻译的自然语言文本一般称为源文本)翻译为另一种自然语言文本(翻译后的自然语言文本称为目标译文)，以实现不同语种的文本之间的转换。而不同的语种之间会有不同的语法及句式习惯，比如，在汉语和日语等语言中，指代词缺略是极为常见的现象，与之相反，在英、法等语言中，指代词作为句子成分则必不可少。当从指代词缺略语言(比如汉语)到非指代词缺略语言(比如英语)翻译时，需要将隐含的缺略词(也就是缺少的指代词)召回并正确地翻译出来，这给机器翻译带来了极大挑战，机器翻译很难将源端的隐性信息在目标端显性地解码出来。传统的机器翻译方式，以中译英为例，通常采用词对齐算法和语言模型，自动标注并还原中文句子中的缺略代词，将补全了缺略代词的句子传递给统计机器翻译系统进行翻译。然而传统的机器翻译方式，常常由于缺略词还原的低准确率带来错误传递，导致源端被添加了错误的指代词从而使得翻译结果错误，导致了文本翻译准确率低的问题。
技术实现思路
基于此，有必要针对文本翻译准确率低的技术问题，提供一种文本翻译方法、装置、计算机可读存储介质和计算机设备，以及模型训练方法...

【技术保护点】
1.一种文本翻译方法，包括：/n获取源文本的词序列、以及与所述源文本对应的篇章文本；所述源文本为指代词缺略文本；/n对所述源文本的词序列进行语义编码，得到源端向量序列；/n对所述源端向量序列进行解码处理，得到多于一组的候选译文、各所述候选译文对应的目标端向量序列、及各所述候选译文对应的翻译得分；/n将所述词序列和所述源端向量序列，与各所述目标端向量序列分别进行重构处理，得到与各所述候选译文分别对应的重构隐层向量序列；所述重构隐层向量序列包括所述源文本所缺少的指代词的词信息；/n对所述篇章文本进行编码处理得到篇章向量，并将所述篇章向量与各所述重构隐层向量序列分别进行融合，得到与各所述候选译文分别对应的第一融合向量序列；/n将所述源文本的词序列，与各所述第一融合向量序列分别进行重构评估处理，得到与各所述候选译文分别对应的重构得分；/n对各所述候选译文分别对应的翻译得分和重构得分进行加权求和，得到对应的综合得分，从所述候选译文中筛选相应综合得分满足预设条件的目标译文。/n

【技术特征摘要】
1.一种文本翻译方法，包括：
获取源文本的词序列、以及与所述源文本对应的篇章文本；所述源文本为指代词缺略文本；
对所述源文本的词序列进行语义编码，得到源端向量序列；
对所述源端向量序列进行解码处理，得到多于一组的候选译文、各所述候选译文对应的目标端向量序列、及各所述候选译文对应的翻译得分；
将所述词序列和所述源端向量序列，与各所述目标端向量序列分别进行重构处理，得到与各所述候选译文分别对应的重构隐层向量序列；所述重构隐层向量序列包括所述源文本所缺少的指代词的词信息；
对所述篇章文本进行编码处理得到篇章向量，并将所述篇章向量与各所述重构隐层向量序列分别进行融合，得到与各所述候选译文分别对应的第一融合向量序列；
将所述源文本的词序列，与各所述第一融合向量序列分别进行重构评估处理，得到与各所述候选译文分别对应的重构得分；
对各所述候选译文分别对应的翻译得分和重构得分进行加权求和，得到对应的综合得分，从所述候选译文中筛选相应综合得分满足预设条件的目标译文。

2.根据权利要求1所述的方法，其特征在于，所述对所述篇章文本进行编码处理得到篇章向量，包括：
确定所述篇章文本所包括的整句；
对各整句分别进行分词处理，得到各整句各自对应的词序列；
对各整句各自对应的词序列分别进行词级编码处理，得到与各整句分别对应的句子向量序列；
将与各整句分别对应的句子向量序列进行句子级编码处理，得到与所述篇章文本对应的篇章向量。

3.根据权利要求1所述的方法，其特征在于，所述对所述源端向量序列进行解码处理，得到多于一组的候选译文、各所述候选译文对应的目标端向量序列、及各所述候选译文对应的翻译得分，包括：
依次对所述源端向量序列进行解码得到目标端向量，且每次解码时根据前次确定的候选词的词向量进行解码，并根据当次的目标端向量确定当次的多于一个的候选词；
将依次解码得到的各候选词，按所述候选词的生成时序，拼接得到多于一组的候选译文；
通过构成各候选译文的候选词所对应的目标端向量，确定与各候选译文分别对应的目标端向量序列；
根据所述源端向量序列、历史解码得到的候选词、及历史解码得到的目标端向量序列，确定与各候选词对应的翻译得分；
依据构成各所述候选译文的各候选词所对应的翻译得分，计算得到与各所述候选译文对应的翻译得分。

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：
获取与所述源端向量序列对应的源端注意力分配权重向量；
根据所述源端注意力分配权重向量、以及所述源端向量序列，计算得到源端内容向量；
分别获取与各目标端向量序列对应的目标端注意力分配权重向量；
根据所述目标端注意力分配权重向量、以及相对应的目标端向量序列，计算得到与各候选译文分别对应的目标端内容向量；
所述将所述词序列和所述源端向量序列，与各所述目标端向量序列分别进行重构处理，得到与各所述候选译文分别对应的重构隐层向量序列，包括：
将所述词序列和所述源端内容向量，与各所述目标端内容向量分别进行重构处理，得到与各所述候选译文分别对应的重构隐层向量序列。

5.根据权利要求4所述的方法，其特征在于，所述将所述词序列和所述源端内容向量，与各所述目标端内容向量分别进行重构处理，得到与各所述候选译文分别对应的重构隐层向量序列，包括：
对于每组候选译文，分别根据所述源文本中当前词的前一词的词向量、前次重构得到的重构隐层向量、所述源端内容向量和各候选译文各自所对应的目标端内容向量，重构得到当次重构隐层向量；
对于每组候选译文，分别将依次重构得到的重构隐层向量构成重构隐层向量序列；重构得到的重构隐层向量序列包括所述源文本所缺少的指代词的词信息。

6.根据权利要求4所述的方法，其特征在于，所述将所述源文本的词序列，与各所述重构隐层向量序列分别进行重构评估处理，得到与各所述候选译文分别对应的重构得分，包括：
对于每组候选译文，分别根据所述源文本中当前词的前一词的词向量、所述源端内容向量、以及各候选译文对应的当次的重构隐层向量和目标端内容向量，计算得到与各候选译文分别对应、且与所述源文本中当前词对应的重构得分；
对于每组候选译文，分别对与所述源文本中各词所对应的重构得分进行连乘运算，得到与各候选译文分别对应的重构得分。

7.根据权利要求1所述的方法，其特征在于，所述从所述候选译文中筛选相应综合得分满足预设条件的目标译文，包括：
从所述候选译文中，筛选相应综合得分为最高得分的候选译文；
将筛选出的候选译文作为目标译文并输出。

8.根据权利要求1至7中任一项所述的方法，其特征在于，所述文本翻译方法通过机器翻译模型执行，所述机器翻译模型的训练步骤包括：
获取样本源文本、参考目标译文、以及与所述源文本对应的标注词序列；所述标注词序列是对所述样本源文本进行缺略词标注处理所得到的词序列；
将所述样本源文本输入机器翻译模型中进行训练，得到预测目标译...

【专利技术属性】
技术研发人员：王龙跃，涂兆鹏，王星，史树明，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人