机器翻译解码方法、装置、电子设备及存储介质制造方法及图纸

技术编号：37141401 阅读：37 留言：0更新日期：2023-04-06 21:46

本公开提供了一种机器翻译解码方法、装置、电子设备及存储介质，其中，该方法包括：获取待翻译的第一源语言文本；基于预先统计的目标语言长度分布对第一源语言文本对应的第一目标语言文本进行长度预测，确定第一目标语言文本的预测长度；基于预测长度，将第一源语言文本翻译成第一目标语言文本。本公开采用预先统计的目标语言长度分布可以预测适配于目标语言文本的长度，利用这一预测长度可以很好的支持源语言文本至目标语言文本的翻译，提升翻译效率。译效率。译效率。

全部详细技术资料下载

【技术实现步骤摘要】
机器翻译解码方法、装置、电子设备及存储介质

[0001]本公开涉及机器翻译
，具体而言，涉及一种机器翻译解码方法、装置、电子设备及存储介质。

技术介绍

[0002]机器翻译技术指的是使用计算设备将一种自然语言(一般是源语言)的原文翻译为另一种自然语言(一般是目标语言)的译文的技术。目前常用的机器翻译是一种自回归的解码方式，经过多次迭代后，可以按照句子从左到右依次解码生成目标语言。然而，自回归的这种解码特性导致解码速度很慢。
[0003]为了缓解解码速度慢的问题，可以采用非自回归的机器翻译方法，无需考虑目标语言生成过程的时序性，采用一次推理即可同时生成所有目标语言词汇，大大提升推理速度。
[0004]然而，在翻译过程中由于无法准确确定待翻译的目标语言文本长度，导致重复翻译或者遗漏翻译的问题。

技术实现思路

[0005]本公开实施例至少提供一种机器翻译解码方法、装置、电子设备及存储介质，以自适应的确定目标语言文本的预测长度，提升翻译效率。
[0006]第一方面，本公开实施例提供了一种机器翻译解码方法，包括：
[0007]获取待翻译的第一源语言文本；
[0008]基于预先统计的目标语言长度分布对所述第一源语言文本对应的第一目标语言文本进行长度预测，确定所述第一目标语言文本的预测长度；
[0009]基于所述预测长度，将所述第一源语言文本翻译成所述第一目标语言文本。
[0010]在一种可能的实施方式中，所述目标语言长度分布的预先统计包括：
[...

【技术保护点】

【技术特征摘要】
1.一种机器翻译解码方法，其特征在于，包括：获取待翻译的第一源语言文本；基于预先统计的目标语言长度分布对所述第一源语言文本对应的第一目标语言文本进行长度预测，确定所述第一目标语言文本的预测长度；基于所述预测长度，将所述第一源语言文本翻译成所述第一目标语言文本。2.根据权利要求1所述的方法，其特征在于，所述目标语言长度分布的预先统计包括：获取多个训练文本对，每个训练文本对包括第二源语言文本及对应的第二目标语言文本，多个训练文本对的第二源语言文本包括至少一种第一文本长度，多个训练文本对的第二目标语言文本包括至少一种第二文本长度；基于多个训练文本对的第一文本长度及第二文本长度，确定所述目标语言长度分布。3.根据权利要求2所述的方法，其特征在于，所述确定所述目标语言长度分布，包括：确定每种所述第一文本长度对应的所述第二文本长度的分布概率；基于分布概率符合预设要求的第二文本长度，确定每种所述第一文本长度对应的目标语言长度；基于每种所述第一文本长度对应的目标语言长度，确定所述目标语言长度分布。4.根据权利要求3所述的方法，其特征在于，所述分布概率符合预设要求的确定包括：选取所述分布概率中的最大值。5.根据权利要求3所述的方法，其特征在于，所述分布概率符合预设要求的确定包括：选取所述分布概率中大于预设概率的值。6.根据权利要求5所述的方法，其特征在于，所述第一文本长度对应的目标语言长度的确定包括：从多个大于预设概率的分布概率所对应的第二文本长度中选取长度值最大的第二文本长度；将选取的所述第二文本长度，确定为所述第一文本长度对应的目标语言长度。7.根据权利要求1所述的方法，其特征在于，还包括：基于所述第一目标语言文本的翻译结果和预先统计的目标语言长度分布，重新确定所述第一目标语言文本的预测长度。8.根据权利要求2所述的方法，其特征在于，所述确定所述目标语言长度分布，包括：确定每个所述第一文本长度对应的第二文本长度；基于多个第一文本长度分别确定的第二文本长度对长度分布进行建模，得到概率分布；基于所述概率分布，确...

【专利技术属性】
技术研发人员：何莎，张丽民，张楠赓，
申请(专利权)人：杭州嘉楠耘智信息科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人