文本翻译模型的获取方法、文本翻译方法、装置及设备制造方法及图纸

技术编号:38883023 阅读:7 留言:0更新日期:2023-09-22 14:12
本申请公开了一种文本翻译模型的获取方法、文本翻译方法、装置及设备,属于自然语言处理技术领域。方法包括:获取源语言文本和源语言文本对应的第一目标语言文本,第一目标语言文本是标注的源语言文本的翻译文本;确定源语言文本中源语言实体对应的目标语言实体;将源语言文本和源语言文本中源语言实体对应的目标语言实体进行拼接,得到拼接文本;基于拼接文本确定源语言文本对应的第二目标语言文本,第二目标语言文本是预测的源语言文本的翻译文本;基于第一目标语言文本和第二目标语言文本,获取文本翻译模型。通过对拼接文本中的源语言文本进行翻译得到第二目标语言文本,降低了翻译不通顺情况的出现,提高文本翻译结果的准确性。准确性。准确性。

【技术实现步骤摘要】
文本翻译模型的获取方法、文本翻译方法、装置及设备


[0001]本申请实施例涉及自然语言处理
,特别涉及一种文本翻译模型的获取方法、文本翻译方法、装置及设备。

技术介绍

[0002]在自然语言处理
中,文本翻译处理是一种重要的处理。目前,常对神经网络模型进行训练,以获取文本翻译模型,并利用文本翻译模型进行文本翻译处理。
[0003]相关技术中,获取源语言文本和源语言文本对应的第一目标语言文本,第一目标语言文本是标注的源语言文本的翻译文本。利用神经网络模型对源语言文本中除源语言实体之外的其他文本进行翻译,得到翻译文本。接着,将源语言实体对应的目标语言实体嵌入翻译文本中,得到源语言文本对应的第二目标语言文本,第二目标语言文本是预测的源语言文本的翻译文本。之后,利用第一目标语言文本和第二目标语言文本,对神经网络模型进行调整,得到文本翻译模型。
[0004]上述技术的文本翻译模型仅对源语言文本中除源语言实体之外的其他文本进行翻译,使得将源语言实体对应的目标语言实体嵌入翻译文本后,容易出现不通顺的情况,影响了文本翻译结果的准确性。

技术实现思路

[0005]本申请实施例提供了一种文本翻译模型的获取方法、文本翻译方法、装置及设备,可用于解决相关技术中将源语言实体对应的目标语言实体嵌入翻译文本后,容易出现不通顺的情况,影响了文本翻译结果的准确性的问题,所述技术方案包括如下内容。
[0006]一方面,本申请实施例提供了一种文本翻译模型的获取方法,所述方法包括:
[0007]获取源语言文本和所述源语言文本对应的第一目标语言文本,所述第一目标语言文本是标注的所述源语言文本的翻译文本;
[0008]确定所述源语言文本中源语言实体对应的目标语言实体;
[0009]将所述源语言文本和所述源语言文本中源语言实体对应的目标语言实体进行拼接,得到拼接文本;
[0010]基于所述拼接文本确定所述源语言文本对应的第二目标语言文本,所述第二目标语言文本是预测的所述源语言文本的翻译文本;
[0011]基于所述第一目标语言文本和所述第二目标语言文本,获取文本翻译模型。
[0012]另一方面,本申请实施例提供了一种文本翻译方法,所述方法包括:
[0013]获取源语言的待翻译文本;
[0014]基于文本翻译模型对所述待翻译文本进行翻译处理,得到目标语言的翻译文本,所述文本翻译模型是根据上述任一项所述的文本翻译模型的获取方法获取到的。
[0015]另一方面,本申请实施例提供了一种文本翻译模型的获取装置,所述装置包括:
[0016]获取模块,用于获取源语言文本和所述源语言文本对应的第一目标语言文本,所
述第一目标语言文本是标注的所述源语言文本的翻译文本;
[0017]确定模块,用于确定所述源语言文本中源语言实体对应的目标语言实体;
[0018]拼接模块,用于将所述源语言文本和所述源语言文本中源语言实体对应的目标语言实体进行拼接,得到拼接文本;
[0019]所述确定模块,还用于基于所述拼接文本确定所述源语言文本对应的第二目标语言文本,所述第二目标语言文本是预测的所述源语言文本的翻译文本;
[0020]所述获取模块,还用于基于所述第一目标语言文本和所述第二目标语言文本,获取文本翻译模型。
[0021]在一种可能的实现方式中,所述确定模块,用于获取至少一对双语实体,所述双语实体包括源语言实体和目标语言实体;响应于所述源语言文本中的源语言实体与所述至少一对双语实体中的任一对双语实体中的源语言实体相同,基于所述任一对双语实体中的目标语言实体,确定所述源语言文本中源语言实体对应的目标语言实体。
[0022]在一种可能的实现方式中,所述确定模块,用于将所述任一对双语实体中的目标语言实体确定为所述源语言文本中源语言实体对应的目标语言实体;或者,将所述任一对双语实体中的目标语言实体的关联词,确定为所述源语言文本中源语言实体对应的目标语言实体;或者,删除所述任一对双语实体中的目标语言实体中的至少一个字符,得到所述源语言文本中源语言实体对应的目标语言实体。
[0023]在一种可能的实现方式中,所述确定模块,用于基于所述第一目标语言文本中的目标语言实体,确定所述源语言文本中源语言实体对应的目标语言实体。
[0024]在一种可能的实现方式中,所述确定模块,用于将所述第一目标语言文本中的目标语言实体确定为所述源语言文本中源语言实体对应的目标语言实体;或者,将所述第一目标语言文本中的目标语言实体的关联词,确定为所述源语言文本中源语言实体对应的目标语言实体;或者,删除所述第一目标语言文本中的目标语言实体中的至少一个字符,得到所述源语言文本中源语言实体对应的目标语言实体。
[0025]在一种可能的实现方式中,所述确定模块,用于基于所述拼接文本中各个词语的语义特征确定所述拼接文本的语义特征;基于所述拼接文本的语义特征确定所述源语言文本对应的第二目标语言文本。
[0026]在一种可能的实现方式中,所述确定模块,用于确定所述拼接文本中各个词语的位置特征,任一个词语的位置特征用于表征所述任一个词语在所述任一个词语所属的文本段中的位置信息,所述文本段为所述源语言文本或者所述源语言文本中源语言实体对应的目标语言实体;基于所述拼接文本中各个词语的语义特征和所述拼接文本中各个词语的位置特征,确定所述拼接文本的语义特征。
[0027]在一种可能的实现方式中,所述确定模块,用于确定所述拼接文本中各个词语的段特征,任一个词语的段特征用于表征所述任一个词语属于所述源语言文本,或者所述任一个词语属于所述源语言文本中源语言实体对应的目标语言实体;基于所述拼接文本中各个词语的语义特征和所述拼接文本中各个词语的段特征,确定所述拼接文本的语义特征。
[0028]在一种可能的实现方式中,所述获取模块,用于基于所述拼接文本确定第一关联指标,所述第一关联指标是预测得到的且用于表征所述源语言文本和所述源语言文本中源语言实体对应的目标语言实体之间的相关性;获取所述拼接文本的第二关联指标,所述第
二关联指标是标注得到的且用于表征所述源语言文本和所述源语言文本中源语言实体对应的目标语言实体是否相关;基于所述第一关联指标、所述第二关联指标、所述第一目标语言文本和所述第二目标语言文本,获取所述文本翻译模型。
[0029]在一种可能的实现方式中,所述拼接文本包括正样本和负样本,所述获取模块,用于获取所述正样本的语义特征和所述负样本的语义特征;基于所述正样本的语义特征和所述负样本的语义特征,确定所述正样本和所述负样本之间的损失值;基于所述正样本和所述负样本之间的损失值、所述第一目标语言文本和所述第二目标语言文本,获取所述文本翻译模型。
[0030]在一种可能的实现方式中,所述正样本的数量为多个,所述负样本的数量为多个,所述确定模块,还用于基于多个正样本的语义特征,确定所述正样本之间的损失值;基于多个负样本的语义特征,确定所述负样本之本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本翻译模型的获取方法,其特征在于,所述方法包括:获取源语言文本和所述源语言文本对应的第一目标语言文本,所述第一目标语言文本是标注的所述源语言文本的翻译文本;确定所述源语言文本中源语言实体对应的目标语言实体;将所述源语言文本和所述源语言文本中源语言实体对应的目标语言实体进行拼接,得到拼接文本;基于所述拼接文本确定所述源语言文本对应的第二目标语言文本,所述第二目标语言文本是预测的所述源语言文本的翻译文本;基于所述第一目标语言文本和所述第二目标语言文本,获取文本翻译模型。2.根据权利要求1所述的方法,其特征在于,所述确定所述源语言文本中源语言实体对应的目标语言实体,包括:获取至少一对双语实体,所述双语实体包括源语言实体和目标语言实体;响应于所述源语言文本中的源语言实体与所述至少一对双语实体中的任一对双语实体中的源语言实体相同,基于所述任一对双语实体中的目标语言实体,确定所述源语言文本中源语言实体对应的目标语言实体。3.根据权利要求2所述的方法,其特征在于,所述基于所述任一对双语实体中的目标语言实体,确定所述源语言文本中源语言实体对应的目标语言实体,包括:将所述任一对双语实体中的目标语言实体确定为所述源语言文本中源语言实体对应的目标语言实体;或者,将所述任一对双语实体中的目标语言实体的关联词,确定为所述源语言文本中源语言实体对应的目标语言实体;或者,删除所述任一对双语实体中的目标语言实体中的至少一个字符,得到所述源语言文本中源语言实体对应的目标语言实体。4.根据权利要求1所述的方法,其特征在于,所述确定所述源语言文本中源语言实体对应的目标语言实体,包括:基于所述第一目标语言文本中的目标语言实体,确定所述源语言文本中源语言实体对应的目标语言实体。5.根据权利要求4所述的方法,其特征在于,所述基于所述第一目标语言文本中的目标语言实体,确定所述源语言文本中源语言实体对应的目标语言实体,包括:将所述第一目标语言文本中的目标语言实体确定为所述源语言文本中源语言实体对应的目标语言实体;或者,将所述第一目标语言文本中的目标语言实体的关联词,确定为所述源语言文本中源语言实体对应的目标语言实体;或者,删除所述第一目标语言文本中的目标语言实体中的至少一个字符,得到所述源语言文本中源语言实体对应的目标语言实体。6.根据权利要求1所述的方法,其特征在于,所述基于所述拼接文本确定所述源语言文本对应的第二目标语言文本,包括:基于所述拼接文本中各个词语的语义特征确定所述拼接文本的语义特征;基于所述拼接文本的语义特征确定所述源语言文本对应的第二目标语言文本。
7.根据权利要求6所述的方法,其特征在于,所述基于所述拼接文本中各个词语的语义特征确定所述拼接文本的语义特征,包括:确定所述拼接文本中各个词语的位置特征,任一个词语的位置特征用于表征所述任一个词语在所述任一个词语所属的文本段中的位置信息,所述文本段为所述源语言文本或者所述源语言文本中源语言实体对应的目标语言实体;基于所述拼接文本中各个词语的语义特征和所述拼接文本中各个词语的位置特征,确定所述拼接文本的语义特征。8.根据权利要求6所述的方法,其特征在于,所述基于所述拼接文本中各个词语的语义特征确定所述拼接文本的语义特征,包括:确定所述拼接文本中各个词语的段特征,任一个词语的段特征用于表征所述任一个词语属于所述源语言文本,或者所述任一个词语属于所述源语言文本中源语言实体对应的目标语言实体;基于所述拼接文本中各个词语的语义特征和所述拼接文本中各个词语的段特征,确定所述拼接文本的语义特征。9.根据权利要求1至8任一项所述的方法,其特征在于,所述基于所述第一目标语言文本和所述第二目标语言文本,获取文本翻译模型,包括:基于所述拼接...

【专利技术属性】
技术研发人员:张映雪孟凡东
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1