【技术实现步骤摘要】
一种文本翻译方法和相关装置
[0001]本申请涉及翻译
,特别是涉及一种文本翻译方法和相关装置。
技术介绍
[0002]随着AI技术的快速发展,原来越多的AI技术被应用于文本翻译,例如通过翻译模型能将源语种的第一文本翻译为目标语种的第二文本。
[0003]相关技术中,在通过文本对来训练翻译模型时,一个文本对中通常包括作为模型输入的源语种文本和作为训练标签的目标语种文本,但是训练效果较差,导致通过翻译模型对源语种中文本进行翻译时,得到的翻译结果并不理想。
技术实现思路
[0004]为了解决上述技术问题,本申请实施例提供了一种文本翻译方法,处理设备可以结合源语种和目标语种所对应词语片段之间的翻译映射关系,调节用于训练初始翻译模型的相关参数,使训练得到翻译模型能够基于该翻译映射关系对源语种文本进行翻译,从而使翻译得到的目标语种下的翻译文本更加贴合源语种文本的文本含义,提高翻译效果。
[0005]本申请实施例公开了如下技术方案:
[0006]第一方面,本申请实施例公开了一种文本翻译方法,获取翻译文本训练集,所述翻译文本训练集包括多个文本样本对,所述文本样本对包括源语种的第一文本和目标语种的第二文本,所述第二文本为所述第一文本在所述目标语种下的翻译文本;
[0007]确定所述第二文本所包括词语片段在所属文本样本对中的关联参数,其中,目标文本样本对为所述多个文本样本对中的任意一个,所述关联参数用于体现所述目标文本样本对的第二文本中目标词语片段和所述目标文本样本对的第一文本中词 ...
【技术保护点】
【技术特征摘要】
1.一种文本翻译方法,其特征在于,获取翻译文本训练集,所述翻译文本训练集包括多个文本样本对,所述文本样本对包括源语种的第一文本和目标语种的第二文本,所述第二文本为所述第一文本在所述目标语种下的翻译文本;确定所述第二文本所包括词语片段在所属文本样本对中的关联参数,其中,目标文本样本对为所述多个文本样本对中的任意一个,所述关联参数用于体现所述目标文本样本对的第二文本中目标词语片段和所述目标文本样本对的第一文本中词语片段之间的翻译映射关系;所述方法包括:根据所述目标文本样本对中的第一文本,通过初始翻译模型确定在所述目标语种下的模型翻译文本;基于对应的关联参数,确定所述目标文本样本对的第二文本所包括词语片段分别与所述模型翻译文本对应的词语损失参数;根据所述词语损失参数对所述初始翻译模型进行训练,得到翻译模型;通过所述翻译模型将所述源语种下的待处理文本翻译为所述目标语种下的翻译文本。2.根据权利要求1所述的方法,其特征在于,所述基于对应的关联参数,确定所述目标文本样本对的第二文本所包括词语片段分别与所述模型翻译文本对应的词语损失参数,包括:以所述目标文本样本对的第二文本所包括词语片段为粒度,分别确定所述目标文本样本对的第二文本所包括词语片段与所述模型翻译文本对应的词语差异;根据所述目标文本样本对的第二文本所包括词语片段分别对应的关联参数确定损失权重;根据所述词语差异和对应的所述损失权重确定所述词语损失参数,其中,所述损失权重的数值与所标识翻译映射关系的复杂程度呈反相关。3.根据权利要求2所述的方法,其特征在于,所述根据所述目标文本样本对的第二文本所包括词语片段分别对应的关联参数确定损失权重,包括:根据第一超参数、第二超参数和所述关联参数确定所述损失权重,所述第一超参数用于对所述关联参数进行缩放,所述第二超参数用于确定所述损失权重的下限数值。4.根据权利要求1所述的方法,其特征在于,所述目标文本样本对的第一文本包括n个词语片段,第二文本包括m个词语片段,所述目标词语片段为所述m个词语片段中的第j个词语片段;针对所述目标文本样本对中的所述第j个词语片段,所述确定所述第二文本所包括词语片段在所属文本样本对中的关联参数,包括:确定所述第j个词语片段分别与所述n个词语片段所构成的片段对在所述多个文本样本对中的共现频率参数;确定所述n个词语片段分别在所述多个文本样本对中的第一词频参数;根据所述共现频率参数和所述第一词频参数确定所述第j个词语片段在所述目标文本样本对中的所述关联参数。5.根据权利要求4所述的方法,其特征在于,所述方法还包括:确定所述第j个词语片段在所述多个文本样本对中的第二词频参数;所述根据所述共现频率参数和所述第一词频参数确定所述第j个词语片段在所述目标
文本样本对中的所述关联参数,包括:根据所述共现频率参数、所述第一词频参数和所述第二词频参数,确定所述第j个词语片段在所述目标文本样本对中的所述关联参数。6.根据权利要求5所述的方法,其特征在于,所述共现频率参数用于标识所述多个文本样本对中共同出现所述片段对的文本样本对数量;针对所述n个词语片段中的第i个词语片段,所述第一词频参数用于标识所述多个文本对中出现第i个词语片段的文本数量;针对所述第j个词语片段,所述第二词频参数用于标识所述多个文本对中分别出现第j个词语片段的文本数量。7.根据权利要求5所述的方法,其特征在于,所述共现频率参数用于标识所述多个文本样本对中共同出现所述片段对的次数;针对所述n个词语片段中的第i个词语片段,所述第一词频参数用于标识所述多个文本对中出现第i个词语片段的次数;针对所述第j个词语片段,所述第二词频参数用于标识所述多个文本对中分别出现第j个词语片段的次数。8.根据权利要求1...
【专利技术属性】
技术研发人员:刘宜进,徐杨一帆,孟凡东,徐金安,
申请(专利权)人:北京交通大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。