一种文本翻译方法和相关装置制造方法及图纸

技术编号:31230247 阅读:14 留言:0更新日期:2021-12-08 10:00
本申请实施例公开了一种文本翻译方法和相关装置,为了提高翻译质量,处理设备可以结合源语种和目标语种所对应词语片段之间的翻译映射关系,调节用于训练初始翻译模型的相关参数,并基于调节后的相关参数,通过AI技术训练初始翻译模型,从而使训练得到翻译模型能够基于该翻译映射关系对源语种文本进行翻译,使翻译得到的目标语种下的翻译文本更加贴合源语种文本的文本含义,提高翻译效果。同时,训练得到的翻译模型以及过程中所确定出的关联参数可以通过区块链技术进行上链存储,以便于后续过程中对其它模型进行训练以及翻译应用。续过程中对其它模型进行训练以及翻译应用。续过程中对其它模型进行训练以及翻译应用。

【技术实现步骤摘要】
一种文本翻译方法和相关装置


[0001]本申请涉及翻译
,特别是涉及一种文本翻译方法和相关装置。

技术介绍

[0002]随着AI技术的快速发展,原来越多的AI技术被应用于文本翻译,例如通过翻译模型能将源语种的第一文本翻译为目标语种的第二文本。
[0003]相关技术中,在通过文本对来训练翻译模型时,一个文本对中通常包括作为模型输入的源语种文本和作为训练标签的目标语种文本,但是训练效果较差,导致通过翻译模型对源语种中文本进行翻译时,得到的翻译结果并不理想。

技术实现思路

[0004]为了解决上述技术问题,本申请实施例提供了一种文本翻译方法,处理设备可以结合源语种和目标语种所对应词语片段之间的翻译映射关系,调节用于训练初始翻译模型的相关参数,使训练得到翻译模型能够基于该翻译映射关系对源语种文本进行翻译,从而使翻译得到的目标语种下的翻译文本更加贴合源语种文本的文本含义,提高翻译效果。
[0005]本申请实施例公开了如下技术方案:
[0006]第一方面,本申请实施例公开了一种文本翻译方法,获取翻译文本训练集,所述翻译文本训练集包括多个文本样本对,所述文本样本对包括源语种的第一文本和目标语种的第二文本,所述第二文本为所述第一文本在所述目标语种下的翻译文本;
[0007]确定所述第二文本所包括词语片段在所属文本样本对中的关联参数,其中,目标文本样本对为所述多个文本样本对中的任意一个,所述关联参数用于体现所述目标文本样本对的第二文本中目标词语片段和所述目标文本样本对的第一文本中词语片段之间的翻译映射关系;所述方法包括:
[0008]根据所述目标文本样本对中的第一文本,通过初始翻译模型确定在所述目标语种下的模型翻译文本;
[0009]基于对应的关联参数,确定所述目标文本样本对的第二文本所包括词语片段分别与所述模型翻译文本对应的词语损失参数;
[0010]根据所述词语损失参数对所述初始翻译模型进行训练,得到翻译模型;
[0011]通过所述翻译模型将所述源语种下的待处理文本翻译为所述目标语种下的翻译文本。
[0012]第二方面,本申请实施例公开了一种文本翻译装置,所述装置包括获取单元、第一确定单元、第二确定单元、第三确定单元、训练单元和翻译单元:
[0013]所述获取单元,用于获取翻译文本训练集,所述翻译文本训练集包括多个文本样本对,所述文本样本对包括源语种的第一文本和目标语种的第二文本,所述第二文本为所述第一文本在所述目标语种下的翻译文本;
[0014]所述第一确定单元,用于确定所述第二文本所包括词语片段在所属文本样本对中
的关联参数,其中,目标文本样本对为所述多个文本样本对中的任意一个,所述关联参数用于体现所述目标文本样本对的第二文本中目标词语片段和所述目标文本样本对的第一文本中词语片段之间的翻译映射关系;
[0015]所述第二确定单元,用于根据所述目标文本样本对中的第一文本,通过初始翻译模型确定在所述目标语种下的模型翻译文本;
[0016]所述第三确定单元,用于基于对应的关联参数,确定所述目标文本样本对的第二文本所包括词语片段分别与所述模型翻译文本对应的词语损失参数;
[0017]所述训练单元,用于根据所述词语损失参数对所述初始翻译模型进行训练,得到翻译模型;
[0018]所述翻译单元,用于通过所述翻译模型将所述源语种下的待处理文本翻译为所述目标语种下的翻译文本。
[0019]第三方面,本申请实施例公开了一种计算机设备,所述设备包括处理器以及存储器:
[0020]所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
[0021]所述处理器用于根据所述程序代码中的指令执行第一方面中所述的文本翻译方法。
[0022]第四方面,本申请实施例公开了一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储计算机程序,所述计算机程序用于执行第一方面中所述的文本翻译方法。
[0023]由上述技术方案可以看出,为了提高翻译质量,可以获取翻译文本训练集,该翻译文本训练集包括多个文本样本对,该文本样本对包括源语种的第一文本和目标语种的第二文本,该第二文本为第一文本在目标语种下的翻译文本。随后,可以确定第二文本所包括词语片段在所属文本样本对中的关联参数,该目标文本样本对为多个文本样本对中的任意一个,该关联参数用于体现目标文本样本对的第二文本中目标词语片段和目标文本样本对的第一文本中词语片段之间的翻译映射关系。在进行模型训练时,可以根据该目标文本样本对中的第一文本,通过初始翻译模型确定在目标语种下的模型翻译文本,通过该模型翻译文本与该目标文本样本对中的第二文本能够体现出该初始翻译模型在进行翻译时的差异。基于对应的关联参数,可以确定该目标文本样本对的第二文本所包括词语片段分别与模型翻译文本对应的词语损失参数。由于通过翻译映射关系可以对两种语种之间词语片段翻译的准确度进行分析,因此该词语损失参数能够在结合翻译映射关系的基础上体现出该第二文本所包括词语片段对翻译准确性的影响程度。根据该词语损失参数可以对该初始翻译模型进行训练,从而使该初始翻译模型能够对翻译准确性具有不同影响程度的词语片段采用不同的学习力度进行学习,得到翻译模型,通过该翻译模型可以将源语种下的待处理文本翻译为目标语种下的翻译文本,进而可以通过更加准确的词语翻译使该翻译文本贴合待处理文本在源语种下对应的含义,提高翻译准确度。
附图说明
[0024]为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本
申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0025]图1为本申请实施例提供的一种实际应用场景中文本翻译方法的示意图;
[0026]图2为本申请实施例提供的一种文本翻译方法的流程图;
[0027]图3为本申请实施例提供的一种实验结果图表;
[0028]图4为本申请实施例提供的一种实验结果图表;
[0029]图5为本申请实施例提供的一种初始翻译模型的示意图;
[0030]图6为本申请实施例提供的一种文本翻译装置的结构框图;
[0031]图7为本申请实施例提供的一种计算机设备的结构图;
[0032]图8为本申请实施例提供的一种服务器的结构图。
具体实施方式
[0033]下面结合附图,对本申请的实施例进行描述。
[0034]语言翻译是AI技术的热门应用之一。在相关技术中,对翻译模型进行训练时,通常只会参考目标语种的词语频次信息,来对各个词语所对应的训练权重进行相应调整,从而使该翻译模型所翻译得到的目标语种文本能够符合目标语种的语言特点。然而,这种训练方式会导致翻译模型无法学习到源语种的语言特点,从而会导致翻译结果无法准确体现出源语种文本的文本含义,翻译效果较差。<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本翻译方法,其特征在于,获取翻译文本训练集,所述翻译文本训练集包括多个文本样本对,所述文本样本对包括源语种的第一文本和目标语种的第二文本,所述第二文本为所述第一文本在所述目标语种下的翻译文本;确定所述第二文本所包括词语片段在所属文本样本对中的关联参数,其中,目标文本样本对为所述多个文本样本对中的任意一个,所述关联参数用于体现所述目标文本样本对的第二文本中目标词语片段和所述目标文本样本对的第一文本中词语片段之间的翻译映射关系;所述方法包括:根据所述目标文本样本对中的第一文本,通过初始翻译模型确定在所述目标语种下的模型翻译文本;基于对应的关联参数,确定所述目标文本样本对的第二文本所包括词语片段分别与所述模型翻译文本对应的词语损失参数;根据所述词语损失参数对所述初始翻译模型进行训练,得到翻译模型;通过所述翻译模型将所述源语种下的待处理文本翻译为所述目标语种下的翻译文本。2.根据权利要求1所述的方法,其特征在于,所述基于对应的关联参数,确定所述目标文本样本对的第二文本所包括词语片段分别与所述模型翻译文本对应的词语损失参数,包括:以所述目标文本样本对的第二文本所包括词语片段为粒度,分别确定所述目标文本样本对的第二文本所包括词语片段与所述模型翻译文本对应的词语差异;根据所述目标文本样本对的第二文本所包括词语片段分别对应的关联参数确定损失权重;根据所述词语差异和对应的所述损失权重确定所述词语损失参数,其中,所述损失权重的数值与所标识翻译映射关系的复杂程度呈反相关。3.根据权利要求2所述的方法,其特征在于,所述根据所述目标文本样本对的第二文本所包括词语片段分别对应的关联参数确定损失权重,包括:根据第一超参数、第二超参数和所述关联参数确定所述损失权重,所述第一超参数用于对所述关联参数进行缩放,所述第二超参数用于确定所述损失权重的下限数值。4.根据权利要求1所述的方法,其特征在于,所述目标文本样本对的第一文本包括n个词语片段,第二文本包括m个词语片段,所述目标词语片段为所述m个词语片段中的第j个词语片段;针对所述目标文本样本对中的所述第j个词语片段,所述确定所述第二文本所包括词语片段在所属文本样本对中的关联参数,包括:确定所述第j个词语片段分别与所述n个词语片段所构成的片段对在所述多个文本样本对中的共现频率参数;确定所述n个词语片段分别在所述多个文本样本对中的第一词频参数;根据所述共现频率参数和所述第一词频参数确定所述第j个词语片段在所述目标文本样本对中的所述关联参数。5.根据权利要求4所述的方法,其特征在于,所述方法还包括:确定所述第j个词语片段在所述多个文本样本对中的第二词频参数;所述根据所述共现频率参数和所述第一词频参数确定所述第j个词语片段在所述目标
文本样本对中的所述关联参数,包括:根据所述共现频率参数、所述第一词频参数和所述第二词频参数,确定所述第j个词语片段在所述目标文本样本对中的所述关联参数。6.根据权利要求5所述的方法,其特征在于,所述共现频率参数用于标识所述多个文本样本对中共同出现所述片段对的文本样本对数量;针对所述n个词语片段中的第i个词语片段,所述第一词频参数用于标识所述多个文本对中出现第i个词语片段的文本数量;针对所述第j个词语片段,所述第二词频参数用于标识所述多个文本对中分别出现第j个词语片段的文本数量。7.根据权利要求5所述的方法,其特征在于,所述共现频率参数用于标识所述多个文本样本对中共同出现所述片段对的次数;针对所述n个词语片段中的第i个词语片段,所述第一词频参数用于标识所述多个文本对中出现第i个词语片段的次数;针对所述第j个词语片段,所述第二词频参数用于标识所述多个文本对中分别出现第j个词语片段的次数。8.根据权利要求1...

【专利技术属性】
技术研发人员:刘宜进徐杨一帆孟凡东徐金安
申请(专利权)人:北京交通大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1