System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及数据处理,尤其涉及一种翻译模型训练方法、装置、电子设备和存储介质。
技术介绍
1、目前,翻译模型在训练过程中,通常使用大量的双语语料库作为训练数据。然而,这些训练数据的质量往往参差不齐,其中可能包含大量的噪音数据,噪音数据的使用会导致翻译模型学习到不准确的翻译规则,降低翻译质量。
2、在现有的技术中,虽然存在一些方法可以减少噪音数据的影响的方法,但是这些方法往往需要人工参与,增加了实施成本且难以实现大规模的数据处理。因此如何提高训练数据的质量,去除噪音干扰,以提高翻译模型的学习效果和翻译质量成为了当前亟待解决的问题。
技术实现思路
1、本专利技术提供一种翻译模型训练方法、装置、电子设备和存储介质,用以解决现有技术中训练数据质量低下,导致模型难以学习到正确的翻译模式,翻译性能较差,以致翻译效果欠佳的缺陷,通过识别样本报文文本的报文编码,以自动对样本报文文本进行校正,实现了训练数据的质量提升,保证了平行语料中双语文本间的对应,降低了对于模型训练的干扰,提高翻译模型的学习效果和翻译质量。
2、本专利技术提供一种翻译模型训练方法,包括:
3、获取样本报文文本,以及所述样本报文文本对应的目标翻译文本;
4、基于所述样本报文文本的报文编码,对所述样本报文文本进行校正,得到所述目标翻译文本对应的校正报文文本;
5、基于所述校正报文文本和所述目标翻译文本,构建平行语料,并基于所述平行语料,对初始翻译模型进行训练,得到翻译模型
6、根据本专利技术提供的一种翻译模型训练方法,所述基于所述样本报文文本的报文编码,对所述样本报文文本进行校正,得到所述目标翻译文本对应的校正报文文本,包括:
7、基于编码句式映射关系,确定所述报文编码对应的正文开头句式;
8、基于所述正文开头句式,确定所述样本报文文本中的正文开头;
9、基于所述正文开头,对所述样本报文文本进行正文截取,得到校正报文文本。
10、根据本专利技术提供的一种翻译模型训练方法,所述编码句式映射关系基于如下步骤确定:
11、获取报文文本集,所述报文文本集中包括多个报文类型,以及每一报文类型下的多个报文文本,所述每一报文类型下的多个报文文本的报文编码中的数字编码相同;
12、基于每一报文类型下的多个报文文本中的正文文本,确定每一报文类型对应的正文开头句式;
13、基于每一报文类型对应的数字编码,以及每一报文类型对应的文本开头句式,确定编码句式映射关系。
14、根据本专利技术提供的一种翻译模型训练方法,所述基于所述校正报文文本和所述目标翻译文本,构建平行语料,包括:
15、确定所述校正报文文本中的目标语句,并基于所述目标语句的语句属性,对所述目标语句进行切分,得到多个子语句;
16、基于所述多个子语句,替换所述校正报文文本中的目标语句;
17、基于替换后的校正报文文本和所述目标翻译文本,构建平行语料;
18、所述语句属性包括句式结构、标点符号、语法类型中的至少一种。
19、根据本专利技术提供的一种翻译模型训练方法,所述基于所述校正报文文本和所述目标翻译文本,构建平行语料,包括:
20、对所述目标翻译文本进行回译,得到所述目标翻译文本对应的目标回译文本,所述目标回译文本和所述样本报文文本的语种相同;
21、基于所述目标回译文本和所述目标翻译文本,以及所述校正报文文本和所述目标翻译文本,构建平行语料。
22、根据本专利技术提供的一种翻译模型训练方法,所述基于所述校正报文文本和所述目标翻译文本,构建平行语料,包括:
23、对所述校正报文文本进行数据增广,得到增广报文文本;
24、确定所述增广报文文本对应的增广翻译文本;
25、基于所述增广报文文本和所述增广翻译文本,以及所述校正报文文本和所述目标翻译文本,构建平行语料;
26、所述数据增广包括语句重组、句式变换、添词删词、同义词替换中的至少一种。
27、根据本专利技术提供的一种翻译模型训练方法,所述基于所述平行语料,对初始翻译模型进行训练,得到翻译模型,包括:
28、基于所述初始翻译模型,确定所述校正报文文本对应的预测翻译文本;
29、基于所述预测翻译文本和所述目标翻译文本,对所述初始翻译模型进行训练,得到翻译模型;
30、所述初始翻译模型用于确定所述样本报文文本中每一语句的语义信息,并基于每一语句的语义信息和上下文信息,确定每一语句的预测翻译语句,基于各预测翻译语句确定所述预测翻译文本。
31、本专利技术还提供一种翻译模型训练装置,包括:
32、确定单元,用于获取样本报文文本,以及所述样本报文文本对应的目标翻译文本;
33、校正单元,用于基于所述样本报文文本的报文编码,对所述样本报文文本进行校正,得到所述目标翻译文本对应的校正报文文本;
34、构建单元,用于基于所述校正报文文本和所述目标翻译文本,构建平行语料;
35、训练单元,用于基于所述平行语料,对初始翻译模型进行训练,得到翻译模型。
36、本专利技术还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述的翻译模型训练方法。
37、本专利技术还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述的翻译模型训练方法。
38、本专利技术提供的翻译模型训练方法、装置、电子设备和存储介质,获取样本报文文本和目标翻译文本,识别样本报文文本的报文编码,以通过报文编码自动对样本报文文本进行校正,得到校正报文文本,实现了训练数据的质量提升,保证了平行语料中双语文本间的对应,克服了目前因训练数据质量低下,导致模型的翻译性能较差,致使翻译效果欠佳的缺陷,通过校正报文文本和翻译文本,构建平行语料,通过高质量的平行语料以优化训练得到可靠的翻译模型,提高了翻译模型的学习效果和翻译质量,从而在具体的业务场景中能够据此提供可靠的翻译结果。
本文档来自技高网...【技术保护点】
1.一种翻译模型训练方法,其特征在于,包括:
2.根据权利要求1所述的翻译模型训练方法,其特征在于,所述基于所述样本报文文本的报文编码,对所述样本报文文本进行校正,得到所述目标翻译文本对应的校正报文文本,包括:
3.根据权利要求2所述的翻译模型训练方法,其特征在于,所述编码句式映射关系基于如下步骤确定:
4.根据权利要求1至3中任一项所述的翻译模型训练方法,其特征在于,所述基于所述校正报文文本和所述目标翻译文本,构建平行语料,包括:
5.根据权利要求1至3中任一项所述的翻译模型训练方法,其特征在于,所述基于所述校正报文文本和所述目标翻译文本,构建平行语料,包括:
6.根据权利要求1至3中任一项所述的翻译模型训练方法,其特征在于,所述基于所述校正报文文本和所述目标翻译文本,构建平行语料,包括:
7.根据权利要求1至3中任一项所述的翻译模型训练方法,其特征在于,所述基于所述平行语料,对初始翻译模型进行训练,得到翻译模型,包括:
8.一种翻译模型训练装置,其特征在于,包括:
9.一种电子设备
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的翻译模型训练方法。
...【技术特征摘要】
1.一种翻译模型训练方法,其特征在于,包括:
2.根据权利要求1所述的翻译模型训练方法,其特征在于,所述基于所述样本报文文本的报文编码,对所述样本报文文本进行校正,得到所述目标翻译文本对应的校正报文文本,包括:
3.根据权利要求2所述的翻译模型训练方法,其特征在于,所述编码句式映射关系基于如下步骤确定:
4.根据权利要求1至3中任一项所述的翻译模型训练方法,其特征在于,所述基于所述校正报文文本和所述目标翻译文本,构建平行语料,包括:
5.根据权利要求1至3中任一项所述的翻译模型训练方法,其特征在于,所述基于所述校正报文文本和所述目标翻译文本,构建平行语料,包括:
6.根据权利要求1至3中任一项...
【专利技术属性】
技术研发人员:胡浩,唐雪,
申请(专利权)人:中银金融科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。