System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种中英自动翻译模型训练方法及系统技术方案_技高网

一种中英自动翻译模型训练方法及系统技术方案

技术编号:41905412 阅读:6 留言:0更新日期:2024-07-05 14:10
本申请涉及一种中英自动翻译模型训练方法、装置、计算机设备、存储介质和计算机程序产品。所述方法包括:将存储有正样本的正样本库作为第一训练样本集,对原始翻译模型进行训练以获取一阶翻译模型;将存储有负样本的负样本库与第一训练样本集中随机部分正样本作为第二训练样本集,对一阶翻译模型进行训练以获取二阶训练模型;从所述第二训练样本集中随机抽取若干个样本对二阶训练模型进行复现测试,并计算翻译概率;判断翻译概率是否大于预设概率阈值;若是,则结束训练。

【技术实现步骤摘要】

本申请涉及机器翻译,特别是涉及一种中英自动翻译模型训练方法、装置、计算机设备、存储介质和计算机程序产品。


技术介绍

1、随着全球化的发展,国际交流及信息传递呈现爆发式增长。传统的依赖于人工翻译的方法已经无法满足人们日常跨语言交流的需求。而机器翻译作为一种能自动提供准确翻译结果的技术,逐渐得到广泛的关注和研究。从传统的基于规则的翻译方法到统计机器翻译方法,再到现在主流的神经机器翻译方法,机器翻译的性能已经取得了巨大的进展。

2、公开号为us20090164206a1公开了一种用于训练基于双语语料库的目标语言单词屈折变化模型的方法,该方法包括建立初始tlwi模型,对源语言语料库和目标语言语料库进行预处理,提取包含tlwi信息的模式,基于预处理的源语言语料库和目标语言语料库,利用模式训练tlwi模型。

3、但是通过该方法对语言模型进行训练时,需要人工获取大量的正样本以及负样本,才能完成性能指标达到要求的机器翻译模型,导致训练成本高。


技术实现思路

1、基于此,有必要针对上述技术问题,提供一种能够在训练过程中自主产生负样本的中英自动翻译模型训练方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。

2、第一方面,本申请提供了一种中英自动翻译模型训练方法,该方法包括:

3、将存储有正样本的正样本库作为第一训练样本集,对原始翻译模型进行训练以获取一阶翻译模型;

4、将存储有负样本的负样本库与第一训练样本集中随机部分正样本作为第二训练样本集,对一阶翻译模型进行训练以获取二阶训练模型;

5、从所述第二训练样本集中随机抽取若干个样本对二阶训练模型进行复现测试,并计算翻译概率;

6、判断翻译概率是否大于预设概率阈值;

7、若是,则结束训练。

8、在其中一个实施例中,将存储有正样本的正样本库作为第一训练样本集,对原始翻译模型进行训练以获取一阶翻译模型包括:

9、将第一训练样本集中所包含的中-英对照样本语句先后作为目标语句,输入原始翻译模型,并分别获取与中/英文原文对应英/中文译文;

10、将与中文原文对应的英文译文和英文原文进行匹配以计算第一匹配度;

11、若第一匹配度结果大于或等于第一预设阈值,则记为中-英翻译通过;

12、若第一匹配度结果小于第一预设阈值,则记为中-英翻译不通过将中文原文与英文译文进行组合以形成负样本,并将该负样本存入负样本库中;

13、继续计算与英文原文对应的中文译文和中文原文的第二匹配度;

14、若第二匹配度结果大于或等于第二预设阈值,则记为英-中翻译通过;

15、若第二匹配度结果小于第二预设阈值,则记为英中翻译不通过,将英文原文与中文译文进行组合以形成新的负样本,并将该负样本存入负样本库中。

16、在其中一个实施例中,第一匹配度的计算方法包括:

17、将英文译文以单词为单位进行拆分,以获取英文译文所包含的若干个译文单词,计算译文单词与英文原文单词的单词重复率w;

18、对英文原文中的单词进行序号标记,并对英文译文中出现的同样单词赋予同样的序号标记,遍历由英文译文中单词的序号标记组成的序号序列,获序号序列中最大的连续序号长度,并计算最大的连续序号长度与英文原文所包含的单词数量的比值,作为关键词匹配度k;

19、对英文译文中的单词再次进行二次序号标记,且不覆盖原序号序列,比较元序号序列与二次序号的重复率以计算语序匹配度p;

20、根据预设参数对单词重复率w、关键词匹配度k以及语序匹配度p进行加权计算以计算得第一匹配度f1(w,k,p)。

21、在其中一个实施例中,第二匹配度的计算方法包括:

22、将中文译文以单个汉字为单位进行拆分,以获取中文译文所包含的若干个译文汉字,计算译文汉字与中文原文汉字的汉字重复率v;

23、对中文原文中的汉字进行序号标记,并对中文译文中出现的同样汉字赋予同样的序号标记,遍历由中文译文中汉字的序号标记组成的序号序列,获序号序列中最大的连续序号长度,并计算最大的连续序号长度与中文原文所包含的汉字数量的比值,作为关键词匹配度j;

24、对中文译文中的汉字再次进行二次序号标记,且不覆盖前序号序列,比较前序号序列与二次序号的重复率以计算语序匹配度q;

25、根据预设参数对汉字重复率v、关键词匹配度j以及语序匹配度q进行加权计算以计算得第二匹配度f2(v,j,q)。

26、在其中一个实施例中,该中英自动翻译模型训练方法还包括:

27、若翻译概率是不大于预设概率阈值,则根据预设翻译概率-正负样本比例关系,从正样本库与负样本库中提若干正样本与负样本以形成n阶训练样本,对二阶训练模型进行训练以获取n阶训练模型。

28、第二方面,本申请还提供了一种中英自动翻译模型训练系统,该装置包括:

29、存储模块,用于存储正样本、负样本、第一训练样本集以及第二训练样本集;

30、翻译模型模块,用于存储并运行原始翻译模型、一阶翻译模型以及二阶训练模型;

31、测试模块,用于抽取复现测试的样本,并计算翻译概率。

32、在其中一个实施例中,该中英自动翻译模型训练系统还包括:

33、语句拆分模块,用于对中文样本或中文译文拆分为单个汉字,以及用于将英文样本或因为译文拆分为单词;

34、匹配度计算模块,用于计算第一匹配度或第二匹配度。

35、第三方面,本申请还提供了一种计算机设备,该计算机设备包括存储器和处理器,该存储器存储有计算机程序,该处理器执行所述计算机程序时实现以下步骤:

36、将存储有正样本的正样本库作为第一训练样本集,对原始翻译模型进行训练以获取一阶翻译模型;

37、将存储有负样本的负样本库与第一训练样本集中随机部分正样本作为第二训练样本集,对一阶翻译模型进行训练以获取二阶训练模型;

38、从所述第二训练样本集中随机抽取若干个样本对二阶训练模型进行复现测试,并计算翻译概率;

39、判断翻译概率是否大于预设概率阈值;

40、若是,则结束训练;

41、若翻译概率是不大于预设概率阈值,则根据预设翻译概率-正负样本比例关系,从正样本库与负样本库中提若干正样本与负样本以形成n阶训练样本,对二阶训练模型进行训练以获取n阶训练模型。

42、第四方面,本申请还提供了一种计算机可读存储介质,该计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以下步骤:

43、将存储有正样本的正样本库作为第一训练样本集,对原始翻译模型进行训练以获取一阶翻译模型;

44、将存储有负样本的负样本库与第一训练样本集中随机部分正样本作为第二训练样本集,对一阶翻译模型进行训练以获取二阶训练模型;...

【技术保护点】

1.一种中英自动翻译模型训练方法,其特征在于,所述方法包括:

2.根据权利要求1所述的中英自动翻译模型训练方法,其特征在于,所述将存储有正样本的正样本库作为第一训练样本集,对原始翻译模型进行训练以获取一阶翻译模型包括:

3.根据权利要求2所述的中英自动翻译模型训练方法,其特征在于,所述第一匹配度的计算方法包括:

4.根据权利要求2所述的中英自动翻译模型训练方法,其特征在于,所述第二匹配度的计算方法包括:

5.根据权利要求1至4任意一项所述的中英自动翻译模型训练方法,其特征在于,所述方法还包括:

6.一种中英自动翻译模型训练系统,其特征在于,所述系统包括:

7.根据权利要求6所述的中英自动翻译模型训练系统,其特征在于,所述装置还包括:

8.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1所述的方法的步骤。

9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求所述的方法的步骤。

10.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1所述的方法的步骤。

...

【技术特征摘要】

1.一种中英自动翻译模型训练方法,其特征在于,所述方法包括:

2.根据权利要求1所述的中英自动翻译模型训练方法,其特征在于,所述将存储有正样本的正样本库作为第一训练样本集,对原始翻译模型进行训练以获取一阶翻译模型包括:

3.根据权利要求2所述的中英自动翻译模型训练方法,其特征在于,所述第一匹配度的计算方法包括:

4.根据权利要求2所述的中英自动翻译模型训练方法,其特征在于,所述第二匹配度的计算方法包括:

5.根据权利要求1至4任意一项所述的中英自动翻译模型训练方法,其特征在于,所述方法还包括:

6....

【专利技术属性】
技术研发人员:赵惠吕壮吕遥
申请(专利权)人:广东科贸职业学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1