一种文本翻译模型的训练方法、文本翻译的方法及装置制造方法及图纸

技术编号:27137340 阅读:26 留言:0更新日期:2021-01-25 20:59
本申请公开了一种基于人工智能技术实现的文本翻译模型训练方法和文本翻译方法,具体涉及自然语言处理领域以及机器学习领域,文本翻译模型训练方法包括:获取第一文本以及第二文本;若第一文本以及第二文本满足文本对齐条件,则获取第一待训练平行文本;基于第一待训练平行文本所包括的第一句子,通过文本翻译模型获取第一翻译文本;根据第一翻译文本以及第二句子,对文本翻译模型进行训练。本申请实施例还提供了一种相关装置,本申请能够将自动抓取到的文本进行对齐处理,从而生成用于模型训练的平行语料,由此实现模型的自我训练。由此实现模型的自我训练。由此实现模型的自我训练。

【技术实现步骤摘要】
一种文本翻译模型的训练方法、文本翻译的方法及装置


[0001]本申请涉及自然语言处理处理,尤其涉及一种文本翻译模型的训练方法、文本翻译的方法及装置。

技术介绍

[0002]网络小说是指利用互联网发表并传播的书面文学作品,与一般的小说相比,网络小说的语法更近口语并充斥网络流行语。如今,中国网络文学通过对外授权开始网文出海,翻译一部网络小说的成分非常高,因此,网络小说翻译亟需借助人工智能(Artificial Intelligence,AI))技术来提高网文翻译效率,降低翻译成本。
[0003]针对网络小说的翻译,目前,提出了一种翻译数字图形小说的方法,首先接收数字图形小说内容,然后识别图形小说内容的特征,该有特征包括文本特征,再基于所识别的特征,生成与文本特征对应的场境信息,该场境信息用于辅助文本翻译。
[0004]然而,大部分的网络小说并非以数字图形小说的形式呈现,而是以全文字或者大量文字的形式呈现,因此,需要训练一种用于网络小说翻译的模型。由于网络小说涉及版权等问题,目前尚未有网络小说的平行语料库,因此,难以实现网络小说翻译模型的训练。

技术实现思路

[0005]本申请实施例提供了一种文本翻译模型的训练方法、文本翻译的方法及装置,能够将自动抓取到的文本进行对齐处理,从而生成用于模型训练的平行语料,由此实现模型的自我训练。
[0006]有鉴于此,本申请一方面提供一种文本翻译模型的训练方法,包括:
[0007]获取第一文本以及第二文本,其中,第一文本对应于源语种,第二文本对应于目标语种,源语种与目标语种属于不同的语种;
[0008]若第一文本以及第二文本满足文本对齐条件,则获取第一待训练平行文本,其中,第一待训练平行文本包括第一句子以及第二句子,第一句子来源于第一文本,第二句子来源于第二文本,且第二句子为第一句子对应的翻译结果;
[0009]基于第一待训练平行文本所包括的第一句子,通过文本翻译模型获取第一翻译文本;
[0010]根据第一翻译文本以及第二句子,对文本翻译模型进行训练。
[0011]本申请另一方面提供一种文本翻译的方法,包括:
[0012]获取待翻译文本,其中,待翻译文本包括至少一个句子,其中,待翻译文本对应于源语种;
[0013]基于待翻译文本中的每个句子,通过文本翻译模型获取每个句子所对应的翻译文本,其中,文本翻译模型为采用述各方面所提供的方法训练得到的;
[0014]根据每个句子所对应的翻译文本,生成待翻译文本所对应的目标翻译文本,其中,目标翻译文本对应于目标语种,目标语种与源语种属于不同的语种。
[0015]本申请另一方面提供一种模型训练装置,包括:
[0016]获取模块,用于获取第一文本以及第二文本,其中,第一文本对应于源语种,第二文本对应于目标语种,源语种与目标语种属于不同的语种;
[0017]获取模块,还用于若第一文本以及第二文本满足文本对齐条件,则获取第一待训练平行文本,其中,第一待训练平行文本包括第一句子以及第二句子,第一句子来源于第一文本,第二句子来源于第二文本,且第二句子为第一句子对应的翻译结果;
[0018]获取模块,还用于基于第一待训练平行文本所包括的第一句子,通过文本翻译模型获取第一翻译文本;
[0019]训练模块,用于根据第一翻译文本以及第二句子,对文本翻译模型进行训练。
[0020]在一种可能的设计中,在本申请实施例的另一方面的另一种实现方式中,
[0021]获取模块,具体用于获取第一链接地址以及第二链接地址;
[0022]根据第一链接地址获取第一元信息,其中,第一元信息包括第一文本所对应的标题信息、章节名称、作者信息、文本类型、译员信息、完结标识以及更新日期中的至少一项;
[0023]若第一元信息满足文本更新条件,则获取第一文本;
[0024]根据第二链接地址获取第二元信息,其中,第二元信息包括第二文本所对应的标题信息、章节名称、作者信息、文本类型、译员信息、完结标识以及更新日期中的至少一项;
[0025]若第二元信息满足文本更新条件,则获取第二文本。
[0026]在一种可能的设计中,在本申请实施例的另一方面的另一种实现方式中,模型训练装置还包括确定模块;
[0027]确定模块,用于在获取模块获取第一文本以及第二文本之后,根据第一文本以及第二文本,确定标题匹配结果;
[0028]确定模块,还用于根据第一文本以及第二文本,确定章节匹配结果;
[0029]确定模块,还用于若标题匹配结果以及章节匹配结果均为第一匹配结果,则确定第一文本以及第二文本满足文本对齐条件,其中,第一匹配结果表示匹配成功;
[0030]确定模块,还用于若标题匹配结果以及章节匹配结果中的至少一项为第二匹配结果,则确定第一文本以及第二文本未满足文本对齐条件,其中,第二匹配结果表示匹配失败。
[0031]在一种可能的设计中,在本申请实施例的另一方面的另一种实现方式中,
[0032]确定模块,具体用于获取第一文本所对应的第一标题信息以及第二文本所对应的第二标题信息;
[0033]基于多语种标题集合,对第一标题信息以及第二标题信息进行匹配,得到标题匹配结果,其中,多语种标题集合包括至少一组标题信息,每组标题信息至少包括源语种所对应的标题信息以及目标语种所对应的标题信息。
[0034]在一种可能的设计中,在本申请实施例的另一方面的另一种实现方式中,
[0035]确定模块,具体用于获取第一文本的第一章节信息以及第二文本的第二章节信息,其中,第一章节信息包括第一词语以及第一章节编号,第二章节信息包括第二词语以及第二章节编号;
[0036]基于多语种词语集合,对第一章节信息所包括的第一词语以及第二章节信息所包括的第二词语进行匹配,得到第一匹配子结果;
[0037]对第一章节信息所包括的第一章节编号以及第二章节信息所包括的第二章节编号进行匹配,得到第二匹配子结果;
[0038]根据第一匹配子结果以及第二匹配子结果,确定章节匹配结果。
[0039]在一种可能的设计中,在本申请实施例的另一方面的另一种实现方式中,
[0040]获取模块,具体用于获取第一文本中的源端句子;
[0041]基于源端句子,通过文本翻译模型获取第一待匹配句子;
[0042]获取第一待匹配句子以及第二文本中的K个第二待匹配句子,其中,K为大于或等于1的整数;
[0043]根据第一待匹配句子以及K个第二待匹配句子,确定K个匹配分值,其中,每个匹配分值对应于一个第二待匹配句子与第一待匹配句子;
[0044]若K个匹配分值中的最大值大于或等于匹配分阈值,则将源端句子确定为第一句子,并将最大值所对应的第二待匹配句子确定为第二句子;
[0045]根据第一句子以及第二句子,获取第一待训练平行文本。
[0046]在一种可能的设计中,在本申请实施例的另一本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本翻译模型的训练方法,其特征在于,包括:获取第一文本以及第二文本,其中,所述第一文本对应于源语种,所述第二文本对应于目标语种,所述源语种与所述目标语种属于不同的语种;若所述第一文本以及所述第二文本满足文本对齐条件,则获取第一待训练平行文本,其中,所述第一待训练平行文本包括第一句子以及第二句子,所述第一句子来源于所述第一文本,所述第二句子来源于所述第二文本,且所述第二句子为所述第一句子对应的翻译结果;基于所述第一待训练平行文本所包括的所述第一句子,通过文本翻译模型获取第一翻译文本;根据所述第一翻译文本以及所述第二句子,对所述文本翻译模型进行训练。2.根据权利要求1所述的训练方法,其特征在于,所述获取第一文本以及第二文本,包括:获取第一链接地址以及第二链接地址;根据所述第一链接地址获取第一元信息,其中,所述第一元信息包括所述第一文本所对应的标题信息、章节名称、作者信息、文本类型、译员信息、完结标识以及更新日期中的至少一项;若所述第一元信息满足文本更新条件,则获取所述第一文本;根据所述第二链接地址获取第二元信息,其中,所述第二元信息包括所述第二文本所对应的标题信息、章节名称、作者信息、文本类型、译员信息、完结标识以及更新日期中的至少一项;若所述第二元信息满足所述文本更新条件,则获取所述第二文本。3.根据权利要求1所述的训练方法,其特征在于,所述获取第一文本以及第二文本之后,所述方法还包括:根据所述第一文本以及所述第二文本,确定标题匹配结果;根据所述第一文本以及所述第二文本,确定章节匹配结果;若所述标题匹配结果以及所述章节匹配结果均为第一匹配结果,则确定所述第一文本以及所述第二文本满足所述文本对齐条件,其中,所述第一匹配结果表示匹配成功;若所述标题匹配结果以及所述章节匹配结果中的至少一项为第二匹配结果,则确定所述第一文本以及所述第二文本未满足所述文本对齐条件,其中,所述第二匹配结果表示匹配失败。4.根据权利要求3所述的训练方法,其特征在于,所述根据所述第一文本以及所述第二文本,确定标题匹配结果,包括:获取所述第一文本所对应的第一标题信息以及所述第二文本所对应的第二标题信息;基于多语种标题集合,对所述第一标题信息以及所述第二标题信息进行匹配,得到所述标题匹配结果,其中,所述多语种标题集合包括至少一组标题信息,每组标题信息至少包括所述源语种所对应的标题信息以及所述目标语种所对应的标题信息。5.根据权利要求3所述的训练方法,其特征在于,所述根据所述第一文本以及所述第二文本,确定章节匹配结果,包括:获取所述第一文本的第一章节信息以及所述第二文本的第二章节信息,其中,所述第
一章节信息包括第一词语以及第一章节编号,所述第二章节信息包括第二词语以及第二章节编号;基于多语种词语集合,对所述第一章节信息所包括的所述第一词语以及所述第二章节信息所包括的第二词语进行匹配,得到第一匹配子结果;对所述第一章节信息所包括的所述第一章节编号以及所述第二章节信息所包括的第二章节编号进行匹配,得到第二匹配子结果;根据所述第一匹配子结果以及所述第二匹配子结果,确定所述章节匹配结果。6.根据权利要求1所述的训练方法,其特征在于,所述获取第一待训练平行文本,包括:获取所述第一文本中的源端句子;基于所述源端句子,通过所述文本翻译模型获取第一待匹配句子;获取所述第一待匹配句子以及所述第二文本中的K个第二待匹配句子,其中,所述K为大于或等于1的整数;根据所述第一待匹配句子以及所述K个第二待匹配句子,确定K个匹配分值,其中,每个匹配分值对应于一个第二待匹配句子与所述第一待匹配句子;若所述K个匹配分值中的最大值大于或等于匹配分阈值,则将所述第一待匹配句子确定为所述第一句子,并将所述最大值所对应的第二待匹配句子确定为所述第二句子;根据所述第一句子以及所述第二句子,获取所述第一待训练平行文本。7.根据权利要求6所述的训练方法,其特征在于,所述根据所述第一句子以及所述第二句子,获取所述第一待训练平行文本,包括:获取所述第一句子所对应的第一标点以及所述第二句子所对应的第二标点;若所述第一标点与所述第二标点匹配成功,则获取所述第一待训练平行文本;或者,所述根据所述第一句子以及所述第二句子,获取所述第一待训练平行文本,包括:获取所述第一句子所对应的第一词语数以及所述第二句子所对应的第二词语数;根据所述第一词语数和第二词语数,确定词语比例;若所述词语比例在词语比例区间内,则获取所述第一待训练平行文本。8.根据权利要求1所述的训练方法,其特征在于,所述获取第一待训练平行文本,包括:获取待处理平行文本,其中,所述待处理平行文本包括第一待处理句子以及第二待处理句子,所述第一待处理句子来源于所...

【专利技术属性】
技术研发人员:王龙跃刘宏烨
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1