【技术实现步骤摘要】
一种文本翻译模型的训练方法、文本翻译的方法及装置
[0001]本申请涉及自然语言处理处理,尤其涉及一种文本翻译模型的训练方法、文本翻译的方法及装置。
技术介绍
[0002]网络小说是指利用互联网发表并传播的书面文学作品,与一般的小说相比,网络小说的语法更近口语并充斥网络流行语。如今,中国网络文学通过对外授权开始网文出海,翻译一部网络小说的成分非常高,因此,网络小说翻译亟需借助人工智能(Artificial Intelligence,AI))技术来提高网文翻译效率,降低翻译成本。
[0003]针对网络小说的翻译,目前,提出了一种翻译数字图形小说的方法,首先接收数字图形小说内容,然后识别图形小说内容的特征,该有特征包括文本特征,再基于所识别的特征,生成与文本特征对应的场境信息,该场境信息用于辅助文本翻译。
[0004]然而,大部分的网络小说并非以数字图形小说的形式呈现,而是以全文字或者大量文字的形式呈现,因此,需要训练一种用于网络小说翻译的模型。由于网络小说涉及版权等问题,目前尚未有网络小说的平行语料库,因此,难以实现网络小说翻译模型的训练。
技术实现思路
[0005]本申请实施例提供了一种文本翻译模型的训练方法、文本翻译的方法及装置,能够将自动抓取到的文本进行对齐处理,从而生成用于模型训练的平行语料,由此实现模型的自我训练。
[0006]有鉴于此,本申请一方面提供一种文本翻译模型的训练方法,包括:
[0007]获取第一文本以及第二文本,其中,第一文本对应于源语种,第二文本 ...
【技术保护点】
【技术特征摘要】
1.一种文本翻译模型的训练方法,其特征在于,包括:获取第一文本以及第二文本,其中,所述第一文本对应于源语种,所述第二文本对应于目标语种,所述源语种与所述目标语种属于不同的语种;若所述第一文本以及所述第二文本满足文本对齐条件,则获取第一待训练平行文本,其中,所述第一待训练平行文本包括第一句子以及第二句子,所述第一句子来源于所述第一文本,所述第二句子来源于所述第二文本,且所述第二句子为所述第一句子对应的翻译结果;基于所述第一待训练平行文本所包括的所述第一句子,通过文本翻译模型获取第一翻译文本;根据所述第一翻译文本以及所述第二句子,对所述文本翻译模型进行训练。2.根据权利要求1所述的训练方法,其特征在于,所述获取第一文本以及第二文本,包括:获取第一链接地址以及第二链接地址;根据所述第一链接地址获取第一元信息,其中,所述第一元信息包括所述第一文本所对应的标题信息、章节名称、作者信息、文本类型、译员信息、完结标识以及更新日期中的至少一项;若所述第一元信息满足文本更新条件,则获取所述第一文本;根据所述第二链接地址获取第二元信息,其中,所述第二元信息包括所述第二文本所对应的标题信息、章节名称、作者信息、文本类型、译员信息、完结标识以及更新日期中的至少一项;若所述第二元信息满足所述文本更新条件,则获取所述第二文本。3.根据权利要求1所述的训练方法,其特征在于,所述获取第一文本以及第二文本之后,所述方法还包括:根据所述第一文本以及所述第二文本,确定标题匹配结果;根据所述第一文本以及所述第二文本,确定章节匹配结果;若所述标题匹配结果以及所述章节匹配结果均为第一匹配结果,则确定所述第一文本以及所述第二文本满足所述文本对齐条件,其中,所述第一匹配结果表示匹配成功;若所述标题匹配结果以及所述章节匹配结果中的至少一项为第二匹配结果,则确定所述第一文本以及所述第二文本未满足所述文本对齐条件,其中,所述第二匹配结果表示匹配失败。4.根据权利要求3所述的训练方法,其特征在于,所述根据所述第一文本以及所述第二文本,确定标题匹配结果,包括:获取所述第一文本所对应的第一标题信息以及所述第二文本所对应的第二标题信息;基于多语种标题集合,对所述第一标题信息以及所述第二标题信息进行匹配,得到所述标题匹配结果,其中,所述多语种标题集合包括至少一组标题信息,每组标题信息至少包括所述源语种所对应的标题信息以及所述目标语种所对应的标题信息。5.根据权利要求3所述的训练方法,其特征在于,所述根据所述第一文本以及所述第二文本,确定章节匹配结果,包括:获取所述第一文本的第一章节信息以及所述第二文本的第二章节信息,其中,所述第
一章节信息包括第一词语以及第一章节编号,所述第二章节信息包括第二词语以及第二章节编号;基于多语种词语集合,对所述第一章节信息所包括的所述第一词语以及所述第二章节信息所包括的第二词语进行匹配,得到第一匹配子结果;对所述第一章节信息所包括的所述第一章节编号以及所述第二章节信息所包括的第二章节编号进行匹配,得到第二匹配子结果;根据所述第一匹配子结果以及所述第二匹配子结果,确定所述章节匹配结果。6.根据权利要求1所述的训练方法,其特征在于,所述获取第一待训练平行文本,包括:获取所述第一文本中的源端句子;基于所述源端句子,通过所述文本翻译模型获取第一待匹配句子;获取所述第一待匹配句子以及所述第二文本中的K个第二待匹配句子,其中,所述K为大于或等于1的整数;根据所述第一待匹配句子以及所述K个第二待匹配句子,确定K个匹配分值,其中,每个匹配分值对应于一个第二待匹配句子与所述第一待匹配句子;若所述K个匹配分值中的最大值大于或等于匹配分阈值,则将所述第一待匹配句子确定为所述第一句子,并将所述最大值所对应的第二待匹配句子确定为所述第二句子;根据所述第一句子以及所述第二句子,获取所述第一待训练平行文本。7.根据权利要求6所述的训练方法,其特征在于,所述根据所述第一句子以及所述第二句子,获取所述第一待训练平行文本,包括:获取所述第一句子所对应的第一标点以及所述第二句子所对应的第二标点;若所述第一标点与所述第二标点匹配成功,则获取所述第一待训练平行文本;或者,所述根据所述第一句子以及所述第二句子,获取所述第一待训练平行文本,包括:获取所述第一句子所对应的第一词语数以及所述第二句子所对应的第二词语数;根据所述第一词语数和第二词语数,确定词语比例;若所述词语比例在词语比例区间内,则获取所述第一待训练平行文本。8.根据权利要求1所述的训练方法,其特征在于,所述获取第一待训练平行文本,包括:获取待处理平行文本,其中,所述待处理平行文本包括第一待处理句子以及第二待处理句子,所述第一待处理句子来源于所...
【专利技术属性】
技术研发人员:王龙跃,刘宏烨,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。