篇章翻译网络的数据增强方法技术

技术编号:25915874 阅读:16 留言:0更新日期:2020-10-13 10:34
本发明专利技术提供了篇章翻译网络的数据增强方法,该篇章翻译网络的数据增强方法利用NLU领域生成网络生成相应的篇章翻译数据,其能够丰富篇章数据的数据量和提高篇章数据的质量,以此改善篇章翻译网络的翻译效果;此外,该数据增强方法还通过篇章翻译网络这一上下文关联功能模块,将上下文信息有效地和精准地引入到翻译过程中,从而最大限度地提高翻译结果的忠实度和准确度。

【技术实现步骤摘要】
篇章翻译网络的数据增强方法
本专利技术涉及篇章数据处理的
,特别涉及篇章翻译网络的数据增强方法。
技术介绍
人工智能技术已经广泛应用于不同工作场合中,其特别对语言翻译场合具有重要的影响。目前,在人工智能翻译任务实现中,常用的翻译模式是通过句级别的双语语料来训练翻译网络模型,但是在实际操作过程中,由于缺乏上下文关联信息,容易出现翻译结果忠实度和准确度低下的情况。虽然,从网络爬取能得到篇章翻译的数据,但是若篇章翻译数据的数据量不足够,而且无法保证与句级别双语语料同源,这会使得就算有篇章数据,也无法提升翻译效果,即篇章数据的质量会直接影响翻译效果。可见,篇章数据的质量对应翻译结果的忠实度和准确度具有至关重要的作用。
技术实现思路
针对现有技术存在的缺陷,本专利技术提供篇章翻译网络的数据增强方法,该篇章翻译网络的数据增强方法包括根据关于源语言的源语料S1和目标语料S2对关于NLU领域的生成网络和训练篇章网络进行训练,以此生成相应的源生成网络模型M1、目标生成网络模型M2和初级篇章翻译网络模型M4,再通过该源生成网络模型M1和该目标生成网络模型M2将该源语料S1和该目标语料S2转换成源篇章数据C1和目标篇章数据C2,最后基于该源篇章数据C1和该目标篇章数据C2对该初级篇章翻译网络模型M4训练,以此生成期望篇章翻译网络模型M5;可见,该篇章翻译网络的数据增强方法利用NLU领域生成网络生成相应的篇章翻译数据,其能够丰富篇章数据的数据量和提高篇章数据的质量,以此改善篇章翻译网络的翻译效果;此外,该数据增强方法还通过篇章翻译网络这一上下文关联功能模块,将上下文信息有效地和精准地引入到翻译过程中,从而最大限度地提高翻译结果的忠实度和准确度。本专利技术提供篇章翻译网络的数据增强方法,其特征在于,所述篇章翻译网络的数据增强方法包括如下步骤:步骤T1,根据关于源语言的源语料S1和目标语料S2对预设生成网络进行训练,以此对应得到源生成网络模型M1和目标生成网络模型M2;步骤T2,通过所述源语料S1和所述目标语料S2,使用2步法对篇章翻译网络进行训练,以此得到翻译模型M3,再根据所述翻译模型M3,生成初级篇章翻译网络模型M4;步骤T3,通过所述源生成网络模型M1和所述目标生成网络模型M2,分别将所述源语料S1和所述目标语料S2转换成源篇章数据C1和目标篇章数据C2;步骤T4,通过所述源篇章数据C1和所述目标篇章数据C2,对所述初级篇章翻译网络模型M4进行处理,以此生成期望篇章翻译网络模型M5;进一步,在所述步骤T1中,根据关于源语言的源语料S1和目标语料S2对预设生成网络进行训练,以此对应得到源生成网络模型M1和目标生成网络模型M2具体包括,步骤T101,根据所述源语料S1,对关于NLU领域的生成网络进行第一单语训练;步骤T102,根据所述目标语料S2,对关于NLU领域的生成网络进行第二单语训练;步骤T103,根据所述第一单语训练和所述第二单语训练的结果,以此得到所述源生成网络模型M1和所述目标生成网络模型M2;进一步,在所述步骤T101中,根据所述源语料S1,对关于NLU领域的生成网络进行第一单语训练具体包括,将所述源语料S1进行单语形式摘选,以此获得单语源语料,再根据所述单语源语料对关于GPT或者GPT-2的生成网络进行所述第一单语训练;或者,在所述步骤T102中,根据所述目标语料S2,对关于NLU领域的生成网络进行第二单语训练具体包括,将所述目标语料S2进行单语形式摘选,以此获得单语目标语料,再根据所述单语目标语料对关于GPT或者GPT-2的生成网络进行所述第二单语训练;进一步,在所述步骤T2中,通过所述源语料S1和所述目标语料S2,使用2步法对篇章翻译网络进行训练,以此得到翻译模型M3,再根据所述翻译模型M3,生成初级篇章翻译网络模型M4具体包括,步骤T201,通过所述源语料S1和所述目标语料S2,使用2步法对篇章翻译网络的源端和目标端进行重复训练,以此得到所述翻译模型M3;步骤T202,根据所述翻译模型M3的源端编码器Encoder1和目标端解码器Decoder1的网络权值,生成所述初级篇章翻译网络模型M4;进一步,在所述步骤T201中,通过所述源语料S1和所述目标语料S2,使用2步法对篇章翻译网络的源端和目标端进行重复训练,以此得到所述翻译模型M3具体包括,通过所述源语料S1和所述目标语料S2,对所述篇章翻译网络的源端和目标端分别进行关于数据重复训练和框架评估的2步法训练,以此得到所述翻译模型M3;或者,在所述步骤T202中,根据所述翻译模型M3的源端编码器Encoder1和目标端解码器Decoder1的网络权值,生成所述初级篇章翻译网络模型M4具体包括,步骤T2021,根据翻译网络演变算法,计算获得所述翻译模型M3的源端编码器Encoder1和目标端解码器Decoder1各自的第一网络权值和第二网络权值;步骤T2022,将所述第一网络权值和所述第二网络权值拷贝至所述篇章翻译网络对应的源端编码器Encoder2和目标端解码器Decoder2,以此生成所述初级篇章翻译网络模型M4;进一步,在所述步骤T3中,通过所述源生成网络模型M1和所述目标生成网络模型M2,分别将所述源语料S1和所述目标语料S2转换成源篇章数据C1和目标篇章数据C2具体包括,步骤T301,通过所述源生成网络模型M1对句级别化的所述源语料S1进行数据处理,以此得到与所述源语料S1相关的源篇章数据C1;步骤T302,通过所述目标生成网络模型M2对句级别化的所述目标语料S2进行数据处理,以此得到与所述目标语料S2相关的目标篇章数据C2;进一步,在所述步骤T301中,通过所述源生成网络模型M1对句级别化的所述源语料S1进行数据处理,以此得到与所述源语料S1相关的源篇章数据C1具体包括,步骤T3011,根据预定句子长度和/或句子语义划分模式,将所述源语料S1进行句级别化处理,以此得到句级别化源语料;步骤T3012,通过所述源生成网络模型M1对所述句级别化源语料进行语义关联处理,以此得到与所述源语料S1相关的源篇章数据C1;或者,在所述步骤T302中,通过所述目标生成网络模型M2对句级别化的所述目标语料S2进行数据处理,以此得到与所述目标语料S2相关的目标篇章数据C2具体包括,步骤T3021,根据预定句子长度和/或句子语义划分模式,将所述目标语料S2进行句级别化处理,以此得到句级别化目标语料;步骤T3022,通过所述目标生成网络模型M2对所述句级别化目标语料进行语义关联处理,以此得到与所述目标语料S2相关的目标篇章数据C2;进一步,在所述步骤T4中,通过所述源篇章数据C1和所述目标篇章数据C2,对所述初级篇章翻译网络模型M4进行处理,以此生成期望篇章翻译网络模型M5具体包括,步骤T401,通过所述源篇章数据C1和所述目标篇本文档来自技高网...

【技术保护点】
1.篇章翻译网络的数据增强方法,其特征在于,所述篇章翻译网络的数据增强方法包括如下步骤:/n步骤T1,根据关于源语言的源语料S1和目标语料S2对预设生成网络进行训练,以此对应得到源生成网络模型M1和目标生成网络模型M2;/n步骤T2,通过所述源语料S1和所述目标语料S2,使用2步法对篇章翻译网络进行训练,以此得到翻译模型M3,再根据所述翻译模型M3,生成初级篇章翻译网络模型M4;/n步骤T3,通过所述源生成网络模型M1和所述目标生成网络模型M2,分别将所述源语料S1和所述目标语料S2转换成源篇章数据C1和目标篇章数据C2;/n步骤T4,通过所述源篇章数据C1和所述目标篇章数据C2,对所述初级篇章翻译网络模型M4进行处理,以此生成期望篇章翻译网络模型M5。/n

【技术特征摘要】
1.篇章翻译网络的数据增强方法,其特征在于,所述篇章翻译网络的数据增强方法包括如下步骤:
步骤T1,根据关于源语言的源语料S1和目标语料S2对预设生成网络进行训练,以此对应得到源生成网络模型M1和目标生成网络模型M2;
步骤T2,通过所述源语料S1和所述目标语料S2,使用2步法对篇章翻译网络进行训练,以此得到翻译模型M3,再根据所述翻译模型M3,生成初级篇章翻译网络模型M4;
步骤T3,通过所述源生成网络模型M1和所述目标生成网络模型M2,分别将所述源语料S1和所述目标语料S2转换成源篇章数据C1和目标篇章数据C2;
步骤T4,通过所述源篇章数据C1和所述目标篇章数据C2,对所述初级篇章翻译网络模型M4进行处理,以此生成期望篇章翻译网络模型M5。


2.如权利要求1所述的篇章翻译网络的数据增强方法,其特征在于:
在所述步骤T1中,根据关于源语言的源语料S1和目标语料S2对预设生成网络进行训练,以此对应得到源生成网络模型M1和目标生成网络模型M2具体包括,
步骤T101,根据所述源语料S1,对关于NLU领域的生成网络进行第一单语训练;
步骤T102,根据所述目标语料S2,对关于NLU领域的生成网络进行第二单语训练;
步骤T103,根据所述第一单语训练和所述第二单语训练的结果,以此得到所述源生成网络模型M1和所述目标生成网络模型M2。


3.如权利要求2所述的篇章翻译网络的数据增强方法,其特征在于:
在所述步骤T101中,根据所述源语料S1,对关于NLU领域的生成网络进行第一单语训练具体包括,
将所述源语料S1进行单语形式摘选,以此获得单语源语料,再根据所述单语源语料对关于GPT或者GPT-2的生成网络进行所述第一单语训练;
或者,
在所述步骤T102中,根据所述目标语料S2,对关于NLU领域的生成网络进行第二单语训练具体包括,
将所述目标语料S2进行单语形式摘选,以此获得单语目标语料,再根据所述单语目标语料对关于GPT或者GPT-2的生成网络进行所述第二单语训练。


4.如权利要求1所述的篇章翻译网络的数据增强方法,其特征在于:
在所述步骤T2中,通过所述源语料S1和所述目标语料S2,使用2步法对篇章翻译网络进行训练,以此得到翻译模型M3,再根据所述翻译模型M3,生成初级篇章翻译网络模型M4具体包括,
步骤T201,通过所述源语料S1和所述目标语料S2,使用2步法对篇章翻译网络的源端和目标端进行重复训练,以此得到所述翻译模型M3;
步骤T202,根据所述翻译模型M3的源端编码器Encoder1和目标端解码器Decoder1的网络权值,生成所述初级篇章翻译网络模型M4。


5.如权利要求4所述的篇章翻译网络的数据增强方法,其特征在于:
在所述步骤T201中,通过所述源语料S1和所述目标语料S2,使用2步法对篇章翻译网络的源端和目标端进行重复训练,以此得到所述翻译模型M3具体包括,
通过所述源语料S1和所述目标语料S2,对所述篇章翻译网络的源端和目标端分别进行关于数据重复训练和框架评估的2步法训练,以此得到所述翻译模型M3;
或者,
在所述步骤T202中,根据所述翻译模型M3的源端编码器Encoder1和目标端解码器Decoder1的网络权值,生成所述初级篇章翻译网络模型M4具体包括,
步骤T2021,根据翻译网络演变算法,计算获得所述翻译模型M3的源端编码器Encode...

【专利技术属性】
技术研发人员:陈巍华
申请(专利权)人:云知声智能科技股份有限公司厦门云知芯智能科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1