当前位置: 首页 > 专利查询>延边大学专利>正文

基于多粒度表征的朝汉神经机器翻译方法技术

技术编号:34836326 阅读:25 留言:0更新日期:2022-09-08 07:31
本发明专利技术公开了基于多粒度表征的朝汉神经机器翻译方法,包括:采集朝鲜语语料的文本数据并进行预处理,获得语料文本数据的多粒度序列表示;构建神经机器翻译模型,基于所述神经机器翻译模型对所述语料文本数据的多粒度序列进行翻译,获得目标语言译文。本发明专利技术通过利用源语言的语言结构信息改善机器翻译模型的性能,增强了朝鲜语句法和语义信息建模能力。增强了朝鲜语句法和语义信息建模能力。增强了朝鲜语句法和语义信息建模能力。

【技术实现步骤摘要】
基于多粒度表征的朝汉神经机器翻译方法


[0001]本专利技术属于自然语言处理机器翻译领域,特别是涉及基于多粒度表征的朝汉神经机器翻译方法。

技术介绍

[0002]机器翻译任务是指利用计算机自动地将源语言翻译到与其语义相对应的目标语言的过程,是自然语言处理领域的重要研究方向之一。机器翻译在一些对译文质量要求不高的场景下,或者是在特定领域翻译任务上,其翻译速度和性能具有明显优势,得到了广泛应用。鉴于机器翻译的复杂性和适用性,自然语言处理领域将该任务视为一个重要研究方向,并且机器翻译已成为该领域最活跃的研究课题之一。
[0003]机器翻译方法主要包括基于规则的方法、基于统计的方法和基于神经网络的方法。其中神经机器翻译模型被首次提出后,大量基于编码器

解码器结构的神经机器翻译模型就不断涌现,翻译性能与速度也不断被刷新。随深度学习等机器学习技术的不断成熟,神经机器翻译模型由于其优越的性能和无需过多人工干预等特点备受学者关注。尽管神经机器翻译模型在性能方面已远远超越了传统机器翻译模型,但其未来发展仍旧具有强大发展潜力。
[0004]朝鲜语是我国朝鲜族的官方语言,朝鲜族是我国24个拥有自己语言的少数民族之一。研究朝汉翻译有利于促进民族文化交流,也有利于朝鲜族民族文化的传播、保留和发展,提供科学的文化依据。国内针对少数民族语言的机器翻译研究,主要集中在蒙古语、藏语、维吾尔语等几种少数民族语言中,对于中朝神经机器翻译的研究几乎空白。
[0005]朝鲜语属于低资源语言,对于朝鲜语的相关研究因其语料资源匮乏、语言自身特点等原因进展缓慢,其语料规模、领域、质量等因素都极大限制了中朝机器翻译研究的开展。此外,朝鲜语属于黏着语,由附加成分拼接在词根上构成丰富的形态变化,并且双语资源相对匮乏,无法较好地训练巨大的模型,存在翻译译文不忠实的情况。

技术实现思路

[0006]本专利技术使用语言学中的先验结构知识指导语言模型,得到更好的注意力分布。通过将朝鲜语自身丰富的形态变化改进模型中学习不充分的部分,通过不同的tokenization使得模型具备从不同子空间捕捉信息的能力,鼓励模型的多样性,避免由于固定的输入粒度导致模型在解码过程中利用率差的问题,同时消除模型中数据可用性有限的问题。
[0007]为解决上述问题,本专利技术提供了如下方案:基于多粒度表征的朝汉神经机器翻译方法,包括:
[0008]采集朝鲜语语料的文本数据并进行预处理,获得语料文本数据的多粒度序列表示;
[0009]构建神经机器翻译模型,基于所述神经机器翻译模型对所述语料文本数据的多粒度序列进行翻译,获得目标语言译文。
[0010]优选地,所述预处理过程包括,将朝鲜语语料的文本数据通过符合朝鲜语语言特征并与机器翻译相适应的朝鲜语语言处理单位进行多粒度划分处理,获得多粒度序列表示。
[0011]优选地,通过符合朝鲜语语言特征并与机器翻译相适应的朝鲜语语言处理单位进行多粒度划分处理包括,基于朝鲜语文本的词根词缀构词法设计子语节与子词素粒度处理单位,结合字粒度处理方法,获得音节粒度序列。
[0012]优选地,所述子语节与子词素粒度处理单位进行处理的过程包括,
[0013]子语节粒度中采用WordPiece子词词表构造算法,选择子词对合并后导致计算整个训练数据似然率最高的子词对进行合并,获得子语节粒度序列;
[0014]子词素粒度采用WordPiece与朝鲜语形态素分析相结合的方法,获得token序列;根据WordPiece计算得到似然率最高的合并子词对后,使用KoNLPy形态素分析器分析句子中形态素与词性信息,对符合朝鲜语语法结构token进行合并与切分,获得子词素粒度序列。
[0015]优选地,基于所述神经机器翻译模型对所述语料文本数据的多粒度序列进行翻译之前还包括,
[0016]根据所述多粒度序列表示获得句子表示向量,通过多头多粒度注意力结构提取句子特征,获得多粒度句子特征;
[0017]基于粒度感知掩码方法对所述多粒度句子特征进行动态掩码。
[0018]优选地,基于粒度感知掩码方法对所述多粒度句子特征进行动态掩码为,将子语节粒度序列和音节粒度序列两个不同粒度序列中的相同标记信息进行掩码,使得注意力机制更加关注序列间不同粒度切分后的语义信息。
[0019]优选地,基于所述神经机器翻译模型对所述语料文本数据的多粒度序列进行翻译还包括,对所述语料文本数据的多粒度序列进行翻译至基于多粒度表征的神经机器翻译模型收敛,获得目标语言译文。
[0020]与现有方法相比,本专利技术优点如下:
[0021](1)本专利技术使用语言学中的先验结构知识指导语言模型,利用朝鲜语丰富的形态变化,将多粒度的文本表征融入到注意力机制中,为句子表示增加扰动,改进低资源情况下模型的过拟合问题;
[0022](2)本专利技术提出了多头多粒度注意力机制,使用注意力机制分别捕获文本序列中不同粒度携带的特殊语言结构信息,当同时获取不同粒度的结构信息后,语言模型能充分捕捉语言特征,并改善多头注意力机制中的信息冗余问题;
[0023]另一方面,不同于将多粒度信息直接Concat拼接的方式,直接Concat多个粒度会存在将额外辅助信息与主粒度切分不可逆的融合,在解码时带来额外的信息冗余。而专利技术提出的方法保证了在各层编码器中所得注意力与主token序列在一致的向量空间中,同时引入了额外的辅助信息考虑了句子中不同粒度的交互。
[0024](3)本专利技术提出了粒度感知掩码方法,增强了模型对于序列中不同划分的token结构,强化结构间的差异性,可以利用源语言的语言结构信息改善机器翻译模型的性能,增强了朝鲜语句法和语义信息建模能力。
附图说明
[0025]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0026]图1为本专利技术实施例的方法流程图;
[0027]图2为本专利技术实施例的翻译模型的基本结构图;
[0028]图3为本专利技术实施例的多头多粒度注意力详细结构图;
[0029]图4为本专利技术实施例的粒度感知掩码方法详细结构图;
[0030]图5为本专利技术实施例的粒度感知掩码方法的示例图。
具体实施方式
[0031]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0032]为使本专利技术的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本专利技术作进一步详细的说明。
[0033]如图1所示,本专利技术提供了基于多本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于多粒度表征的朝汉神经机器翻译方法,其特征在于,包括:采集朝鲜语语料的文本数据并进行预处理,获得语料文本数据的多粒度序列表示;构建神经机器翻译模型,基于所述神经机器翻译模型对所述语料文本数据的多粒度序列进行翻译,获得目标语言译文。2.根据权利要求1所述的基于多粒度表征的朝汉神经机器翻译方法,其特征在于,所述预处理过程包括,将朝鲜语语料的文本数据通过符合朝鲜语语言特征并与机器翻译相适应的朝鲜语语言处理单位进行多粒度划分处理,获得多粒度序列表示。3.根据权利要求2所述的基于多粒度表征的朝汉神经机器翻译方法,其特征在于,通过符合朝鲜语语言特征并与机器翻译相适应的朝鲜语语言处理单位进行多粒度划分处理包括,基于朝鲜语文本的词根词缀构词法设计子语节与子词素粒度处理单位,结合字粒度处理方法,获得音节粒度序列。4.根据权利要求3所述的基于多粒度表征的朝汉神经机器翻译方法,其特征在于,所述子语节与子词素粒度处理单位进行处理的过程包括,子语节粒度中采用WordPiece子词词表构造算法,选择子词对合并后导致计算整个训练数据似然率最高的子词对进行合并,获得子语节粒度序列;子词素粒度采用WordPiece与朝鲜语形态素分析...

【专利技术属性】
技术研发人员:赵亚慧金晶崔荣一金国哲张振国李德李飞雨姜克鑫王苑儒刘帆夏明会鲁雅鑫赵晓辉
申请(专利权)人:延边大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1