当前位置: 首页 > 专利查询>天津大学专利>正文

一种基于翻译的跨语言短语结构分析方法及装置制造方法及图纸

技术编号:33840568 阅读:17 留言:0更新日期:2022-06-16 12:06
本发明专利技术公开了一种基于翻译的跨语言短语结构分析方法及装置,涉及自然语言处理技术领域。包括:获取待分析的句子;将待分析的句子输入到构建好的跨语言短语结构分析模型;其中,跨语言短语结构分析模型包括短语结构树库构建模块以及短语结构解析器模块;根据待分析的句子、短语结构树库构建模块以及短语结构解析器模块,得到待分析的句子的短语结构分析结果。本发明专利技术解决了当前很多语言缺少短语结构树库语料或者完全没有短语结构标注数据的问题。提出的基于翻译的跨语言短语结构分析方法可以扩展生成目标语言的短语结构树库,然后用树库训练得到的短语结构解析模型其质量更高。库训练得到的短语结构解析模型其质量更高。库训练得到的短语结构解析模型其质量更高。

【技术实现步骤摘要】
一种基于翻译的跨语言短语结构分析方法及装置


[0001]本专利技术涉及自然语言处理
,特别是指一种基于翻译的跨语言短语结构分析方法及装置。

技术介绍

[0002]短语结构分析又被称为句法结构分析或成分结构分析,短语结构分析的目标是给定输入句子,构建整个句子的句法结构并输出其完整的短语结构。近几年来,随着深度学习和预训练模型在自然语言处理领域的应用和研究,有监督的短语结构句法分析任务已经达到很高的准确率,但是,这类针对单语言数据集的句法结构分析模型,其性能难以泛化到其他语言的句法结构任务中。当前已有科研工作者提出了多语言的句法结构分析模型,但是其受限于标注语料语言,即只有统一风格标注的树库才能进行。而短语结构树库语料的标注构建需要语言专家大量的时间精力,目前已经存在的短语结构树库主要是语言使用率较高的英语、中文、德语以及法语等语言,其余大部分语言短语树库语料标注数据数量很少或者没有标注数据。基于此,利用标注资源丰富的源语言帮助标注稀缺的目标语言实现跨语言句法分析成为必然趋势。
[0003]跨语言句法分析模型方法主要分为三类:模型迁移、标注映射以及树库翻译方法。迁移模型直接用源语言训练的模型来解析目标语言,可以将源语言和目标语言的词向量映射到统一空间中,使得源语言和目标语言更容易交互,但是模型很难只获取到与语言无关的句法结构特征,这种特征在不同语言的树库预料上是统一的。这种直接模型迁移的方法很难获得性能表现好的跨语言句法结构分析模型。而标注映射是用平行语料和对齐来映射源语言句子的标注信息。这类模型方法是直接将源语言的解析器直接应用到目标语言中,然后利用平行语料来将树库对齐,这种目标语言树库是自动生成的,所以包含很大噪声,树库数据困难存在的致命问题就导致最终的模型性能也不高。最后一类跨语言方法主要是通过翻译来生成平行语料,然后再通过标注信息映射来得到目标语言的语料树库,本专利的跨语言句法结构分析也属于这一类方法,相比于前面两种跨语言方法,这种基于翻译的跨语言句法分析模型可以直接获取到比较可信的目标语言句法树库,且这种翻译方法可以迁移应用到几乎所有语言的句法分析任务中,但是,短语树结构的映射方法比较复杂,存在词难以对齐的问题,但是,当前对于这类跨语言句法分析的研究较少。多语言短语结构分析模型也可以实现一定程度的跨语言能力,需要多种语言统一风格的短语结构标注数据,多语言任务性能的提升很大程度上得益于多语言预训练模型包含的知识。
[0004]基于模型迁移的跨语言短语结构分析模型,因为深度学习难以解释并且准确获取语言无关且句法结构专有的知识,模型最终获取的信息通常是句法信息和语言信息混杂而成,这就导致了直接基于模型迁移的方法进行跨语言短语结构解析的性能不可靠。
[0005]基于标注映射的跨语言短语结构分析模型,因为引入了平行语料可以获取更多源语言和目标语言的共性知识,所以该类方法性能会有所提升,但是因为没有获取目标语言的语料库,而是直接应用源语言句法模型输出的结构,所以模型性能也不够可靠。
[0006]基于翻译的跨语言短语结构分析模型,这种方法相对来说引入了更多的外部数据和知识,包括翻译的平行语句,对齐模型,以及标注映射方法,这样使得模型最终可以获得较高质量的翻译树库,但是不同语言的句子之间存在难以对齐问题,不同处理方法获取的目标语言树库使得最终句法模型的性能不同。
[0007]多语言短语结构分析模型,和跨语言短语结构分析模型任务比起来,跨语言主要针对模型和方法的迁移能力,而跨语言侧重于模型的泛化能力,跨语言需要训练或微调对应语言具有充足数据,但不能深层次解决跨语言面对的语料库缺少或者没有标注数据的问题。构建大规模短语结构句法黄金标准语料库是一项费时费力成本较高的工作,常需要语言学专家的长期标注,而多种语言的统一风格的短语结构树库标注数据需要更多的资源。
[0008]因此,亟需解决当前大部分语言缺少短语结构树库或者完全没有响应标注数据的问题,虽然理论上存在模型迁移、标注映射以及多语言短语结构模型等针对跨语言短语结构分析任务,但是每种方法都存在多种限制问题,因为没有高质量的目标语言短语树库语料,使得最终模型的性能不好。

技术实现思路

[0009]本专利技术针对当前大部分语言缺少短语结构树库或者完全没有响应标注数据的问题,提出了本专利技术。
[0010]为解决上述技术问题,本专利技术提供如下技术方案:一方面,本专利技术提供了一种基于翻译的跨语言短语结构分析方法,该方法由电子设备实现,该方法包括:S1、获取待分析的句子。
[0011]S2、将待分析的句子输入到构建好的跨语言短语结构分析模型;其中,跨语言短语结构分析模型包括短语结构树库构建模块以及短语结构解析器模块。
[0012]S3、根据待分析的句子、短语结构树库构建模块以及短语结构解析器模块,得到待分析的句子的短语结构分析结果。
[0013]可选地,S2中的跨语言短语结构分析模型的构建过程包括:S21、获取源语言短语结构树库。
[0014]S22、将源语言短语结构树库输入到短语结构树库构建模块,得到目标语言短语结构树库。
[0015]S23、根据目标语言短语结构树库以及预训练的自注意力机制解析器,构建短语结构解析器模块。
[0016]可选地,短语结构树库构建模块包括翻译模块、对齐模型以及调整模块。
[0017]S22中的将源语言短语结构树库输入到短语结构树库构建模块,得到目标语言短语结构树库包括:S221、获取源语言短语结构树库中的源语言句子,将源语言句子输入到翻译模块,得到目标语言句子。
[0018]S222、将源语言句子以及目标语言句子输入到对齐模型,输出句子对中词语的对齐概率;其中,句子对包括源语言句子以及目标语言句子。
[0019]S223、将句子对中词语的对齐概率输入到调整模块,得到目标语言短语结构树库。
[0020]可选地,S221中的将源语言句子输入到翻译模块,得到目标语言句子包括:采用翻译工具包将源语言句子翻译为目标语言句子。
[0021]对目标语言句子进行检查;其中,检查的方法为比较源语言句子和目标语言句子的长度。
[0022]判断检查后的目标语言句子是否需要分词,若是,则采用分词工具对检查后的目标语言句子进行分词,得到最终的目标语言句子。
[0023]可选地,S222中的对齐模型为无监督的fast_align对齐模型。
[0024]对齐模型的训练数据集的获取方法包括:获取对齐语句,将对齐语句的格式转换为fast_align对齐模型的格式;对格式转换后的对齐语句的指标进行检查,得到对齐模型的训练数据集;其中,指标包括源语言句子或者目标语言句子的缺失情况以及源语言句子或者目标语言句子是否需要进行分词操作。
[0025]可选地,调整模块包括替换单元、删除单元以及树结构扭转单元。
[0026]S223中的将句子对中词语的对齐概率输入到调整模块,得到目标语言短语结构树库包括:将句子对中词语的对齐概率输入到替换单元,替换单元本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于翻译的跨语言短语结构分析方法,其特征在于,所述方法包括:S1、获取待分析的句子;S2、将所述待分析的句子输入到构建好的跨语言短语结构分析模型;其中,所述跨语言短语结构分析模型包括短语结构树库构建模块以及短语结构解析器模块;S3、根据所述待分析的句子、短语结构树库构建模块以及短语结构解析器模块,得到待分析的句子的短语结构分析结果。2.根据权利要求1所述的方法,其特征在于,所述S2中的跨语言短语结构分析模型的构建过程包括:S21、获取源语言短语结构树库;S22、将所述源语言短语结构树库输入到所述短语结构树库构建模块,得到目标语言短语结构树库;S23、根据所述目标语言短语结构树库以及预训练的自注意力机制解析器,构建所述短语结构解析器模块。3.根据权利要求2所述的方法,其特征在于,所述短语结构树库构建模块包括翻译模块、对齐模型以及调整模块;所述S22中的将所述源语言短语结构树库输入到所述短语结构树库构建模块,得到目标语言短语结构树库包括:S221、获取源语言短语结构树库中的源语言句子,将所述源语言句子输入到所述翻译模块,得到目标语言句子;S222、将所述源语言句子以及目标语言句子输入到所述对齐模型,输出句子对中词语的对齐概率;其中,所述句子对包括源语言句子以及目标语言句子;S223、将所述句子对中词语的对齐概率输入到所述调整模块,得到目标语言短语结构树库。4.根据权利要求3所述的方法,其特征在于,所述S221中的将所述源语言句子输入到所述翻译模块,得到目标语言句子包括:采用翻译工具包将所述源语言句子翻译为目标语言句子;对所述目标语言句子进行检查;其中,所述检查的方法为比较源语言句子和目标语言句子的长度;判断检查后的目标语言句子是否需要分词,若是,则采用分词工具对所述检查后的目标语言句子进行分词,得到最终的目标语言句子。5.根据权利要求3所述的方法,其特征在于,所述S222中的对齐模型为无监督的fast_align对齐模型;所述对齐模型的训练数据集的获取方法包括:获取对齐语句,将所述对齐语句的格式转换为fast_align对齐模型的格式;对格式转换后的对齐语句的指标进行检查,得到对齐模型的训练数据集;其中,所述指标包括源语言句子或者目标语言句子的缺失情况以及源语言句子或者目标语言句子是否需要进行分词操作。6.根据权利要求3所述的方法,其特征在于,所述调整模块包括替换单元、删除单元以及树结构扭转单元;
...

【专利技术属性】
技术研发人员:张梅山李建玲孙越恒
申请(专利权)人:天津大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1